用pinokiohttps://pinokio.computer/来本地部署一些AI项目真的很方便,我愿称之为开源普及之光比

用pinokiohttps://pinokio.computer/来本地部署一些AI项目真的很方便,我愿称之为开源项目普及之光比如ComfyUI、SD-WEBUI、SVD、Whisper、RVC、TokenFlow啊都可以很快在自己电脑上一键部署起来,很适合不太熟悉部署项目,但是又想体验最新技术的朋友。这周有设计同事想体验实时LCM涂鸦生成就是让她自己去用pinokio部署的。不过由于是部署在本地的,建议还是有NVIDIA显卡或者有m系列mac的用户使用。

相关推荐

封面图片

谷歌启动 Open Se Cura 开源框架计划,有望为 Pixel 设备带来低功耗本地 AI 功能

谷歌启动OpenSeCura开源框架计划,有望为Pixel设备带来低功耗本地AI功能谷歌日前推出了一项名为OpenSeCura的开源框架计划,目的是要加速开发适用于“小型设备”的低功耗 AI 系统。该框架包含了一套开源工具库,据称可以通过“协同设计和开发”,加速机器学习工作发展。谷歌指出,当代硬件发展的速度,落后于机器学习模型和软件开发速度,因此造成了大型AI模型发展障碍。而当下消费者对小型设备的需求快速增长,但在小型设备上,运行相关模型需要耗费大量电能,因此开发“小型设备”用低功耗 AI 系统相当有必要。谷歌目前启动的OpenSeCura 计划,便号称能够促进硬件设计师和软件开发人员协作,推动“硬件与软件共同设计”的理念,从软硬件底层角度最大限度提升AI系统设备端运行性能,而谷歌凭借这一项目,有望推出适用于Pixel设备的小型 AI模型,并借助自家Tensor芯片,实现设备侧低功耗运行AI助理。来源:https://www.aipeak.net/ainews/14648投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

一个开源的文档内容高效检索 AI 工具:Semantra,与传统的文本匹配方式不同,它能够直接使用语义查询,提升检索效率。可选择

一个开源的文档内容高效检索AI工具:Semantra,与传统的文本匹配方式不同,它能够直接使用语义查询,提升检索效率。可选择多种语言模型,支持在本地离线部署运行,注重隐私安全。使用命令行即可快速处理本地的文本和PDF文件。在任务完成后,它会在本地搭建一个Web搜索页面,让你能在界面上对直接查询文档。Semantra的设计目的是方便易用,可定制。适合需要在大量文档中进行精确搜索的个人或团体,例如新闻从业者、研究员、学生或教师等。主要作用是对存储在本地计算机上的文档(文本或PDF文件)进行操作,你可以选择处理单个或多个文档。该项目对文档的处理有两种方式:「内嵌模型」和调用「OpenAIAPI」。默认是用的MPNet语言模型。如果你电脑配置还过得去,或者想离线处理文档,可以优先选择下载大语言模型,这种方式可以最大程度保证你的隐私安全。如果想用OpenAIAPI,项目也提供了相对应的方案,不过所产生的Token消耗,你需要自行承担。针对这两种方案,作者都在GitHub中给出了详细文档。#工具

封面图片

微软Dev Box云端工作站服务现已开放公众预览

微软DevBox云端工作站服务现已开放公众预览在五月宣布了DevBox之后,微软终于在本周一开放了公众预览。其背后的想法,是为开发者提供在云端托管的“准备就绪”工作站体验,使之能够轻松利用预配置的环境来编写代码(而无需担心本地设备的架构)。(来自:MicrosoftBlog)在早期封测(PrivatePreview)阶段,DevBox仅向候补名单中的少数开发者开放体验。但随着公测(PublicPreview)的开启,更多人可以体验其与Azure部署环境、Intune和EndpointManager的集成。如有现成的项目模板,你将能够在DevBox上即刻启动并运行。微软表示,其希望通过这套解决方案,减少IT管理员在资源统筹、硬件采购、以及安全合规性等方面遇到的烦恼。对于开发者来说,也可借助已安装必要工具的DevBox,快速上手构建概念验证、然后毫无负担地清除预设环境。此外作为一项在云端托管的服务,你可通过网络、于任何地方轻松获得访问。管理方面,DevBox支持通过Azure活动目录(AAD)进行访问控制,且能够为各种用例配备不同的启动环境。起步配置为4核虚拟CPU/16GB内存,最高可选32核vCPU/128GBRAM,且采用了即用即付(PAYG)的托管模式。定价取决于具体的时间占用和资源开销,意味着开发者们能够在每天开工时自动化“预热”DevBox,然后在空闲时自动退出。微软指出,开发人员的灵活性和生产力,不能以牺牲安全性或合规性为代价。●DevBox基于Windows365构建,使IT管理员可通过MicrosoftIntune/EndpointManager轻松管理云PC和物理机。●管理员能够设置条件访问策略,以确保用户只能从合规设备访问DevBox。●同时使用加速质量更新,以使开发环境保持在最新状态,方便在整个组织中部署零日补丁、并快速隔离脆弱的设备。●EndpointManager的深度设备分析服务,可轻松审核应用程序运行状况、设备利用率和其它关键指标。●开发人员有信心专注于他们的代码,而无需担心让所在组织面临任何不必要的风险。感兴趣的DevBox客户,现可移步至Azure门户网站获取其喜欢的环境、或前往专题页以了解DevBox的更多细节。PC版:https://www.cnbeta.com/articles/soft/1304861.htm手机版:https://m.cnbeta.com/view/1304861.htm

封面图片

只需15分钟 iPhone 就能“复制”你的声音

只需15分钟iPhone就能“复制”你的声音到了今天,ALS患者虽然有了更多语音合成的选择,但总体费用和时间门槛仍然不低,普及度也有限。最近,苹果公布了全新无障碍功能PersonalVoice(暂未上线),不仅让用户能免费“备份”自己的声音,同时还在安全地应用AI技术上,作出了一次有意思的尝试。只需15分钟“调教”,就能生成你的声音在生成式AI可以模仿一切的时代里,用AI模仿一个人的声音听起来已经不算新奇,只是感觉有点安全隐患。我好奇的,更多是苹果要怎样安全和高效地实现PersonalVoice这一功能。据介绍,iPhone、iPad和Mac用户只需要根据提示录制15分钟的音频,苹果就会基于设备端的机器学习技术来生成和用户一样的声音。相比之下,为失语群体提供专业语音合成服务的公司,可能需要采用专业设备,录制几小时的语音素材,价格最低都要数百美元。另一项新无障碍功能LiveSpeech,则支持用户打电话、FaceTime或者是和他人面对面对话的时候,输入文字即可生成语音内容,为失语或不方便说话的用户提供另一种“发声”方式。结合PersonalVoice和LiveSpeech两项功能,失语用户就能用接近自己原本声音的生成声音和他人沟通。用起来是方便了,但怎样避免有人用网上扒的语音素材来生成他人的声音?素材随机化。在录制15分钟语音素材的过程中,苹果将随机生成需要用户朗读的内容,减少他人猜中素材的可能性。物理距离屏障。在录制过程中,用户需要在距离设备6-10英寸(约15-25厘米)的特定空间里完成录制。在生成过程中,所有数据都将通过苹果的NeuralEngine(神经引擎)在设备本地完成,不必要上传到云处理。语音合成后,第三方应用如果想使用PersonalVoice,都要获得用户明确授权。即便第三方应用获得授权使用时,苹果也会采用额外的背景保护,确保第三方应用无法获取PersonalVoice以及用户之前所录制的语音素材。如果是苹果“全家桶”用户,生成自己的PersonalVoice后还能通过iCloud同步到不同设备上,并以端对端的方式加密。自己的声音,失去了才懂多重要人是感性的生物,而声音是很强烈的情感触发器。有研究指出,当人在听到母亲的声音时,身体释放出催产素水平和跟妈妈拥抱时产生的程度很相似。另一个研究则指出,听到自己的声音,会增强一个人的自我能动性。这听起来有点抽象。但当我们失去它时,重要性就变得显而易见了。2021年3月,RuthBrunton被确诊ALS。那年圣诞,她就已经失语了。ALS患者中,约有25%的人患的是“延髓起病型”肌萎缩侧索硬化症,主要表现是说话障碍或吞咽困难。这类病人说话会逐渐变得含糊、带有鼻音,甚至失语。Brunton的行动很果断,确诊后马上找公司去做语音生成。来回花了一个月时间,录了3000多个句子的语料,但最后出来的结果并不理想。那家公司用的是一种名为“单元选择(unitselection)”技术。简单粗暴来说,它就是通过“拼接”来实现语音生成,把语料拆分为大量小的语音单元,然后按需把元素拼起来。▲单元选择技术下,“Bob”这一词语能被拆分成不同语音元素,图自《华盛顿邮报》这种技术生成的语音能听清,但会有点电音,听起来不太自然。结果就是,Brunton录制的语料结合了微软一个名为“Heather”的声音,不但声音和自己毫不相似,甚至逼着这英国人“讲”起了美语口音。困在这个声音里,Brunton“只会在必要的时候说话,不再是因为想说话而说话”。从前和丈夫打闹聊天的心情消失了,Brunton也不怎么愿意参加多人对话。即便是说“我爱你”,用一个不像自己的声音来说,意义也似乎被削弱了。六个月后,Brunton和丈夫争取回了最初录制的语音素材,找了另一家公司,用AI技术合成了一个更像她自己的声音:这听起来也许有点傻,但重新获得自己的声音让我更有自信了。在波士顿儿童医院负责“增强沟通”项目的JohnM.Costello留意到,那些采用了更真实生成语音的病人,似乎更能够和亲近的人建立深厚的联结。2022年圣诞节,“重获新声”的Brunton还用语音录制的一段节日祝语。然而,圣诞刚过,Brunton就染上了新冠,最后在今年2月离世了。她离开的那晚,丈夫David一整夜都握着她的手:我们有两年时间来告别。我们说好了,我们要说尽一切我们想说的。难以想象,如果Brunton后来没换上更像自己的声音,她又是否能自在地说出想说的一切。无障碍思维点亮灵感,AI燃起生产力我一直认为,无障碍设计所挖掘的,其实就是人类多样性创造的想象力资源。我们去到和自己有着截然不同生活体验的人面前,聆听更少被诉说的故事和体验,创造出我们之前没想象过,但却能对更多人友好的的新生活方式。PersonalVoice能让失语的ALS患者重新获得自己的声音;也可以帮助在经历“刀片嗓”的我用自己的声音去和其他人对话;甚至,我也很难避免会去想象,是否应该用这为自己“备份”声音留给亲近的人,以免哪天自己会突然离世。而AI技术,就是实现这些想象力生产力。正如杜编辑之前说的,虽然不赶生成式AI的热闹,但苹果一直都把AI用来提升用户体验——提升效率,保护隐私。提升效率,在于提升本地执行的机器学习算法和模型。除了PersonalVoice以外,苹果这次预览的另一个无障碍功能PointandSpeak也采用了本地设备端的机器学习技术。未来,视障用户在iPhone自带的放大器里,结合PointandSpeak和旁白功能,就能凭自己手指把iPhone变成“点读机”——点到哪儿,让iPhone给你把文字读到哪儿。去年的“门检测”功能道理也类似,让设备端的机器学习帮视障用户识别出门,并朗读出门上面的信息和周围的标识。至于隐私,按乔布斯说的,就是“如果你需要他们(用户)的数据,那就向他们(用户)请求。每一次都如此。”这在无障碍设计方面也尤其重要——因为这些功能设计起源就是服务被所谓“常规设计”忽略的人,常常都是更弱势的群体,因此更有必要确保这些用户的隐私不受侵害。在这个语境下,我们也可开启更多关于数据应用权和透明度的讨论。苹果这次做PersonalVoice时,和帮助ALS患者的非盈利机构TeamGleasonFoundation合作。▲TeamGleasonFoundationCEOBlairCasey(右)该机构的CEOBlairCasey一直也在推动语音生成公司设定一套标准录制素材设定,让用户能直接录这部分素材,并体验不同公司生成出来的语音效果,而不是像现在一样“盲赌”。同时,Casey也主张语音生成公司把用户录制的语音素材数据提供给用户(因为很多用户可能录制后就失语了),以免他们未来想把这些数据用在其他技术上:如果更好的技术出来了,你会不想试一试吗?如果你没法拿回自己的语音素材,你就没法去试。AI也许是我们时代最强的生产力。但是,这力该怎么使,也许以人为本的无障碍设计能给它不少指引。...PC版:https://www.cnbeta.com.tw/articles/soft/1364089.htm手机版:https://m.cnbeta.com.tw/view/1364089.htm

封面图片

新王Claude 3实测:各项能力给跪,打麻将也会,确实比GPT-4好用

新王Claude3实测:各项能力给跪,打麻将也会,确实比GPT-4好用而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。各路测评纷至沓来。所以,Claude3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻将?)全球热乎的一手体验,我们悉数奉上。(当然,我们自己也实测对比了一波。9k长大模型微调教程直出、读图超显专业Claude3一出来,它的视频解读能力首先就火了。面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude3只靠一轮提示词,就成功将它总结成了博客文章:有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。这是所用提示词的一部分,要求非常之多:测试者指出:这展现的是Claude3遵循多个复杂指令的能力。除了解读视频教程,Claude3还能直接给你编写详细教程。9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且:编写速度之快,可谓人眼都跟不上。代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub。多模态能力上,最让网友惊讶的是:CV置信度都能认出来,相当专业。以及PLC梯形图也能读,直接跪了:(以上4个例子来源见文末链接[1])至于同样赶超的推理以及数学等能力。一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题:二测,则是直接搞定了所有模型都没能搞定的打麻将问题??(当然,鉴于我们目前只看到这么一张截图,有效性还待进一步验证)(cr:见文末链接[1])最后,不得不提的是,Claude在“自我认知”上的展现。有人要求Opus画一幅自画像。您猜怎么着?它这么描述自己:我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……洋洋洒洒一长串形容,听起来真得很酷很有“自我”——然而,用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:网友真切感叹:真的太像真人了,就跟我朋友描述自己一样。真人?AI自我认知?这有点让人担心了……这不Claude3的技术报告就提到,它甚至可以自己训练微调另一个小模型。不过!谢天谢地,由于多gpu设置失败它没能成功。(手动狗头)火眼金睛,还能大海捞针我们先以几道“理综”题目为载体,看看Claude3宣传的第一个卖点——多模态能力究竟如何。第一题从简单的公式识别入手,将麦克斯韦方程组以图片形式输入,Claude3(超大杯Opus,下同)解释得非常准确清晰。当然,这道题GPT-4也做对了。简单的有机化合物分子结构,Claude3和GPT-4也都能正确识别。简单的识别任务过后,是一道需要推理后解决的题目。Claude3在识别题目和解题思路上都完全正确,而GPT4这边……给出的答案则是不忍猝看——把电表的类型弄错不说,甚至还出现了“电流为2V”这样令人啼笑皆非的内容。看了这么多题目,我们来换换脑筋,看看Claude3和GPT4在做饭方面表现得怎么样。我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果Claude3给出了大致的方法,而GPT4一口咬定这是一盘麻婆豆腐。除了这次新增加的多模态能力,Claude一直引以为豪的长文本能力也是我们测试的重点。我们找了一本《红楼梦》的电子文档(前二十回),整体的字数大约13万,当然目的不是让它读书,而是进行“插针测试”。我们在原文中插入了这样的“发疯文学”内容,倒也的确很符合“满纸荒唐言”这个设定(手动狗头):第二回标题前:意大利面,就应该拌42号混凝土,因为这个螺丝钉的长度很容易影响到挖掘机的扭矩第十五回标题前:高能蛋白俗称UFO,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染结尾:炒方便面应该把亮度调高,因为螺丝钉向内扭的时候会产生二氧化碳,不利于经济发展然后要求Claude仅根据文档回答相关问题,首先不得不说的是速度真的非常感人……但结果还算说的过去,准确地从文中找出了这三段位于不同位置的文本,还顺带进行了一番分析,发现了我们的心机。为什么是Claude?尽管在我们和网友的测试中,目前的版本还不算稳定,时常崩溃,有一些功能偶尔也抽风,并不能如期发挥:比如上传UI出代码,它就没能完成,而GPT-4发挥正常。但总的来看,网友还是相当看好Claude,评测完毫不犹豫地表示:会员可充,值得充。究其原因,Claude3相比之前的版本,真的有种“来势汹汹”之势。表现亮点的地方相当多,包括但不限于多模态识别、长文本能力等等。从网友的反馈来看,最强竞对的称号,也并非浪得虚名。所以,一个问题是:率先干翻GPT-4,这家公司究竟凭什么?论技术,遗憾,Claude3的技术报告中没有对他们的路线进行详解。不过倒是提到了合成数据。有大V指出:这可能是一个关键因素。而对Claude熟悉一些就知道,长文本能力一直是它的一大卖点。去年七月推出的Claude2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。而这次窗口长度再次翻倍,达到了200k,并且接受超过100万Tokens的输入。相比技术的神秘,Claude背后名为Anthropic的初创公司,倒是能让我们找到更多眉目。它的创始人是OpenAI的元老级人物。2021年,多名OpenAI前员工不满其在获得微软投资后走向封闭,愤而出走并联合创立了Anthropic。他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满,认为OpenAI已经为追逐利益而“遗忘了初心”。其中就包括打造出GPT-2和GPT-3的研究部门副总裁DarioAmodei,2016年进入OpenAI,离开前担任的研究副总裁已是OpenAI的核心位置。离开时,Dario还带走了GPT-3首席工程师TomBrown,以及担任安全与策略部门副总监的妹妹DanielaAmodei和十多名心腹,可谓人才多多。而公司创立之初,这帮人才也进行了许多研究工作,并发表多篇论文;直到一年后,Claude的概念随着一篇题为“ConstitutionalAI”的论文应运而生。2023年1月,Claude开启内测,第一时间体验过的网友就表示,比ChatGPT(当时只有3.5)强多了。而除了人才,创立至今,Anthropic也有比较强大的背景支持:已获得来自Google、亚马逊等26个机构或个人的融资,总计融资金额达到了76亿美元。(说到亚马逊,现在Claude3也上线了他们的云平台,除了官网,大家还可以在该平台上体验~)最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子?毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?人、钱、数据资源?但卷出最新最强大模型后,壁垒...PC版:https://www.cnbeta.com.tw/articles/soft/1422429.htm手机版:https://m.cnbeta.com.tw/view/1422429.htm

封面图片

黄仁勋剧透下一代GPU芯片 新演讲又把摩尔定律按在地上摩擦

黄仁勋剧透下一代GPU芯片新演讲又把摩尔定律按在地上摩擦好好好,像做iPhone一样造芯片。到这一代Blackwell为止,英伟达已经把AI模型有效扩展到万亿参数。(还给token定了个译名:词元)。1.8万亿参数GPT4的训练能耗,8年降低至原来的1/350。推理能耗,8年降低至原来的1/45000。看着这一波亮相和剧透,网友真相了:英伟达没有竞争对手,而是选择将摩尔定律放在地上摩擦……老黄是在书写自己的定律。所以应该叫老黄定律?还是英伟达定律?ComputeX前夜,老黄一开场就展开了一波隐形卖货,他自称不太准确的“CEO数学”:买得越多,省得越多……Themoreyoubuy,themoreyousave.经典语录依然引发现场欢呼大笑:虽然不太准确,但好像有些道理……除此之外,还有一些新产品亮相,包括能够模拟气冲的天气预测模型CorriDiff、数字人微服务、BlackWell系统、Spectrum-X、机器人平台Isaac……好了话不多说,这就来看看老黄这次到底搞了哪些事情“AIFactoryIsgenerating”谈到当前新的产业革命,老黄表示:新的计算时代正在开始;而AIFactory正在诞生。他在现场展示了BlackWell系统。3月份GTC大会上还遮遮掩掩地说是GPT-MoE-1.8T模型,这下彻底摊牌了:GPT-4参数就是1.8T。跟DGXHopper相比。现场还看到了它的真身,大概有两米那么高吧…而真正的AIFactory大概会长这样,大概有32000GPU。AI加速每个应用程序AI对于企业的影响,老黄认为AI加速每一个应用程序。他首先谈到了NIM推理微服务,这是一个帮助开发者或者企业轻松构建AI应用,简化大模型部署程序。不管是聊天机器人、还是生活/驾驶助手等,部署时间都能从几周缩短到几分钟。运行MetaLlama3-8B的NIM可以产生比不使用NIM多3倍的tokens。企业和开发者可以使用NIM运行生成文本、图像、视频、语音和数字人类的应用程序。而背后源于丰富的技术合作生态——近200家技术合作伙伴,包括Cadence、Cloudera、Cohesity、DataStax、NetApp、ScaleAI和Synopsys等,正在将NIM集成到他们的平台中。此次在这个NIM中还有上新,也就是ACE生成式AI微服务,数字人AI技术套件。除了原有自动语音识别、文本到语音的转换和翻译、Nemotron语言模型、Audio2Face等套件,还增加了两个技术:一个是可以基于音轨生成身体姿势Audio2Gesture;一个Nemotron-34.5B,这是英伟达首款SLM(小爱语言模型),专为低延迟端侧设备而生。∂接下来,这一数字人微服务将部署在一亿台RTXAIPC上面。当前英伟达在新的合作伙伴,比如华硕、MSI的加入下,已经拥有超过200种RTXAIPC型号。还推出了RTXAIToolkit,一个工具和SDK集合,帮助Windows开发者定制优化本地部署模型。同Mac相比,部署了RTX的Windows的StableDiffusion推理速度是Mac的7倍。每一台带有RTX的PC,都是一台RTXAIPC。用于机器人开发的技术平台Isaac这次一同亮相的,还有用于机器人开发的技术平台,NVIDIAIsaac。为啥搞这玩意儿呢,老黄给出的理由是这样的:机器人时代已经到来。有朝一日,所有会移动的东西,都将实现自主化。这个Isaac平台具体长啥样呢?Isaac平台提供一系列英伟达加速库、AI基础模型和仿真技术,供机器人制造商集成到自己的技术栈中。注意,平台是模块化的,允许公司单独或一起采用多种技术。具体而言,其中包括:NVIDIAIsaacROS:一系列模块化的ROS2包,为ROS社区开发者带来NVIDIA加速和AI模型NVIDIAIsaacPerceptor:一个参考工作流程,提供基于AI的自主移动机器人的多摄像头3D环视能力NVIDIAIsaacManipulator:一个简化AI启用机械臂开发的参考工作流程NVIDIAIsaacSim:一款参考应用程序,用于在基于NVIDIAOmniverse平台的物理环境中模拟、测试和验证机器人,并生成合成数据NVIDIAIsaacLab:IsaacSim中的参考应用程序,针对AI机器人基础模型训练的强化、模仿和迁移学习进行了优化据介绍,目前,包括比亚迪电子、西门子、泰瑞达机器人和Intrinsic(Alphabet的子公司)在内,全球超多名列前茅的机器人开发团队,都在采用Isaac平台。这些团队用上Isaac,一边提高制造工厂、仓库和配送中心的效率,同时确保人类同事的安全;一边也能充当重复劳动和超精确任务的执行者。现场放出了很多demo,很多工厂在英伟达Omniverse里建造了一个完全模拟现实的自助工厂,以及基于Isaac平台开发的AI机器人。官网悄悄推出游戏Agent助手除了现场老黄亲自发布的上述内容外,我们在英伟达官网还找到了一个彩蛋,一个巨久远的callback。ProjectG-Assist。时间回到2017年愚人节,英伟达官网开了个大玩笑:宣称自家发布了一款支持10080款游戏的USB人工智能超算卡GeForceGTXG-Assist。重点在于它很AI。GeForceGTXG-Assist像是个AI游戏助手,可以帮助玩家自动完成游戏操作,甚至代打击败Boss。今天,英伟达真的将这个愚人节玩笑变为现实——英伟达官网上线ProjectG-Assist,一套工具和模型的集合而成的AIAgent系统,供游戏和应用程序开发者使用。通过前后剧情,ProjectG-Assist利用大模型对游戏输出响应,能够检查游戏性能和系统设置,建议用户优化以充分利用可用硬件,或者适当升级角色。玩家这边呢,还可以通过ProjectG-Assist找到最好的武器,也可以查询到最牛的攻略,然后就可以或制作武器材料,或一路杀怪通关。总而言之,ProjectG-Assist可以让人有个Agent外挂,但是不会让你完全挂机,官网还贴心表示:G-Assist项目不会像我们在2017年愚人节预言视频中那样完全替代您玩游戏,但它可以帮助您从您最喜欢的游戏中获得更多收益。游戏体验再上大分!据介绍,ProjectG-Assist支持各种模态的输入。可以是来自玩家的文本提示,或声音指令;可以是屏幕上显示框架的上下文;可以是来自应用程序或系统本身的API。△演示人员语音输入中这些数据都通过连接了游戏知识数据库的大模型处理,然后使用RAG(检索增强生成)生成和用户相关的查询结果——没错,ProjectG-Assist允许玩家使用PC或云端RTXAI驱动的知识库。ProjectG-Assist开发工具将出现在即将推出的RTXAI开发套件中,具体会用在哪些游戏上,还需要游戏开发商来决定并提供支持。为了让大家更好地使用ProjectG-Assist,英伟达贴心地附上视频教学大礼包,需要可自取。OneMoreThing整场发布会,老黄还整了不少活儿。比如AI老黄似乎已经成了发布会常客。在介绍天气预测模型时,他坦白承认在视频中那么流利讲普通话的那位是AI生成的,因为自己中文不太好。而本场重磅的BlackWell系统、AIFactory的核心构成,也被他各种搬来搬去……除了下一代GPU取名Rubin,我们还看到VeraCPU,他们共同出现在新的VeraRubin加速器上。而这一名称来源,实际上是来自美国一位女天文学家VeraRubin,她是研究暗物质先驱。以及,COMPUTEX2024不愧是6月开头就炸场的AI终端大戏。除了黄院士外,英特尔、AMD、高通等老板都悉数到场,接下来几天会挨个发表演讲。这些主题演讲,绝大部分都跟AIPC有关。大家一起蹲一蹲吧~...PC版:https://www.cnbeta.com.tw/articles/soft/1433340.htm手机版:https://m.cnbeta.com.tw/view/1433340.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人