今年的机器人开发者大会论坛感受下来,国产具身智能企业各有特点,十分有意思

今年的机器人开发者大会论坛感受下来,国产具身智能企业各有特点,十分有意思 1. 傅里叶智能,CEO顾捷饱含情怀,十几年如一日摸索落地形态与场景,最新人形机器人小批量量产100台 2. 智元机器人,头顶天才少年光环万众瞩目,成立一年多以来还是在本体和机械层面优化中,且看沿途下蛋会交付什么出来吧 3. 银河通用,十分接近我对AGI的想法,合成数据训练小模型GPT的大模型,操作加学习清晰明了,不愧是BAAI合作单位 4. 达闼机器人,搞了套机器人OS,机器人技术表现很一般,未来就卖操作系统?听说是最有可能先上市的机器人公司 5. 科大讯飞,像PPT路演的,一直营销自家的多模态。有模型有智能硬件,离机器人有多远?

相关推荐

封面图片

华为云发布盘古具身智能大模型:“夸父”人形机器人亮相

华为云发布盘古具身智能大模型:“夸父”人形机器人亮相 据介绍,盘古大模型能够让机器人完成10步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频,让机器人更快地学习各种复杂场景。大模型的多模态能力以及思维能力的快速提升,使机器人能够模拟人类常识进行逻辑推理,并在现实环境中高效精准地执行任务,从而有效解决了复杂环境感知与物理空间认知的难题。通过集成多场景泛化和多任务处理能力,不论是生活场景还是工业场景,都能游刃有余的应对。大会现场展示中,“夸父”可以通过识别物品、问答互动、击掌、递水等互动演示,直观展示了双方基于盘古大模型的合作成果。通过模仿学习策略显著提升了人形机器人的双臂操作能力,实现了软硬件层面的协同优化,不仅增强了机器人综合性能,还克服了小样本数据训练的局限性,推动了泛化操作能力的边界。张平安在大会上表示,除了人形机器人,盘古具身智能大模型还可以赋能多种形态的工业机器人和服务机器人,让它们帮助人类去从事危险和繁重的工作。具身智能大模型可以让机器人作用更加广泛,未来真正实现让AI机器人帮助我们去洗衣、做饭、扫地,让我们有更多的时间去看书,写诗,作画。 ... PC版: 手机版:

封面图片

人形机器人现身华为开发者大会

人形机器人现身华为开发者大会 值得一提的是,华为云此前已与人形机器人领域的领军企业乐聚机器人达成战略合作,双方将共同探索“华为盘古大模型+夸父人形机器人”的应用场景。这一合作标志着华为云在人形机器人领域迈出了重要一步,也预示着未来双方将共同推动人形机器人技术的创新与发展。有业内分析人士认为,人形机器人作为未来30年内具有巨大潜力的产业,无疑将引领新一轮的技术革命。然而,人形机器人的研发与制造也面临着巨大的挑战,包括高昂的成本和持续的资金投入。目前,包括老牌企业波士顿动力在内,以及新兴势力,都面临着相似的挑战和困境。此外,特斯拉CEO马斯克也对人形机器人的未来充满了信心。他透露,特斯拉的Optimus人形机器人预计在今年底前将具备执行“有用的”工厂任务的能力,并有望在2025年底前推向市场。这无疑为人形机器人的未来发展注入了强大的动力。 ... PC版: 手机版:

封面图片

微软提出的TaskMatrix.AI,想通过大模型和数百万个API来完成任务还是有意思的。

微软提出的TaskMatrix.AI,想通过大模型和数百万个API来完成任务还是有意思的。 : Completing Tasks by Connecting Foundation Models with Millions of APIs 链接: 论文中提出的这个TaskMatrix.AI主要是想理解多模态的输入,然后生成代码,代码里面调用API来完成任务。 它有统一格式的API平台和任务库,方便开发人员定制模型,也方便大模型调用。 TaskMatrix.AI拥有终身学习能力,可以通过学习组合模型和API来完成新任务,而且这是可以解释的。 关键组件有四个: - 多模态对话模型 - API 平台 - API Selector - API Executor 论文中还使用RLHF来提高多模态模型和API Selector的能力。 能够完成的任务: - 视觉任务,比如 图像编辑,图像问答等 - 多模态长内容生成,比如 生成图文 - 自动化 比如:操控手机,浏览器 - 访问云服务 比如: 发现新API - 控制物联网设备 比如:机器人,家用智能设备 我的想法,大模型或者多模态模型出现确实提高了以前对话系统的能力,以前智能音箱大战畅想的很多东西都可以拿出来继续做。

封面图片

蛮有意思,想感受下全自动驾驶技术,用眼看路,用脑思考跟自然生物演化历程很相似。

蛮有意思,想感受下全自动驾驶技术,用眼看路,用脑思考跟自然生物演化历程很相似。 在寒武纪时期生物大爆发正是因为有了眼睛的出现,从单目到双目再到双目的位置,高等生物捕食者的前方有一双眼睛。 汽车的视觉实现方案可以移到未来机器人上面,生物体的眼睛会面临“老眼昏花”,而机器只需要更换新的摄像头升级系统就好。 机器的一双眼睛可以运用半导体制程,最终导向就是越来越小性能越强,成本也越来越低。

封面图片

我今天看到一个非常有意思的ai赚钱案例。

#内幕消息 我今天看到一个非常有意思的ai赚钱案例。 有一个加拿大的ai艺术家和作家,已经用ai写作和做图并出版了97本书。 9个月的时间赚了2000美元。 他的写书过程也很简单。 就是用gpt和claude来写故事,然后用midjourney为故事配图。 gpt和claude都是目前比较牛逼的ai聊天对话机器人。 而midjourney则是目前非常实用的艺术感超强的绘画工具,十分适合用来制作插图。 看了一下他的几个采访,写的都是短篇小说。 大多在2000-80000字之间。 书卖的售价也不贵,标的价格在1.99-5.99美元之间。 虽然这些书的评价都不高,但是我觉得这个人还是蛮牛逼的。 这个人牛逼在哪里呢? 1、信息差把握的很好。 他从去年8月份就开始做了,比大部分人做的都早,在ai时代,早就是最大的优势。早一步能让你成为行业的案例,成为别人争相报道的标杆。 2、学习能力很强。 国内现在很多人虽然已经知道ai很牛逼,但是不想学,别说claude了,很多人连套壳的gpt都没玩过。 这个人很快就把ai对话机器人和绘图工具学完并应用起来了。 3、执行力。 还是那句话,执行力决定了结果,他要花3-8个小时写一本书。 从去年到现在,写了79本书,有多少人有这个耐心呢?

封面图片

今天的hacker news第2个热点非常有意思:)值得大家一看:

今天的hacker news第2个热点非常有意思:)值得大家一看: LMSYS Org这个组织最近开放了Chatbot 领域的“混聊大内斗”,并每周都公开排行榜。 竞技模式:他们把所有授予他们API接口的模型放到一块,每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言,而不是预定义的对话集合。在每次对话结束后,旁观的用户、开发者等等可以对两个参与对话的模型进行投票,以表达他们对这两个模型表现的偏好。 投票是匿名的,每个用户只能对同一对话投一次票。投票结果被用来计算 Elo 评分,Elo 评分越高的模型被认为是更强大的语言模型。 图一:4月24日至5月24日之间的投票结果,投票人数27k(清华大学的开放式双语对话语言模型排16,这个排行榜仅限于授权给这个团队API权限的模型里)。 图二:所有非平局 A 对 B 战斗中,模型 A 获胜比例 排行榜的下半部分团队着重提了他们重点观察的Google PaLM 2模型,我总结了一下大概这么几个点: 1)总体情况还可:在过去的两周里,PaLM 2 与其他 16 个聊天机器人进行了约 1.8k 次匿名对战,目前在排行榜上排名第 6。除了 Vicuna-13B(Vicuna 的 Elo 分数比 PaLM 2 高 12 分,即 Vicuna 1054 vs. PaLM 2 1042,根据 ELO 分数来看几乎是虚拟平局)之外,它在所有开源聊天机器人中排名最高。 2)遇强则强,遇弱则弱,好似某个红衣球队,名字我不提:PaLM 2 在与前 4 名选手(即 GPT-4、Claude-v1、ChatGPT、Claude-instant-v1)对战时表现更好,与 Vicuna 的对战中赢得了 53% 的比赛,但在与实力较弱的选手对战时表现较差。 3)觉悟较高:PaLM 2 似乎受到的监管比其他模型更为严格。在许多用户对话中,当用户提问 PaLM 2 不确定或不适合回答的问题时,PaLM 2 比其他模型更可能选择不回应。下面这个数据made my day:在所有成对对战中,PaLM 2 由于拒绝回答而输掉了 20.9% 的对战,并且由于拒绝回答而输给不属于前四名(GPT-4,Claude-v1,ChatGPT,Claude-instant-v1)的聊天机器人 30.8% 的对战。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人