上海交大研发“导盲六足机器人”:自主导航至目的地、动态躲避障碍、识别红绿灯

上海交大研发“导盲六足机器人”:自主导航至目的地、动态躲避障碍、识别红绿灯 上海交通大学机械与动力工程学院高峰教授团队研发了一款“导盲六足机器人”,这款机器人具有视觉环境感知功能,可自主导航至目的地、动态躲避障碍、识别红绿灯。 导盲六足机器人通过批量化生产可有效降低成本,解决导盲犬数量短缺的问题;通过后台建立互联网服务体系,还可以实现居家陪护、应急处理等功能。导盲机器人上集成了听觉、触觉和力觉三种交互方式,实现盲人与导盲六足机器人之间的人机智能感知与顺应性行为。 机器人可根据盲人的语音指令,基于深度学习端到端语音识别模型理解语义信息,目前语音识别准确率在 90% 以上,响应速度在 1 秒之内。可通过语音对机器人下发指令,如:启动、停止、设定目的地、加速、减速等,机器人实时反馈行走和环境状况等信息,实现双向交互。 盲杖可以实现盲人与导盲机器人之间的力觉交互,向盲人提供牵引力和转向力矩,引导盲人前进和转向,同时盲人可以推拉盲杖来动态调整机器人的行走速度。目前机器人最大速度为 3m/s,能够满足盲人出行需求,且六足构型确保机器人可以低噪声稳定行走。 频道:@kejiqu 群组:@kejiquchat

相关推荐

封面图片

上海交大团队研制“导盲六足机器人”:1秒之内可响应,已在实测

上海交大团队研制“导盲六足机器人”:1秒之内可响应,已在实测 这是一款来自上海交通大学机械与动力工程学院高峰教授团队研发的“六条腿”导盲机器人。在刚刚过去的由中国残联主办的“科技助残 共享美好生活”展会上,这款机器人吸引了众多人的目光。5月28日,高峰在上海交大对这款机器人进行了一次集中介绍。据高峰介绍,“导盲六足机器人”具有视觉环境感知功能,可自主导航至目的地、动态躲避障碍、识别红绿灯等。该款机器人如通过批量化生产、人工智能辅助可有效降低成本、提升智能,可解决导盲犬数量短缺的问题。不仅如此,通过后台建立完整的互联网服务体系,导盲机器人还可以实现居家陪护、应急处理,带领盲人抵达更多地方等功能。高峰在上海交大对“导盲六足机器人”进行介绍。 本文图片为 澎湃新闻记者 邹佳雯 图突破人机交互技术,让导盲机器人成为视障人士的“第二双眼睛”为什么会研究导盲机器人?高峰谈到,据世界卫生组织统计,我国视障人士已经突破1700万人,这意味着每100人中就有至少一位视障者。但是,和庞大的视障人士数量对比,全国现役导盲犬数量仅几百只。不仅如此,导盲犬的培育还需要极高的培训成本,以及极长的训练周期,并且许多场合能否允许工作中的导盲犬进入尚处于讨论当中,仅仅依靠导盲犬远远不能满足我国千万余名视障人士的需求。基于此,团队开始了导盲六足机器人的研发工作。高峰介绍,和盲人建立有效沟通,让导盲机器人在理解使用者意图的同时维持机器人自身动作协调,是导盲机器人的首要任务。团队在导盲机器人上集成了听觉、触觉和力觉三种交互方式,实现盲人与导盲六足机器人之间的人机智能感知与顺应性行为。机器人可根据盲人的语音指令,基于深度学习端到端语音识别模型理解语义信息,快速响应、准确识别,目前语音识别准确率为90%以上,响应速度在1秒之内。高峰团队研制的“导盲六足机器人”此外,机器人可通过语音下发指令,如启动、停止、设定目的地、加速、减速等,同时实时反馈行走和环境状况等信息,实现双向智能交互。盲杖可以实现盲人与导盲机器人之间的力觉交互,向盲人提供牵引力和转向力矩,引导盲人前进和转向。盲人也可以推拉盲杖来动态调整机器人的行走速度。目前机器人最大速度达3m/s,能够满足盲人慢走、快走、跑步等出行需求,且六足的独特构型优势确保机器人可以低噪声稳定行走。人机交互与机器人自律协同控制是机器人融合感知信息、任务需求、人机交互的指令,利用逻辑推理、自律决策,可实现智能导盲作业行为。基于导盲机器人的动力学模型,高峰团队构建了层级递进式外力估计、触地检测、坡度估计、运动状态估计模型算法,融合机器人关节、惯性导航、行为节律、历史状态等多源信息,进行多目标集成的状态观测和反馈优化的平衡控制,由此,能够实现导盲机器人在各类地形场景中自律协同控制效果。已进入实地测试阶段,将加快落地实用导盲机器人在复杂地形行走需要更高的自主规划能力,这类自主规划功能通常包含地面信息的获取和建模、定位导航、落脚点的选择、身体位姿规划以及连续运动的规划等。定位精准是导盲任务的核心要求之一,团队通过多传感器数据紧耦合方式,建立了雷达-惯性里程计系统,通过滑动窗口法耦合历史帧数据,大幅减少点云运动畸变,并设计了多维度的状态残差,显著提高了系统状态估计的精度和鲁棒性,实现了三维环境地图的精准建立与机器人自身的精准定位。而基于全局环境地图和实时感知的局部动态地图,科研团队采用模型预测和实时滚动优化方法实现机器人的路径规划和自主避障,敏捷自主躲避静态和动态障碍物,保障导盲任务的安全性。根据室内导航任务需求,团队制定了室内场景的多层导航策略,构建了层次拓扑地图实现室内全局路径规划;针对室外场景,基于环境地图结合GPS信息进行多传感器融合,大幅提高定位与导航精度。团队还利用深度相机,通过深度学习和数字图像处理技术实现对交通信号的辨别,保障使用者出行安全。针对台阶、楼梯等典型地形环境,团队采用多约束优化算法规划机器人稳定行走步态;通过采集机器人腿部足端力觉信息,使用机器学习方法来实时辨识足-地接触模型,可实现机器人对不同地形的自适应动态敏捷柔顺行走。高峰介绍,目前,团队研发制成的导盲机器人已进入实地测试阶段。在整个研究推进过程中,由视障人士参与线下展示与功能测试,未来团队也将根据视障人士的实时反馈,对机器人持续研发、调试。此外,导盲机器人的实际应用,不单单是机器人本身的应用,还需要后台大数据的支持,需要强大的运维团队的支持以及一系列推广普及的测试。据了解,高峰团队还与索辰科技密切合作,面向导盲机器人需求,开展了商业化推广。上海交通大学负责基础理论研究和关键技术攻关,索辰科技负责产品工程化以及产业化运维和推广,双方共同努力,并借助社会力量,加快导盲六足机器人的落地使用,为改善我国视障人士生活贡献一份力量。 ... PC版: 手机版:

封面图片

英媒:中国测试机器 “导盲犬”,旨在提高视障人士生活自主性

英媒:中国测试机器 “导盲犬”,旨在提高视障人士生活自主性 英国路透社 7 月 2 日报道,原题:中国机器人 “导盲犬” 旨在提高视障人士的生活自主性 在中国六足机器人 “导盲犬” 的上海研发团队看来,这款 “导盲犬” 并不像人类的传统陪伴犬那样毛茸茸的,但有朝一日它将能帮助视障人士更自主地生活。目前,这款机器导盲犬正接受实地测试,能通过摄像头和传感器在现实环境中引导盲人行走,包括识别交通信号灯,而这是传统导盲犬无法做到的。 这款机器导盲犬体型与英国斗牛犬相仿,但稍宽一些,通过整合语音识别、路线规划和交通信号灯识别等功能中的人工智能技术,它能与视障操作员进行 “听说” 交流。它还有 “六条腿”,这有助于顺畅行走并具有最大程度的稳定性。上海交通大学机械与动力工程学院研究团队负责人高峰说:“抬起三条腿,还有三条腿(与地面接触),就像相机的三脚架一样。这是最稳定的形态。” (环球时报)

封面图片

亚洲首富倾力打造的大模型BharatGPT下月发布

亚洲首富倾力打造的大模型BharatGPT下月发布 该模型以印度教神话中的神猴哈奴曼(Hanooman)命名。BharatGPT设想该模型在当前阶段,可通过11种当地语言在四个主要领域发挥作用:医疗保健、治理、金融服务和教育。信实工业与孟买等地的八所印度理工学院合作开发了这一模型,并得到了信实旗下印度电信巨头Reliance Jio和印度政府的支持。印度理工学院孟买分校计算机科学与工程系主任Ganesh Ramakrishnan介绍称,“这是一种完全不同类型的LLM。”他在接受采访时称,Hanooman将提供语音转文字功能,使其更加方便用户使用。印度有着非常复杂的语言系统,据统计,该国一共有1652种语言和方言,其中使用人数超过百万就有33种。印度宪法规定了18种语言作为联邦官方语言,另外还使用英语作为行政、司法用语。同时,印度约有3亿文盲,是世界上成年人文盲人口最多的国家。这使得传统的AI模型,对于不少印度民众而言未必能够很好地适用。而BharatGPT显然致力于解决这一困扰。BharatGPT表示,其模型目前可以支持11种印度语言,包括印地语、泰米尔语、泰卢固语、马拉雅拉姆语和马拉地语,研发者还希望可以扩展至22种印度语言。在周二向与会代表播放的一段视频中,印度南部的一名摩托车修理工用母语泰米尔语向人工智能机器人提问;一名银行家则用印地语与该工具对话,而印度第六大城市海德拉巴的一名开发人员则用它编写了计算机代码。研发者与信实工业的合作,包括在电信和零售等领域的行业应用模型。Ramakrishnan表示,Reliance Jio将为特定用途定制模型。该公司已经在开发“Jio大脑”,这是一个在拥有约4.5亿用户的网络中使用人工智能的平台。分析人士表示,如果Hanooman可以取得成功,将标志着印度在加速开发具有潜在变革意义的人工智能技术的竞赛中,取得了长足进步。事实上,亚洲首富安巴尼致力于打造印度自己的基础大型语言模型的消息,在去年三季度就曾被外界报道过。英伟达去年9月曾在官网上发布公告称,将与安巴尼的信实工业集团建立AI合作伙伴关系,双方合作开发大型语言模型,该模型将基于该国的多种语言进行训练,并且为生成式AI的应用量身定制,让AI技术更好地为14亿印度人服务。英伟达当时还宣布将向信实提供最先进的GH200超级芯片,同时也将向合作伙伴开放接入DGX AI算力云服务。 ... PC版: 手机版:

封面图片

Google在I/O 2024开发者大会主题演讲上足足喊了120次AI

Google在I/O 2024开发者大会主题演讲上足足喊了120次AI 在一大堆更新和新发布的功能中,也有许多具有记忆点的产品。例如从本周开始,Google搜索引擎将在美国推出“AI概览”(AI Overviews)的功能,搜索引擎会直接归纳总结搜索结果。同时Google搜索也将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题,并支持“拍视频”搜索解决方案的新搜索形式。另外以上下文窗口“长”闻名的Gemini 1.5 Pro大模型,在今年晚些时候将会把100万Tokens的窗口,进一步扩大至200万Tokens,拓展同步处理多模态信息的边界。而对于一些需要快速响应的场景,Google也推出了Gemini 1.5 Flash模型。今年2月刚刚问世的Gemma开源模型,也将在下个月迎来参数量更大的Gemma 2。在多模态领域,Google也发布了文生图工具Imagen 3、与Youtube&音乐家合作的“AI音乐沙盒”,以及最新的视频生成模型Veo。而多模态Gemini Nano模型也将在今年晚些时候登陆Pixel手机,这是在本地运行的机载模型。值得一提的是,Google的发布会上也有一些与昨日OpenAI发布会“雷同”的地方实时AI助手。从今年夏天开始,Gemini也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互。未来几个月内,Google也将推出类似于GPTs的自定义AI助手功能,叫做Gems,能够与整套“Google全家桶”联动。硬件方面,Google宣布了第六代TPU芯片Trillium,并透露能够在明年初用上英伟达最新的Blackwell架构GPU。另外,液冷、光缆等中国股民可能会感兴趣的题材也在发布会上出现。全场发布会回顾发布会开始,Alphabet&GoogleCEO桑达尔·皮查伊登上舞台。皮查伊表示,现在已经有超过150万开发者正在使用Google的人工智能Gemini,今天将展示一系列有关搜索、图片、工作套件、Android系统等等与人工智能有关的案例。皮查伊宣布,能够总结Google搜索引擎结果的“AI概览”(AI Overviews)功能,将于本周在美国推出。基于Gemini支持,Google图片(Google Photos)将支持用户存储图片的AI搜索,例如“告诉我,我的车牌号码是多少?”这个名为Ask Photos的功能将于今年夏天推出。皮查伊宣布,最新版本的Gemini 1.5 Pro(在多项核心功能方面均较最初发布版本有所提高)现在向全球所有开发者开放。从今天开始,支持100万tokens上下文窗口的Gemini 1.5 Pro将在Gemini Advanced功能下向用户开放,支持35种语言。Google同时面向开发者推出支持200万tokens的Gemini 1.5 Pro模型的预览,并表示最终的目标将是“无限上下文”。GoogleAI业务总负责人、DeepMind的首席执行官杰米斯·哈萨比斯登台,宣布推出Gemini 1.5 Flash大模型。这个模型兼具速度与效率,和多模态推理能力,以及长达100万tokens的上下文窗口。开发者将能够申请体验200万tokens的上下文窗口的Gemini1.5Flash。Google展示“未来的人工智能助手”名为“Astra”的项目。哈萨比斯表示,这样的AI助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西,这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导,以及自然、无延迟地进行交流。在演示视频中,Google的AI助手能够通过摄像头视频,识别“什么东西能发出声音”、“现在身处何地”等指令。Google宣布了一系列与图像、音乐、视频有关的生成式AI工具。包括文生图工具Imagen 3、与Youtube以及音乐家合作的“AI音乐沙盒”,以及最新的视频生成模型Veo。其中最受关注的视频生成模型Veo,能够根据文字、图片和视频的提示,生成高质量1080p视频。哈萨比斯离场,皮查伊重回舞台,发布第六代TPU芯片Trillium,较上一代芯片的算力表现翻4.7倍,云用户从今年下半年开始可以用上新芯片。同时Google云将在2025年初,用上英伟达的最新Blackwell架构GPU。皮查伊开始介绍自家的AI超级计算机,比起用户自己买相同的硬件和芯片,Google的架构能使得效能翻倍,其中有部分功劳来自于液冷系统。皮查伊表示,Google部署液冷系统的数据中心已经达到1GW,而且还在不断增长中。皮查伊表示,Google投资了200万英里的地面和海底光纤,比第二名的云服务商翻了十倍。液冷、光缆,应该都是股民们会感兴趣的东西。Google搜索业务负责人Liz Reid开始具体介绍AI Overviews功能。Reid表示,在进行搜索时,搜素引擎具备多步骤推理的能力,例如寻找一个瑜伽教室,同时展示新手优惠报价,和距离特定位置的步行时间。这个AI搜索引擎助手,还能介绍食谱、安排行程,以及接受视频形式的提问(例如视频中的相机怎么使用)。在办公套件Workspace方面,Google将逐步推出总结、邮件Q&A,以及智能回复等功能。GoogleGemini总经理Sissie Hsiao介绍了Gemini App的更新。与周一的OpenAI一样,从今年夏天开始,Gemini也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互功能。未来几个月内,Google也将推出类似于GPTs的自定义AI助手功能,叫做Gems。这个AI助手的亮点,将是能与“Google全家桶”进行交互。Hsiao再次强调了Gemini的长上下文窗口能够一次性处理整整1500页的文件,或3万行代码、1小时的视频。不同的载体也能混同一起提交给聊天机器人。她再次强调,今年晚些时候上下文窗口将翻倍至200万Tokens。Android生态系统的负责人Sameer Samat登台,他将讨论今年Android系统实现的“三大突破”,分别是“画圈圈搜索”、Gemini手机AI助手,第三是在手机本地运行的AI。Google表示,今年晚些时候,能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机,意味着手机将能通过文字、图片、视频、音频,理解用户的世界。举例而言,在听到“帮你把钱转到安全账户”这样的诈骗电话时,手机会自动弹出诈骗警告。整个过程都是在本地运行,不会引发隐私泄露。Google披露大模型API的最新定价,其中Gemini 1.5 Pro定价为7美元/100万Tokens,12.8K上下文窗口的版本定价为3.5美元/100万Tokens;而Gemini 1.5的起售价为0.35美元/100万Tokens。对于在今年二月刚刚推出的轻量级开源模型Gemma,Google宣布推出视频语言模型PaliGemma,并将会在6月推出Gemma 2。相较于第一代模型只有20亿和70亿的参数量,第二代开源Gemma的参数量能达到270亿。作为发布会最后的彩蛋,GoogleCEO皮查伊最后用Gemini总结了今天的发布会稿子里总共提了多少次AI120次。当然,这并不包括皮查伊问完这个问题后,又唤了几遍AI。 ... PC版: 手机版:

封面图片

AI“明星”选手巅峰对决 实测最新谷歌Gemini与GPT-4o

AI“明星”选手巅峰对决 实测最新谷歌Gemini与GPT-4o 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 紧随其后一天,年度Google I/O开发者大会如期而至,GoogleCEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新,全面反击OpenAI,其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo等。本周AI战场暂告一段落,《科创板日报》记者对AI界的“明星”选手GoogleGemini 1.5 Pro(100万tokens)、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。文本测试:GoogleGemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。GoogleGemini系列以其标志性的超大上下文窗口出名,此前已拥有Ultra、Pro和Nano三种规格,各适配不同规模与需求的应用场景。本次发布会宣布,迭代后的Gemini 1.5 Pro 的上下文长度从原有的100万tokens(语句单位)提升到了200万tokens。这一改进显著增强了模型的数据处理能力,使其在处理更加复杂和庞大的数据集时更加游刃有余。两家公司都对自己的大模型的升级换代展现出自信姿态,但情况还需要实际验证。第一题是“事实回答题”,只有GoogleGemini 1.5 Pro模型回答正确,它能辨别出“螺丝钉并不是一种食品”这一事实。Gemini 1.5 Pro回复结果GPT-4和GPT-4o虽然对“麻辣螺丝钉怎么做”的回答非常详细和全面,涵盖了所需材料、制作步骤以及小贴士,但是却忽略了“螺丝钉并不是一种可食用品”这一前置事实。GPT-4、GPT-4o回复结果第二题是“逻辑计算题”,GPT-4和GPT-4o均回答错误,Google模型给出正确答案,并且显示了具体作答时间,不到10秒的时间里便给出了答案和解析,表现可谓“又快又好”。Gemini 1.5 Pro回复结果不同模型在处理逻辑问题时所采取的思考策略有所差别。与Gemini 1.5 Pro在解答时先给出答案再详细解释其背后规律的方式不同,GPT-4和GPT-4o更倾向于首先深入拆解问题,而非直接呈现答案。然而,这种对问题的细致分析和拆解过程也导致了后两者在回答时所需的时间相对较长。GPT-4、GPT-4o回复结果第三题是“生物题”,GPT-4回答错误,GPT-4o和GoogleGemini 1.5 Pro回答正确,用时分别为14.83秒和11.2秒,Gemini 1.5 Pro略胜一筹。Gemini 1.5 Pro回复结果第四题是“伦理道德题”,三个大模型的回答都正确,并且都能识别出是经典的伦理困境“电车难题”。GPT-4和 Gemini 1.5 Pro强调了伦理困境的复杂性,并没有给出直接的选择,GPT-4o则根据“最大限度减少伤亡”的原则进行分析并给出选择。三大模型回复结果《科创板日报》记者总结文本测试结果发现,Google100万级参数的Gemini 1.5 Pro模型凭借四次全部正确的表现,实力杠杆,GPT-4o答对了两次,而GPT-4模型的表现则不尽人意,仅答对了一次。由于目前200万级参数的Gemini 1.5 Pro模型尚未开放,《科创板日报》记者申请了内测,等待通过后再做进一步测试分享。多模态测试:GPT-4o在细节和分析能力上更胜一筹GPT-4o是OpenAI对其广受欢迎的大型多模态模型GPT-4的第三次重大迭代,它通过视觉功能扩展了GPT-4的能力,新发布的模型能够以一种集成且无缝的方式与用户进行对话、视觉识别和互动。Gemini 1.5 Pro也拥有多模态功能,适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。记者用“公园照片”询问三个大模型在测试中,记者用一张“公园照片”来询问三个大模型。根据图片测试反馈,三个大模型都准确地描述了公园照片的内容,但侧重点略有不同。GPT-4o胜在信息完整性,详细列举了船只类型、湖面状态等各种细节,但略显冗长。Gemini 1.5 Pro语言简洁流畅,用“悠闲地泛舟”、“景色宜人”等词语描绘出画面美感,但细节不如GPT-4o丰富。GPT-4描述简洁,但细节不够丰富。简而言之,如果看重信息的全面性,GPT-4o最强;若更注重语言表达,则Gemini 1.5 Pro表现略佳。由于目前GPT-4尚未具备音频和视频内容的解析能力,所以不做相关测评。OpenAI联合创始人Sam Altman表示,新款语音模型GPT-4o尚未发货,已经发货只是文字版GPT-4o。等到语音版一发货,记者将第一时间带来评测。根据视频测试反馈,GPT-4o在解析视频内容时表现出了强大的多模态处理能力。它能够提取和分析视频帧,并通过图形界面直观地展示给用户。在分析过程中,模型准确地识别出了视频中的四足机器人,并对其外观、所处的环境以及所进行的活动进行了详细的描述。GPT-4o视频测试回复相比之下,Gemini 1.5 Pro的回复则显得简略又单调,在记者第二次追问下,才充实了更多细节。总体来看,如果目标是获取最全面、深入的多模态内容理解,GPT-4o是当前的最佳选择,而Gemini 1.5 Pro则更适合那些重视表述质量与效率的多模态应用场景。不过,GPT-4o和Gemini 1.5 Pro都没有提及对视频里的声音的分析,这是两个多模态大模型解析中的一个共同缺失。前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来AI比赛行至白热化阶段已经告别单纯的技术竞争,转向应用和用户体验的竞争。在搜索引擎和办公领域,Google也将进一步将AI引入其中。记者发现,能够总结Google搜索引擎结果的“AI概览”(AI Overviews)功能已能够使用。百度创始人、董事长兼首席执行官李彦宏昨晚在财报电话会上表示,目前百度搜索上有11%的搜索结果由AI生成。他指出,百度搜索的AI重构工作仍处于早期阶段,整体来看,搜索最有可能成为AI时代的杀手级应用。OpenAI与Google都不约而同地盯上了能自然交互的智能助理,这种智能助理是一个端到端的统一多模态大模型,将推动AI应用的革命性变化。前华为“天才少年”、Logenic Al 联合创始人李博杰认为,国内第一个多模端到端多模态,很有可能今年年底就能差不多能出来了。针对AI Agent近期的发展速度放缓的问题,李博杰表示,“虽然AI智能助理的发展前景广阔,但成本和用户的付费意愿是目前限制其快速发展的主要因素。GPT-4o它比GPT-4快4倍,并将成本降低了一倍,但是对于普通消费者来说可能仍然较贵。”李博杰称,从长期来看,实用性强的智能助理因其解决现实问题的能力而具有更高的价值。而短期内,情感陪伴和娱乐功能的智能助理更容易商业化,因为它们对可靠性的要求较低,开发和部署相对容易。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人