：低成本、开源、移动操纵机器人项目，支持快速移动、稳定操作重物、全身自由度远程遥控等，使用Tracer AGV移动底座，能携带重

：低成本、开源、移动操纵机器人项目，支持快速移动、稳定操作重物、全身自由度远程遥控等，使用Tracer AGV移动底座，能携带重物并具有较高的移动速度，成本较低，能完成复杂的移动操控任务，如烹饪、呼叫电梯和存放锅具等，所有硬件和软件都以开源形式提供，附带教程和项目网站。

在Telegram中查看

相关推荐

ALOHA：低成本的开源的双向远程双手远程操作的硬件系统

ALOHA：低成本的开源的双向远程双手远程操作的硬件系统整个系统的成本不到 20,000 美元，但它比价格高出 5-10 倍的同类系统更强大。 ALOHA 能够执行精确的任务，如 RAM 插入、动态任务（如乒乓球颠球）以及接触丰富的任务（如穿鞋）。并且运行可靠的，在整整 8 个月的测试中没有电机故障。有关设置的所有内容都是开源的，有详细的教程。你可以通过现有机器人+3D打印组装，或者直接购买。 ||

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。核心使用C++14编写，没有第三方依赖（BLAS、SentencePiece等），能在各种设备中无缝运行。特点为日常设备进行优化：libLLM经过优化，可在常见的个人电脑上平稳运行，确保大型语言模型的强大功能面向更广泛的用户。 C++代码：采用标准C++14编写，简单高效。无外部依赖：核心功能无需第三方依赖（BLAS、SentencePiece等），所需的GEMM内核均在内部实现(avx2、avx512)。支持CUDA：支持使用CUDA加速推理。

斯坦福爆火家务机器人升级二代：双手稳到能偷钱包成本降至19万

斯坦福爆火家务机器人升级二代：双手稳到能偷钱包成本降至19万开可乐平稳倒可乐都是小case：连不带吸管的便利店牛奶都能轻而易举成功打开：那就更不用多说将玩具放进三个不同碗里这样的简单操作了：而且还能玩抛物游戏：网友们看了直呼excitng！据作者透露，这一套设备的成本是2万7千美元。具体的论文和线上教程，目前都已发布。有哪些新升级？ALOHA2首先改进了机器人的夹持器，让它们能够抓得更牢、更稳。利用低摩擦的轨道设计，能向夹持器顶端输出原本2倍的力。同时还改变了握带的布局，提升抓取小物体的能力。并且取代了ALOHA原有的剪刀导轨式机械手设计，采用低摩擦轨道设计，降低机械复杂性，让遥控操作更流畅。其次，改善了前臂的重力补偿。用一个恒力牵引器和一个弹簧滑轮系统，机械臂可以在更多空间活动、悬停，比原来使用的橡皮筋更牢固。最后，还在保留必需摄像头安装点的情况下，简化了框架周围的工作单元，这让人机合作有更大的空间。同时这一次还发布了一个ALOHA sim模型，可以在没有硬件设备的情况下，在Mujoco中用ALOHA完成复杂任务。ALOHA是啥？ALOHA最初是由斯坦福等推出的一个双机械手远程操作的低成本开源硬件系统。今年1月，斯坦福团队升级版机器人控制方案Mobile ALOHA。让它能做各种家务，当时在网络上爆火。ALOHA支持真人遥控操作和全自动两种工作模式。前不久发布的Mobile ALOHA在堆满家具的复杂环境中，机器人系统仅通过少量的人类示教，就学会了各种复杂移动操纵任务，如叫电梯、开柜门、擦桌子等。学习过程中，移动底座的速度与双手的14自由度等操纵信息，一同作为示范算法的输入，和ALOHA静态数据一起对系统进行联合训练。而且该系统不仅兼容多种示教学习算法，而且对于用户而言，掌握教学的方法也十分容易。而如果采用真人操作，可以做出更为复杂的菜色。值得一提的是，当时Mobile ALOHA爆火后，作者随后放出的翻车集锦也引发巨大关注。“显然机器人还没有做好接管这个世界的准备doge”不过如今随着ALOHA 2的最新升级，大家对于机器人做家务，又能有更多期待了~ ... PC版：手机版：

新型自适应屋面瓦无需电子设备还可降低供暖和制冷成本

新型自适应屋面瓦无需电子设备还可降低供暖和制冷成本他们在《设备》（Device）杂志上发表的一篇论文中介绍了一种自适应瓦片，这种瓦片以阵列的形式安装在屋顶上时，可以降低冬季的取暖费和夏季的制冷费，而且不需要电子设备。该研究的第一作者肖说："它可以根据瓷砖的温度在加热状态和冷却状态之间切换。目标温度约为华氏 65 度约为摄氏 18 度。"这个约四英寸见方的被动式体温调节装置融合了廖昌永在热科学方面的专长和霍克斯在机械设计方面的工作一个可移动的表面，可以根据不同的温度改变其热特性。几年前，他们在往返于圣巴巴拉和加利福尼亚北部的长途旅行中萌生了这个项目的想法。瓦片的开发和功能"当时我们的配偶都在斯坦福大学，所以我们一起去旅行，想知道我们有可能一起做些什么，"廖说，他和霍克斯一样，都是加州大学伯克利分校机械工程系的教授。他们随后获得了加州纳米系统研究所（California NanoSystems Institute）的种子基金，用于设计机械可调热设备。直到肖想到使用蜡马达，自适应瓦片的想法才最终成型。根据蜡在温度作用下体积的变化，蜡马达产生压力，从而移动机械零件，将热能转化为机械能。蜡电机常见于洗碗机和洗衣机等各种电器以及航空航天业等更专业的应用中。就瓷砖而言，蜡马达根据其状态可以推动或缩回活塞，从而关闭或打开瓷砖表面的百叶窗。因此，在气温较低时，当蜡是固体时，百叶窗会关闭并平铺，露出能吸收阳光的表面，最大限度地减少通过辐射散热。优势和测试结果但是，一旦温度达到 18 摄氏度左右，蜡就会开始融化和膨胀，推动百叶窗打开，露出一个反射阳光和散发热量的表面。此外，在熔化或冷冻过程中，蜡还会吸收或释放大量热量，进一步稳定瓷砖和建筑物的温度。肖解释说："因此，我们有一种可预测的开关行为，可在一个非常小的范围内工作。"根据研究人员的论文，测试表明，与覆盖传统反射或吸收涂层的非开关器件相比，冷却能耗降低了 3.1 倍，加热能耗降低了 2.6 倍。由于采用了蜡质电机，该装置的运行不需要电子设备、电池或外部电源，而且与其他类似技术不同的是，它的响应速度在目标范围的几度之内。此外，该装置设计简单，便于定制可使用不同的热涂层和各种类型的蜡，使装置在所需的温度范围内运行，同时也便于大规模制造。霍克斯说："该装置仍是一个概念验证，但我们希望它能带来新技术，有朝一日能对建筑物的能源消耗产生积极影响。"编译来源：ScitechDaily ... PC版：手机版：

全球首个类Sora开源复现方案来了全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了全面公开所有训练细节和模型权重还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后，该团队再次发布最新进展，复现类Sora方案，并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了，复现Sora如何实现？Open-Sora 开源地址： Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座，在此基础上引入时间注意力层，将其扩展到视频数据上。具体来看，整个架构包括一个预训练好的VAE，一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中，STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块，用于建模时序关系。在时间注意力模块之后，交叉注意力模块用于对齐文本的语意。与全注意力机制相比，这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比，STDiT 可以更好的利用已经预训练好的图像 DiT 的权重，从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解，在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段，从VAE的潜在空间中随机采样出一个高斯噪声，与提示词嵌入(prompt embedding)一起输入到STDiT中，得到去噪之后的特征，最后输入到VAE的解码器，解码得到视频。模型训练流程训练复现方案在训练复现部分，Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段：大规模图像预训练；大规模视频预训练；高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练，多阶段训练通过逐步扩展数据，更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术，先训练出一个高质量的文生图模型，将该模型作为下一阶段视频预训练的初始化权重。同时，由于目前没有高质量的时空VAE，他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能，还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力，有效掌握视频的时间序列关联。它需要使用大量视频数据训练，并且保障视频素材的多样性。同时，第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块，用于学习视频中的时序关系。其余模块与第一阶段保持一致，并加载第一阶段权重作为初始化，同时初始化时序注意力模块输出为零，以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化，以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练，进一步增加了收敛速度，降低训练成本。Open-Sora生成效果（提示词：水中世界的镜头，镜头中一只海龟在珊瑚礁间悠然游弋）第三阶段是高质量视频数据微调。据介绍，这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级，但是视频的时长、分辨率和质量都更高。通过这种方式进行微调，能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是，Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中，他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours，约合7000美元，第三阶段的训练量是1920 GPU hours，大约4500美元。经过初步估算，整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度，Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本，让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频，并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码，可以轻松地在自己的数据集上快速生成训练所需的视频/文本对，显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外，Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略，在处理64帧、512x512分辨率视频的训练中，实现了1.55倍的加速效果。同时，得益于Colossal-AI的异构内存管理系统，在单台服务器上（8H800）可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比，随着帧数的增加，STDiT实现了高达5倍的加速效果，这在处理长视频序列等现实任务中尤为关键。最后，团队还放出了更多Open-Sora的生成效果。团队和量子位透露，他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据，以生成更高质量、更长时长的视频内容，并支持多分辨率特性。实际应用方面，团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们，可访问GitHub项目了解更多~Open-Sora 开源地址： Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版：手机版：

黄仁勋演讲背后的那排机器人究竟有什么来头？

黄仁勋演讲背后的那排机器人究竟有什么来头？穿越喧嚣的声音，颇有几分造物者的姿态，让人觉得科幻电影的日常即将走入当下。你肯定也在琢磨，这些聚光灯下的九位人形机器人都有什么来头？别急，从左往右，我们这就开扒。Figure：Figure 01第一个登场，是我们的老朋友 Figure 01。三个月前，OpenAI 将 ChatGPT 塞进了人形机器人 Figure 01。借助 OpenAI 的先进视觉和语言理解技术，以及 Figure AI 的神经网络技术，Figure 01 能够与人类进行流畅的对话，并执行一系列复杂任务。识别物体、递苹果，捡垃圾，收拾餐具，Figure 01 操作的丝滑程度出乎所料。Figure 01 背后的 Figure 公司，在 2022 年成立后不久，就吸引了包括 OpenAI、微软、英伟达、亚马逊等顶尖科技公司的投资和支持。2024 年 2 月，Figure 公司在一轮融资中筹集到了 6.75 亿美元，使得公司估值达到了 26 亿美元。此外，Figure AI 商业化的步伐也未曾停歇，他们曾与宝马制造公司签订商业协议，将 AI 和机器人技术融入汽车生产线，并落户于宝马的工厂。宇树科技：H1会后空翻的机器人并不是什么稀奇事，但会后空翻的电动驱动人形机器人属实是屈指可数。H1 机器人的身高约为 180 厘米，体重约 47 千克，峰值扭矩密度达到 189N.m/Kg，移动速度可达 3.3m/s，这一速度打破了全尺寸人形机器人运动的世界纪录。并且，它拥有 19 个自由度，腿部关节电机峰值扭矩高达 360N·m，配合中空轴线和双编码器，被誉为同类规格中功率性能最高的机器人。此外，H1 机器人还具备 360° 全景深度感知能力，能够实现自主避障和定位导航功能。宇树科技的产品线涵盖了多个系列，如 Go 系列、B 系列、H 系列等，每个系列都针对不同的应用场景和市场需求。例如，Go 系列主要面向消费级市场，而 B 系列则更多应用于工业领域。宇树科技的产品在全球范围内享有较高的知名度，曾受邀参加 2021 年央视春晚、2022 年北京冬奥会开幕式等重大活动。前不久，宇树科技也正式发布 Unitree G1 人形机器人，售价 9.9 万元起。在官方发布的展示视频中，Unitree G1 不仅能做“鲤鱼打挺”，还能耍金箍棒、缩骨、砸核桃、颠勺、焊接。谈及距离设想中的通用机器人还有多远时，宇树科技创始人兼 CEO 王兴兴表示：目前大家在做的事情很简单，就是把 AI 技术拿过来给机器人用。但我觉得目前 AI 跟机器人结合的技术临界点还没到，可能整个技术方案还没跑通。Apptronik：Apollo都说人形机器人的宿命是进厂“拧螺丝”，Apollo 人形机器人也不例外。作为专为适应人类工作环境而设计的机器人，Apollo 能够自动执行搬运和装配任务，将汽车零部件精准地搬运到生产线上，供工人们进行组装。Apollo 还能在工业环境中辅助员工完成一些繁重的体力工作，能举起重达 25 千克的重物也不在话下。在设计方面，Apollo 采用了模块化功能，用户可以根据实际需要决定机器人的配置。比如作为双足行走的人形机器人、通过轮子运行的躯干或者安装在固定位置的躯干。今年 3 月份，Apollo 背后的 Apptronik 公司宣布与梅赛德斯·奔驰达成一项商业协议。身高约 1.7 米、体重 140 多斤的双足机器人 Apollo 主要从事搬运、装配零部件等繁重的低技能劳动。目前，Apptronik 目标是在 2024 年底前实现全面商业化生产。Agility Robotics：Digit作为一款具有高度灵活性和适应性的人形机器人，Digit 的设计灵感来源于动物的运动机制，特别是人类的行走方式，使其能够在复杂的环境中自如行动。例如，Digit 机器人能够在仓库中自主导航，找到存放空箱的位置，并用其手臂提起并搬运这些箱子到指定位置，以便它们可以被重新装填或转移。Digit 机器人的设计目的是为了在仓库和配送中心等环境中工作，执行搬运货物、存储货物等任务。它能够在不平坦的地面上行走、抓取和运送塑料手提袋、整理包装箱等，在提高仓库效率方面具有巨大潜力。2023 年 9 月，Agility Robotics 公司在俄勒冈州塞勒姆开设了首座年产能可达 1 万台的机器人制造工厂 Robofab。随着工厂的投产，Agility Robotics 于 2024 年完成首批 Digit 机器人的交付，并于 2025 年全面上市，预计定价 25 万美元。Sanctuary AI：PhoenixPhoenix 是 Sanctuary AI 推出的一款人形机器人，它被设计为具有类人智能，能够帮助完成广泛的工作。Phoenix 的身高为 5 英尺 7 英寸，体重为 155 磅，最大负载为 55 磅，最高速度可达每小时 3 英里。它的机械手具有 20 个自由度，模拟触觉技术使其操作精细度堪比人手。此外，其美学设计也有所提升，采用更大胆的色彩和纹理，使 Phoenix 在功能性与美观性上都达到了新的高度。Phoenix 的特点在于其学习新任务的速度很快，而且成本比以前低。相比以往更多关注于机器人的腿部和行走能力，Sanctuary AI 最新发布的第七代 Phoenix 特别强调了机器人的上半身，尤其是躯干部分的动作。Sanctuary AI 的联合创始人和 CEO Geordie Rose 在社交平台 X 上表示：通过第七代技术，公司能够捕获更多高质量、高保真的人类行为数据。这些数据的积累反过来有助于加快 AI 模型的开发，使机器人能更快地部署到实际的工作环境中。1X Technologies：NEOOpenAI 的亲儿子不只“Figure”一个，1X Technologies 也是被押注的对象之一。1X Technologies 是一家专注于研发人形机器人的公司，其最新的产品是 NEO 机器人。NEO 机器人是一款专为家庭和其他服务用途设计的双足人形机器人，它的设计灵感来源于人类，能够执行各种家务任务，旨在为人们的生活带来便利。身高为 1.65米的 NEO 机器人，体重达到 30 公斤，行走速度可达 4 公里/小时，跑步速度为 12 公里/小时，载重能力为 20 公斤，运行时间为 2-4 小时。NEO 的身体构造模仿人类的肌肉结构，确保坚固的同时也具备柔韧性。1X Technologies 在 2024 年 5 月宣布完成了 1 亿美元的 B 轮融资，这笔资金将用于推进 NEO 机器人的研发和商业化进程。作为通用人形机器人，NEO 能够处理物流、制造、操作机械等工业任务，同时提供清洁、整理家务以及日常陪伴等生活服务。傅利叶智能：GR-1傅利叶智能的 GR-1 通用人形机器人是一款高度仿生的机器人，它拥有高度可扩展的设计，能够实现多种 AI 模型与算法的验证。GR-1 的全身由 32 个 FSA 关节构成，最大模组峰值扭矩达到 230NM，这些特性使得 GR-1 在工业、康复、居家、科研等多应用场景中具有巨大的潜能。GR-1 的身高为 1.65 米，体重达到 55 公斤，全身自由度多达 40 个，最大关节模组峰值扭矩可达 300NM，步行速度可达到 5KM/h，负重 50 公斤。它采用了自主研发的 FSA 高性能一体化执行器系列，确保了在行动过程中的灵活性，并具备力量、稳定性、负载适应能力以及安全性与可靠性。傅利叶智能成立于 2015 年，经过多年的深耕，公司已经在健康、教育等多个场景下对市场需求进行深度挖掘，并推出了 30 多款智能康复产品，服务于全球 40 多个国家和地区的 2000 多家医院和机构。2019 年，傅利叶智能正式启动通用人形机器人项目，成为中国较早一批通用人形机器人先行企业。波士顿动力：Atlas2017 年，会空翻的波士顿动力人形机器人 Atlas 惊艳了全世界 ...7 年后，液压驱动的 Atlas 宣布退役，取而代之的则是更为高效，环保的电动驱动 Atlas。电动驱动系统使得 Atlas 的动作更加流畅自然，接近人类的运动方式，提升了运动效率和稳定性。波士顿动力官方曾分享了一段关于新 Atlas 的视频。视频中，该机器人先是一动不动地趴在地上，随后通过脚部以及头部的巧妙旋转，完成了一个完美的站立。官方称：“下一代... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人