:低成本、开源、移动操纵机器人项目,支持快速移动、稳定操作重物、全身自由度远程遥控等,使用Tracer AGV移动底座,能携带重

:低成本、开源、移动操纵机器人项目,支持快速移动、稳定操作重物、全身自由度远程遥控等,使用Tracer AGV移动底座,能携带重物并具有较高的移动速度,成本较低,能完成复杂的移动操控任务,如烹饪、呼叫电梯和存放锅具等,所有硬件和软件都以开源形式提供,附带教程和项目网站。

相关推荐

封面图片

ALOHA:低成本的开源的双向远程双手远程操作的硬件系统

ALOHA:低成本的开源的双向远程双手远程操作的硬件系统 整个系统的成本不到 20,000 美元,但它比价格高出 5-10 倍的同类系统更强大。 ALOHA 能够执行精确的任务,如 RAM 插入、动态任务(如乒乓球颠球)以及接触丰富的任务(如穿鞋)。并且运行可靠的,在整整 8 个月的测试中没有电机故障。 有关设置的所有内容都是开源的,有详细的教程。你可以通过现有机器人+3D打印组装,或者直接购买。 ||

封面图片

斯坦福大学发布开源远程操作机器人系统 ALOHA

斯坦福大学发布开源远程操作机器人系统 ALOHA 是一个低成本的开源硬件系统,可用于双手远程操作机器人执行精细任务 (例如给线缆轧带或剥鸡蛋壳)、动态任务 (例如颠乒乓球) 以及接触式丰富的任务 (例如给自行车上链条)。 作者 Tony Zhao 基于 Transformer 开发了一种动作学习算法,ALOHA 可以直接从实际演示中执行端到端的模仿学习,然后自主完成相同或类似的任务,也可根据实时反馈调整动作以适应不同的环境和情况。 以往执行这些任务通常需要高端机器人、精确的传感器或仔细的校准,这可能既昂贵又难以设置,而 ALOHA 开源了有关设置的所有内容,并准备了详细教程,任何人都可以3D打印组件然后运行现成的机器人。

封面图片

: 专为在普通个人电脑和移动设备上高效推理大型语言模型(LLM)而设计的开源项目。

: 专为在普通个人电脑和移动设备上高效推理大型语言模型(LLM)而设计的开源项目。 核心使用C++14编写,没有第三方依赖(BLAS、SentencePiece等),能在各种设备中无缝运行。 特点 为日常设备进行优化:libLLM经过优化,可在常见的个人电脑上平稳运行,确保大型语言模型的强大功能面向更广泛的用户。 C++代码:采用标准C++14编写,简单高效。 无外部依赖:核心功能无需第三方依赖(BLAS、SentencePiece等),所需的GEMM内核均在内部实现(avx2、avx512)。 支持CUDA:支持使用CUDA加速推理。

封面图片

斯坦福爆火家务机器人升级二代:双手稳到能偷钱包 成本降至19万

斯坦福爆火家务机器人升级二代:双手稳到能偷钱包 成本降至19万 开可乐平稳倒可乐都是小case:连不带吸管的便利店牛奶都能轻而易举成功打开:那就更不用多说将玩具放进三个不同碗里这样的简单操作了:而且还能玩抛物游戏:网友们看了直呼excitng!据作者透露,这一套设备的成本是2万7千美元。具体的论文和线上教程,目前都已发布。有哪些新升级?ALOHA2首先改进了机器人的夹持器,让它们能够抓得更牢、更稳。利用低摩擦的轨道设计,能向夹持器顶端输出原本2倍的力。同时还改变了握带的布局,提升抓取小物体的能力。并且取代了ALOHA原有的剪刀导轨式机械手设计,采用低摩擦轨道设计,降低机械复杂性,让遥控操作更流畅。其次,改善了前臂的重力补偿。用一个恒力牵引器和一个弹簧滑轮系统,机械臂可以在更多空间活动、悬停,比原来使用的橡皮筋更牢固。最后,还在保留必需摄像头安装点的情况下,简化了框架周围的工作单元,这让人机合作有更大的空间。同时这一次还发布了一个ALOHA sim模型,可以在没有硬件设备的情况下,在Mujoco中用ALOHA完成复杂任务。ALOHA是啥?ALOHA最初是由斯坦福等推出的一个双机械手远程操作的低成本开源硬件系统。今年1月,斯坦福团队升级版机器人控制方案Mobile ALOHA。让它能做各种家务,当时在网络上爆火。ALOHA支持真人遥控操作和全自动两种工作模式。前不久发布的Mobile ALOHA在堆满家具的复杂环境中,机器人系统仅通过少量的人类示教,就学会了各种复杂移动操纵任务,如叫电梯、开柜门、擦桌子等。学习过程中,移动底座的速度与双手的14自由度等操纵信息,一同作为示范算法的输入,和ALOHA静态数据一起对系统进行联合训练。而且该系统不仅兼容多种示教学习算法,而且对于用户而言,掌握教学的方法也十分容易。而如果采用真人操作,可以做出更为复杂的菜色。值得一提的是,当时Mobile ALOHA爆火后,作者随后放出的翻车集锦也引发巨大关注。“显然机器人还没有做好接管这个世界的准备doge”不过如今随着ALOHA 2的最新升级,大家对于机器人做家务,又能有更多期待了~ ... PC版: 手机版:

封面图片

新型自适应屋面瓦无需电子设备 还可降低供暖和制冷成本

新型自适应屋面瓦无需电子设备 还可降低供暖和制冷成本 他们在《设备》(Device)杂志上发表的一篇论文中介绍了一种自适应瓦片,这种瓦片以阵列的形式安装在屋顶上时,可以降低冬季的取暖费和夏季的制冷费,而且不需要电子设备。该研究的第一作者肖说:"它可以根据瓷砖的温度在加热状态和冷却状态之间切换。目标温度约为华氏 65 度约为摄氏 18 度。"这个约四英寸见方的被动式体温调节装置融合了廖昌永在热科学方面的专长和霍克斯在机械设计方面的工作一个可移动的表面,可以根据不同的温度改变其热特性。几年前,他们在往返于圣巴巴拉和加利福尼亚北部的长途旅行中萌生了这个项目的想法。瓦片的开发和功能"当时我们的配偶都在斯坦福大学,所以我们一起去旅行,想知道我们有可能一起做些什么,"廖说,他和霍克斯一样,都是加州大学伯克利分校机械工程系的教授。他们随后获得了加州纳米系统研究所(California NanoSystems Institute)的种子基金,用于设计机械可调热设备。直到肖想到使用蜡马达,自适应瓦片的想法才最终成型。根据蜡在温度作用下体积的变化,蜡马达产生压力,从而移动机械零件,将热能转化为机械能。蜡电机常见于洗碗机和洗衣机等各种电器以及航空航天业等更专业的应用中。就瓷砖而言,蜡马达根据其状态可以推动或缩回活塞,从而关闭或打开瓷砖表面的百叶窗。因此,在气温较低时,当蜡是固体时,百叶窗会关闭并平铺,露出能吸收阳光的表面,最大限度地减少通过辐射散热。优势和测试结果但是,一旦温度达到 18 摄氏度左右,蜡就会开始融化和膨胀,推动百叶窗打开,露出一个反射阳光和散发热量的表面。此外,在熔化或冷冻过程中,蜡还会吸收或释放大量热量,进一步稳定瓷砖和建筑物的温度。肖解释说:"因此,我们有一种可预测的开关行为,可在一个非常小的范围内工作。"根据研究人员的论文,测试表明,与覆盖传统反射或吸收涂层的非开关器件相比,冷却能耗降低了 3.1 倍,加热能耗降低了 2.6 倍。由于采用了蜡质电机,该装置的运行不需要电子设备、电池或外部电源,而且与其他类似技术不同的是,它的响应速度在目标范围的几度之内。此外,该装置设计简单,便于定制可使用不同的热涂层和各种类型的蜡,使装置在所需的温度范围内运行,同时也便于大规模制造。霍克斯说:"该装置仍是一个概念验证,但我们希望它能带来新技术,有朝一日能对建筑物的能源消耗产生积极影响。"编译来源:ScitechDaily ... PC版: 手机版:

封面图片

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重 还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了,复现Sora如何实现?Open-Sora 开源地址: Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。模型训练流程训练复现方案在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段:大规模图像预训练;大规模视频预训练;高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。它需要使用大量视频数据训练,并且保障视频素材的多样性。同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)第三阶段是高质量视频数据微调。据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外,Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。最后,团队还放出了更多Open-Sora的生成效果。团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们,可访问GitHub项目了解更多~Open-Sora 开源地址: Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人