利用 Meta 的 ImageBind 训练出来的多模态模型。

利用 Meta 的 ImageBind 训练出来的多模态模型。 只使用了 文本-图像 数据进行微调就获得了很好的多模态效果。 Yixuan Su: We are super excited to share PandaGPT, the first foundation model capable of instruction-following data across six modalities, without the need of explicit supervision. [1/n] Project Page: Demo: Code:

相关推荐

封面图片

利用 Meta 的 ImageBind 训练出来的多模态模型。只使用了 文本-图像 数据进行微调就获得了很好的多模态效果。

封面图片

基于GPT-2用25万条Midjourney的promps训练出来的小模型,可以生成高质量的Midjourneyprompt。其

基于GPT-2用25万条Midjourney的promps训练出来的小模型,可以生成高质量的Midjourneyprompt。其中包含用户在一个月内向Midjourney文本到图像服务发出的 250k 文本提示。 此提示生成器可用于自动完成任何文本到图像模型(包括 DALL·E 系列)的提示

封面图片

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。 该框架采用MLLM作为全局规划器,将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外,在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑,从而增强了泛化能力。 大量实验证明,RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地,RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)兼容性广泛。 需求人群: "RPG-DiffusionMaster可用于文本到图像生成和编辑,特别擅长处理复杂的文本提示和多对象多属性关系。" 使用场景示例: 使用RPG-DiffusionMaster生成包含多个对象的图像 利用RPG-DiffusionMaster编辑图像以实现文本语义对齐 采用RPG-DiffusionMaster进行文本到图像生成的实验 产品特色: 利用多模态LLM进行全局规划 将复杂图像生成过程分解为简单生成任务 实现区域化的组合生成 闭环集成文本引导的图像生成和编辑 提高泛化能力 优于其他文本到图像扩散模型 | #框架

封面图片

◆使用真实世界的网页内容来训练开放源代码的多模态大语言模型。我们的初步实验表明,直接在的网页上进行训练存在挑战,因为这些网页

◆使用真实世界的网页内容来训练开放源代码的多模态大语言模型。我们的初步实验表明,直接在真实的网页上进行训练存在挑战,因为这些网页往往内容繁杂、数据杂乱。未来的研究可能会探索数据清洗和优化的方法,以实现更稳定有效的训练过程。 ◆超越传统的截图输入方式,例如,尝试使用前端设计师的Figma框架或手绘草图作为测试输入。这种方法的扩展还需要我们仔细地重新设计评估体系。 ◆将研究范围从静态网页扩展到动态网页。这意味着评估过程需要考虑网页的交互功能,而不仅仅是视觉效果的相似性。 项目地址:

封面图片

瑜伽球上训练出来的机器狗比大多数健身者更能灵活运用训练资源

瑜伽球上训练出来的机器狗比大多数健身者更能灵活运用训练资源 DrEureka是一个任何人都可以获取的开源软件包,用于使用大型语言模型(LLM)(如ChatGPT 4)训练机器人执行现实世界中的任务。这是一个"模拟到现实"系统,也就是说,它在虚拟环境中使用模拟物理原理对机器人进行教学,然后再在现实空间中实施。吉姆-范(Jim Fan)博士是 DrEureka 的开发者之一,他部署的 Unitree Go1 四足机器人一跃成为头条新闻。这是一款"低成本"、支持良好的开源机器人这很方便,因为即使有了人工智能,机器人宠物仍然很容易摔伤。至于"低成本",它在亚马逊上的售价为 5899 美元,评分为 1 星……DrEureka 中的"Dr"代表"领域随机化",即在模拟环境中随机化摩擦、质量、阻尼、重心等变量。只需在 ChatGPT 等 LLM 中输入一些提示,人工智能就能编写代码,创建一个奖励/惩罚系统,在虚拟空间中训练机器人,其中 0 = 失败,高于 0 则为胜利。得分越高越好。它可以通过最小化和最大化球的弹跳力、运动强度、肢体自由度和阻尼等方面的失效点/爆发点来创建参数。作为一个 LLM,它可以毫不费力地大量创建这些参数,供训练系统同时运行。每次模拟后,GPT 还可以反思虚拟机器人的表现,以及如何改进。如果超出或违反参数,例如电机过热或试图以超出其能力的方式衔接肢体,都将导致 0 分...没有人喜欢得零分,人工智能也不例外。提示 LLM 编写代码需要安全指令否则,研究小组发现 GPT 会努力追求最佳性能,会在没有指导的情况下在模拟中"作弊"。这在模拟中没有问题,但在现实生活中可能会导致电机过热或肢体过度伸展,从而损坏机器人研究人员称这种现象为"退化行为"。虚拟机器人自学成才的非自然行为的一个例子是,它发现自己可以更快地移动,方法是将臀部插入地面,用三只脚拖着臀部在地板上窜来窜去。虽然这在模拟中是一种优势,但当机器人在现实世界中尝试时就尴尬了。因此,研究人员指示 GPT 要格外小心,因为机器人将在真实世界中接受测试为此,GPT 创建了安全功能,如平滑动作、躯干方向、躯干高度,并确保机器人的电机不会扭矩过大。如果机器人作弊,违反了这些参数,其奖励函数就会降低得分。安全功能可以减少退化和不自然的行为,比如不必要的骨盆推力。那么它的表现如何呢?比我们强。DrEureka 在训练机器人"pooch"的过程中击败了人类,在实际的混合地形中,它的前进速度和行进距离分别提高了 34% 和 20%。DrEureka 基于 GPT 的训练系统在现实世界中轻松击败人类训练的机器人如何做到?研究人员认为,这与教学方式有关。人类倾向于课程式的教学环境把任务分解成一个个小步骤,并试图孤立地解释它们,而 GPT 能够有效地一次性传授所有知识。这是我们根本无法做到的。DrEureka 是同类产品中的首创。它能够从模拟世界"零距离"进入现实世界。想象一下,在对周围世界几乎一无所知的情况下,你被推出巢穴,只能自己摸索。这就是"零镜头"。DrEureka 的创造者认为,如果他们能向 GPT 提供真实世界的反馈,就能进一步改进模拟到现实的训练。目前,所有的模拟训练都是利用机器人自身本体感觉系统的数据完成的,但如果 GPT 能够通过真实世界的视频画面看到出错的地方,而不是仅仅从机器人的日志中读取执行失败的信息,那么它就能更有效地完善自己的指令。人类平均需要一年半的时间才能学会走路,而大概只有百分之一的人类能在瑜伽球上学会走路。您可以在这里观看一段未经剪辑的 4 分 33 秒视频,视频中机器人狗狗轻松在瑜伽球上散步,且没有停下来在消防栓上撒尿: ... PC版: 手机版:

封面图片

《金融时报》推出根据数十年文章内容库训练出来的AI机器人Ask FT

《金融时报》推出根据数十年文章内容库训练出来的AI机器人Ask FT 当我们问"谁负责微软的人工智能产品?"时,该工具返回了最新的答案,并提到了本周爆出的微软聘请DeepMind 联合创始人穆斯塔法-苏莱曼(Mustafa Suleyman)担任其新人工智能团队负责人的消息:穆斯塔法-苏莱曼(Mustafa Suleyman)目前作为微软人工智能(Microsoft AI)的负责人,负责管理微软面向消费者的人工智能产品和部门,直接向萨蒂亚-纳德拉(Satya Nadella)汇报工作[1,2,3]。他是从 Inflection AI 公司调来的,目的是扩大微软为个人消费者开发生成式人工智能的重点[1,2,3,4,6]。括号中的数字对应的是它从FT文章中提取的信息,并列在答案下方。它还提供了这些文章的写作时间段。在微软公司的这道题中,它说它从 2023 年 3 月 1 日到 2024 年 3 月 20 日提取了信息。不过,我们发现有些答案并不一致。在我们进行测试时,该工具在回答"目前谁正在参加2024年美国总统大选"的问题时,将尼基-海利(Nikki Haley)列入了答案,尽管她已经退出了竞选。FT 专业版的几百名付费用户可以使用它,该版面向商业专业人士和机构。Ask FT 目前由 Anthropic 开发的大型语言模型(LLM)Claude 提供支持,但这种情况可能会发生变化。FT 首席产品官林赛-杰恩(Lindsey Jayne)表示,该媒体正在"以'不可知模型'的方式来处理这个问题,看看哪一种最符合我们的需求"。它可以回答有关时事的问题,如英特尔根据《CHIPS 法案》从美国政府获得了多少资金,也可以回答更广泛的问题,如加密货币对环境的影响。然后,该工具会收集《金融时报》的档案,并通过引用总结相关信息。Ask FT 还将回答需要深入挖掘《金融时报》档案的问题。当被问及 YouTube 如何起步时,它正确地回答说,YouTube 是由 Chad Hurley、Steve Chen 和 Jawed Karim 于 2005 年 2 月创办的。杰恩说:"我们在内部进行了大量的测试,并利用这些测试来改进我们指导模型和构建代码的方式。在第一批 500 人中,我们正在跟踪每一个问题和回答,以及用户的反馈"。去年,我们试用了市场营销公司 Foundry 旗下数字媒体(包括Macworld、 PCWorld 和 Tech Advisor)部署的类似工具。不过,当时它并不像 Ask FT 那样有用;我的同事 Mia Sato发现,它对一些简单的问题(如上一款 iPod Nano 是什么时候发布的)提供的结果并不准确。杰恩说:"我认为,如果不持续不断发展并迎接这些时刻,就不可能成为一家拥有 135 年历史的机构。但必须要聪明,不能一味地炒作......否则人们只是为了新奇而玩玩,然后继续过自己的生活。"大多数用户现在还不能试用聊天机器人。Ask FT 目前仍处于测试阶段,英国《金融时报》将继续对其进行测试和评估。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人