Rabbit R1被持续扒皮:AI风口一夜转型 NFT充值用户欲哭无泪 动作大模型也是套壳的

Rabbit R1被持续扒皮:AI风口一夜转型 NFT充值用户欲哭无泪 动作大模型也是套壳的 要知道,Rabbit前身推出的GAMA,是一款需要预先付费购买NFT的游戏,其中有的NFT售价高达2000+美元(折合人民币超2万)。再联想到Rabbit同样也需要预先支付费用,于是网友发出灵魂拷问:要是CEO又跑了,Rabbit R1还会有什么价值呢?此消息一出,立刻引发了不少关注。有人一句话精准总结:承诺了很多,但啥也没兑现。但也有网友为Rabbit正名:“LAM(Large Action Model)这个概念真的很酷。”“依旧很喜欢他们的产品架构。”对于此事,Rabbit官方向量子位回应称:Jesse has a long history as an entrepreneur and has been involved in a range of projects over his career, including the GAMA metaverse / NFT project. It’s a project he has talked openly about in the past, and he left it before starting Rabbit. He is fully committed to Rabbit and is building a strong and growing team to serve the company’s growing user base.(吕骋是一位资深企业家,在他职业生涯中参与过一系列项目,其中包括其中包括GAMA元宇宙/NFT项目。这是他过去公开谈论过的一个项目,他在创办Rabbit之前就离开了这个项目。他全身心地投入到Rabbit中,并正在组建一支强大且不断壮大的团队,为公司不断增长的用户群提供服务。)具体来看看,这究竟是怎么一回事。Rabbit去年10月突然更名这次的爆料来自一位名叫Emily的网友(以下简称艾姐)。艾姐发现,Rabbit的前身是一家名为Cyber Manufacture Co的公司,成立于2021年,主要项目是GAMA。这是一个“由UE5驱动的元宇宙&新型娱乐形式”。如果想要体验GAMA,首先需要预先购买GAMA NFT,它代表一个独一无二的人物角色,可终身享有。这些NFT人物角色有厨师、工程师、队长等,不同角色的售价也会有所差别。比如一个队长角色需要1ETH(2993.74美元),折合人民币约2.1万。但科学家角色可能就只要0.0384ETH(115.11美元),折合人民币约830元。参考官网展示,进入GAMA后可以在其中自由活动。公司主页还有另一个主要项目,名为“Quantum Engine”(量子引擎)。它的介绍是:基于AI的突破性技术赋予身临其境的体验。这是一个可以创建交互式对话体验的引擎,为游戏中的NPC提供支持,用户需要向其提供角色和情景信息。但艾姐扒到,从2023年8月开始,事情变得不对劲起来了。原本的量子引擎一夜之间变成了“OS2”。它的属性为“个性化操作系统”,可以帮用户从商店订购食物、买午餐,已经不再是为NPC准备的了。艾姐评论:没有人通知GAMA的用户这一变化。他们有的人已经在GAMA NFT上投入了数千美元,结果原本承诺的量子引擎AI现在变成了OS2,被用来购买杂货!在2023年11月,公司还宣布将开源GAMA,去掉其中的AI部分,表示目标是“让GAMA永远活下去”,并且宣布了一个新的AI NPC API接口。创始人吕骋(Jesse)也在Discord上回应了质疑者,言语中多次表示会继续做下去。但艾姐发现,在宣布GAMA开源的前半个月,Rabbit已经完成更名。实际上,在2023年10月4日,Rabbit已在Twitter上宣布公司更名等一系列变动。他们表示为了让量子引擎能够提供身临其境的娱乐体验和AI NPC,他们此前开发了内核技术(kernel technology),以实现更快速的实时交互。这种交互如此独特,以至于激励我们将内核技术作为OS2打包到一个终端产品中。随后,Rabbit贴出了新的官网地址,其中包含了对R1的更进一步介绍。艾姐梳理时间线发现,等到今年1月,GAMA AI、quantum engine ai等Twitter账户都已经被注销。承诺的NPC APIs消失了。这个项目已然非常艰难了。吕骋回应:Rabbit跟任何元宇宙/web3没有关系对于最新的讨论,吕骋在Rabbit Discord社区中给出回应。首先,原来那个项目是之前跟朋友一起创建Unity项目,it was fun。但当他打算脱离出来时就在GitHub上开源了这个项目。一直到LAM初步训练结果出来,他本人就立即全身心投入到Rabbit当中去。其次他强调,Rabbit跟任何NFT或者Web3都没有任何关系,而且永远都不会。不过对于这一回应,有网友发现了“华点”。比如,GAMA项目不是说的是用虚幻引擎5写的吗?怎么又变成了Unity。还有“初始训练结果一出来”这个点,有网友表示,一旦数据集到位,只需几个小时。除此之外,还有些网友担心Rabbit会不会哪天就不运作。这不前两天,R1还真就崩了一次。有网友发现,在OpenAI服务器崩溃,ChatGPT API不可用的时候,它就变砖了。否认套壳Android?网友们回应来了这两天,Rabbit确实处在风口浪尖。这不Rabbit操作系统OS2才被质疑套壳Android。当时Rabbit已回应称:Rabbit R1不是Androidapp,我们知道有一些非官方的Rabbit OS app/模拟器……Rabbit OS是为R1独家定制的。不过很快,网友们的回(fan)应(ji)来了。这一次,@MishaalRahman这位网友直接po出未剪辑视频。视频中显示他将R1 APP直接安装到普通手机上,并且其功能运行良好。另一位网友Marcel则再次在设备上演示了Rabbit的工作原理,透露了更多细节,证明所谓的IMEI检查实际不起作用。(IMEI是移动设备的唯一标识符)好了,对于这件事你怎么看呢? ... PC版: 手机版:

相关推荐

封面图片

热门AI硬件Rabbit R1被发现会泄露用户私密对话 竟使用硬编码API

热门AI硬件Rabbit R1被发现会泄露用户私密对话 竟使用硬编码API Rabbit R1 是一款 AI 问答玩具,即内置麦克风和网络连接,用户可以直接通过 Rabbit R1 与 AI 模型进行语音对话,这个小硬件此前有着非常高的热度。和大多数硬件开发商一样 Rabbit R1 的制造商在官网宣传使用多种安全措施保护用户隐私,但在最近安全研究人员发现 Rabbit R1 使用硬编码的 API,拿到这个 API 后可以查询用户的所有问答和私密信息。Rabbit R1 使用的 API 包括文本转语音服务 ElevenLabs、Azure 文本转语音系统、通过 Yelp 调用的商品评价和用于谷歌地图调用位置信息的接口。这些 API 密钥可以被用来:查看用户与 R1 的所有对话内容远程破坏 R1 的后端服务从而让所有 R1 变砖改变 R1 的对话响应替换 R1 的声音输出这家制造商的基础安全系统也存在安全漏洞,研究人员直接入侵了该系统并使用其电子邮件系统发送邮件来证明自己成功入侵,4 月份已经执行过类似操作但并未被发现,最近研究人员又测试了一次漏洞还是没有被修复。值得注意的是制造商 Rabbitude 其实知道 Rabbit R1 中存在此类安全问题,但没有采取任何措施修复问题也没有发布任何安全公告。研究人员至今不愿意透露漏洞的细节是因为他们不希望用户暴露在风险中,而不是出于对这家制造商的尊重,因为公布漏洞细节的话可能会给很多用户带来严重的安全问题。 ... PC版: 手机版:

封面图片

Rabbit R1买家秀翻车:比Siri还磨叽、响应速度远不及发布

Rabbit R1买家秀翻车:比Siri还磨叽、响应速度远不及发布 例如在CEO吕骋(Jesse Lyu)的实测操作中,只需对它说一句“Play Feel Good Inc”,这首歌就播放出来了:再如拿着它对着屏幕中Discord论坛,问一句“大家在讨论什么”,Rabbit R1就可以对“看”到的内容做出总结:但与此同时,现在拿到真机的网友却晒出了与吕骋所展示的截然不同的一面。这位网友让Rabbit R1“看”了一眼菜单,并提出问题:食用它们最好的方式是什么?Rabbit R1在收到问题后先是说了一句“让我看看”,然后……足足近20秒的时间,空留网友举着机器驻足等待……这位网友甚至表示:想象一下,你在一个嘈杂的环境中,它第一次不能完全理解你(或者你只是说错了),纠正错误的过程得花费1分钟了吧。真机实测视频一出,本在热度上的Rabbit R1,瞬间吸引了更多网友的讨论和争议。争议点之一,就是机器响应时间过慢的问题,有人将其归结为LLM自身处理速度的问题;也有人认为这是所有AI终端都有的通病。但由此引发了Rabbit R1爆火背后更大的一个问题这样的AI硬件为什么会如此爆火?它到底适不适合当下和未来?以至于有人还直接晒出了这样的一个视频,认为Rabbit R1做个APP就够了:而面对这些诸多问题,我们发现,吕骋在一次深度访谈中给出了自己的解释。为什么不是一个APP?吕骋认为Rabbit的确可以是一款软件产品,但从他的角度来看,他的背后还有一家企业。如果Rabbit只是个APP,这就意味着苹果公司能接触到它的代码,这无异于是分享了公司的知识产权。其次,他们还不得不同时为iOS和Android开发维护这款APP,这期间还需要大量的持续资金投入。最重要的是,同其它APP一样,Rabbit会被放在同一个平台上,这给吕骋带来了一种不安感:如果明天出现了一个更好的应用怎么办?用户忠诚度几乎为零!之所以有诸多顾虑,和Rabbit R1搭载的全新操作系统Rabbit OS,也有一些关系。Rabbit OS采用的底层AI技术,不是类ChatGPT的大语言模型技术,而是基于“大型动作模型(Large Action Model,LAM)”打造。大型动作模型更强调“行为”,虽然从实际展示来看,大型动作模型和大语言模型能实现的功能看起来相差不多,但搭载这种技术的Rabbit OS在听到人类自然语言发出的指令后,能理解人的复杂意图,自主操作APP完成任务。吕骋将这种技术的重要性与多点触控技术类比,以至于他们想要构建专门的硬件设备来运行它,以此作为对这种技术的保护,也是为了降低风险。此外,吕骋补充道,Rabbit R1的关键处理在云端,用户数据比在大多数小批量硬件上的更安全。且还有一个好处,可降低硬件成本,由此每台设备可以省下一些利润来支付AI处理费用,比如说Rabbit为用户购买支付ChatGPT服务。经过一番解释,吕骋引出了Rabbit R1背后真正可扩展的业务:人们教Rabbit来做他们自己的事情,本质上是在创造Rabbit,而不是使用APP,当用户销售他们自己的Rabbit时,Rabbit OS将会从中抽成。但这对于用户而言,似乎还是没有很好地说明Rabbit R1在当下和未来究竟有什么意义?换言之,也是网友们关心的另一个核心问题“是否会是昙花一现”。我们把时间线再拉长一点,不妨从吕骋以往打造过的产品入手来看。也曾“发布”过炫酷AI硬件吕骋,是AI领域的华人连续创业者,西交利物浦大学毕业,创立渡鸦科技(Raven Tech)。2017年,百度全资收购渡鸦,吕骋担任百度智能家居硬件总经理;同年,他便带领团队发布了百度首款智能音箱Raven H。后来在2018年CES上的露出,让《华尔街日报》直接将这款音箱封为当年的最佳产品。然而即便风光一时,但从结果上来看,消费市场对此并不买单。在百度一年后,吕骋选择离职百度,在美国创立了以AI为中心的公司Cyber Manufacture Co.,也就是今天Rabbit的前身。吕骋有一个爱好酷爱收集复古合成器,这让他和瑞典音频硬件公司Teenage Engineering的创始人Jesper Kouthoofd建立起了联系。Teenage Engineering专门做电子设备及相关产品的设计和制造,小型掌上游戏机Playdate,就是其与软件开发公司Panic联合推出的。不过从目前销量的结果上来看,也是较为一般。再后来就到了Rabbit R1,吕骋同样也是选择与Teenage Engineering合作设计。至于对这款产品最初的想法,吕骋自述:手机虽是生活中“必需品”,但自订阅了iPhone的每年升级换新服务,越发觉得与iPhone之间的情感连接不断被抹去。换句话说,他对手机已逐渐不感兴趣了。在与Teenage Engineering团队讨论了一番后,双方一拍即合,对Rabbit R1的构想和设计逐渐清晰了起来打造将AI和复古结合的小玩意。吕骋还将设备和《宝可梦》虚构电子设备Pokédex相比较,Rabbit就相当于是宝可梦宠物。(Pokédex是一个电子图鉴,用于记录玩家遇到和捕捉的各种宝可梦的信息)现在显然也是已有不少网友get到了这一点:不过从吕骋打造的爆款AI硬件中,我们也能看到些许相似之处。例如Rabbit R1和Raven H一样,都是在CES中亮相并走红。至于Rabbit R1这次的热度和销量能持续多久,就需要交给时间来作答了。 ... PC版: 手机版:

封面图片

《妈妈咪呀》 国际女星一夜之间被AI端掉饭碗

《妈妈咪呀》 国际女星一夜之间被AI端掉饭碗 她,就是音乐剧《妈妈咪呀》的主演 Sara Poyzer。十多年来,她凭借在剧中饰演女主角 Donna Sheridan 的表演,称霸整个伦敦西区。作为一名演员和配音艺人,她的事业非常成功。最近,Sara 主演的伦敦西区音乐剧《来自远方》,还获得了英国的劳伦斯・奥利弗奖(Olivier award)。谁曾想到,自己在 BBC 辛苦奋斗至少 20 年,却被突然告知“AI 把你取代了”。几天前,Sara 收到了一封来自 BBC 的邮件:很抱歉耽搁了 我们已经获得 BBC 的批准,可以使用 Al 生成的声音,所以我们不再需要 Sara 了。Sara 顿时感慨:发人深省.......据了解,这封邮件是一家制片公司的回复。该公司正在与 BBC 合作一个项目,希望能聘请 Sara。Sara 帖子下方评论道,“这个行业正处于『严峻时期』”。电视剧《权力的游戏》的演员 Miltos Yerolemou 呼吁,英国的演员和创意者们应该像美国同行一样采取行动。AI 将攻陷整个电影行业许多网友纷纷表示,这简直太可怕了。国外一家媒体称去年夏天,他们采访了《辛普森一家》的法国配音演员,并讨论了 AI 配音演员的影响。当时,AI 已经被视为一个即将到来的危险。可谁也没有想到,这一天会来的这么快。一位来自威尔士的当代流行文化艺术家表示,这种情况在自己和艺术项目中出现过很多次了。还有一位演员 Ben Deery 表示,去年年初自己就遇到过这种情况。“我的收件箱里收到了一封电子邮件,结果就是我的 1 万英镑收入瞬间消失了”。一位 Sara 的铁杆粉丝对此表示非常遗憾。还有人为她被辞掉发出了声讨。“我永远不会接受 AI 生成的声音出现在我的有声读物中,也不会接 AI 生成的艺术出现在我的封面上。人工智能有它的用武之地,但当它取代人类的创造力和艺术时,我就不干了。声援 @SaraPoyzer 和所有配音艺术家 / 演员。BBC 回应来了在激起众怒之后,BBC 发表评论称,导致替换 Sara 的原因非常特殊。一位发言人表示:我们正在制作一部高度敏感的纪录片,主角是一位快要走到生命尽头、现在无法说话的投稿人。我们一直在与他们的家人密切合作,探讨如何在片尾最好地表达他们的声音。在这种非常特殊的情况下,考虑到其家人的意愿,我们同意在一个简短的部分使用 AI 来重现他们现在无法再听到的声音,并将在影片中清楚标明。与 Sara 合作的配音公司 Voice Squad 表示,我们对制片公司的回应感到非常失望,尤其是这是 BBC 的一个项目。BBC 一直以来都是真人秀和戏剧类节目质量为代表。作为一家配音机构,我们觉得 AI 对整个行业都是一种威胁。它剥夺了那些在戏剧学校受过三年训练,花了多年时间磨炼手艺的艺人们的工作机会。AI 宣传《神秘博士》,网友炸锅了无独有偶,最近几天,BBC 营销团队因用 AI 宣传科幻电视《神秘博士》,被网友们炒得沸沸扬扬。最新声明中,BBC 表示不再使用人工智能进行《神秘博士》营销。事情起因是,BBC 营销团队计划先由人工撰写《神秘博士》相关的通知推送、电邮主题等宣传内容的草稿。然后使用 AI 进行润色,经过该团队的人工审核批准后,再上线相关内容。他们是想测试,这些内容在各渠道的点击率的部分数据,去衡量 AI 的应用是否成功。没想到,这一行为遭到了这部老牌剧集粉丝的痛批,在反对声强烈中,BBC 撤下了这个公告。在最近的宣传中,BBC 表示,「我们没有计划再次这样做来宣传《神秘博士》”。我们离 AI 取代自己,越来越近了。 ... PC版: 手机版:

封面图片

在MWC体验AI Pin:不会取代手机 但点燃了AI硬件之火

在MWC体验AI Pin:不会取代手机 但点燃了AI硬件之火 和之前预料的差不多,AI 成了这届 MWC 大会的重中之重,各式各样围绕 AI 进行设计和产品定义的硬件设备,更是现场最受关注的品类之一,甚至就连在场外,苹果放弃造车据传也是因为战略重心转向 AI。但说回 AI 相关硬件,除了 AI 手机、AI PC,过去一年最受关注和期待的产品应该就是以 AI Pin、rabbit r1 为代表的独立 AI 终端,按照计划,它们都将在今年 3 月、4 月正式发货在宣布放弃传统智能手机新项目All in AI时,魅族曾提到这两款AI新物种,不过魅族认为这两款AI新物种都不够完美,因此魅族要做更好的AI终端。2月29日晚魅族将新发布的魅族21 Pro定义为“AI入场券”。那么AI Pin、rabbit r1体验到底如何?1月,雷科技CES报道团曾深入聊过 rabbit r1 这款全新形态的产品,而在本次 MWC 现场,我的同事“一位天明”就在高通展台体验了听闻已久 AI Pin,结合他的分享,我们对 AI Pin 这款产品有了新的认识。挂在胸前的 AI 助理,还长了“眼睛”了解过 AI Pin 的读者应该知道,AI Pin 是一款没有屏幕的独立穿戴设备,搭载了高通骁龙八核芯片,通过 eSIM 支持网络连接,不依赖于手机或者其他个人终端,将语音作为核心的交互方式,但其实还支持激光投射、手势以及触摸(机身表面)三种交互。不过总的来说,AI Pin 最主要的使用方式还是“对话”。就像手机或者智能音箱上接入大模型的 AI 助手一样,用户可以问各种问题来获取所需信息,还支持 50 种语言的实时翻译,可以将用户的语言实时翻译成另一种语言,或是将他人的语言翻译成用户的母语。图片来源:HumaneAI Pin 虽然没有屏幕,但也是有图形用户界面。当用户需要查看信息的时候,AI Pin 可以通过内置的单色激光投射到手掌上浏览,同时支持手势交互,通过手指的点按进行导航。The Verge 记者还指出,AI Pin 的手势比他想象得更加流畅和灵敏。这在很大程度上可能受益于 AI Pin 对视觉大模型的关注。AI Pin 搭载了一颗广角摄像头,当然不是为了拍照,核心是成为 AI Pin 的“眼睛”,并利用大模型了解摄像头捕捉的画面,比如在 MWC 现场就能“看到”这是一个人声鼎沸的会场,或者对面人的穿着打扮。另外值得一提的是,AI Pin 的穿戴设计可能是最容易被忽略的地方之一。打造 AI Pin 的 Humane 公司之所以将其设计成挂在胸前的设备,核心还是为了让 AI Pin 拥有更接近用户第一人称视角,可以“观察”用户看到的现实世界。这也是很多人对于 AI Pin 最期待的地方。回想一下,OpenAI 去年发布 GPT-4 的时候,就特意演示过让 GPT-4 通过照片了解冰箱里的“材料”,并以此给出一份合适的菜谱。理论上,通过视频获取的信息密度远高于照片,而“看我所看”的 AI Pin,确实有潜力成为真正意义上的“AI 助理”,一个能看不能动的“具身智能”。理想丰满现实骨感,AI Pin面临不少挑战AI Pin也不是第一款想通过机器视觉技术来解决人机交互问题的设备,早在2012年Google就推出了Glass,后来国内的百度跟着做了一款智能眼镜百度Eye,它们当时的故事是视觉搜索,用户戴着眼镜就能“指哪打哪”,然而受限于硬件算力、深度学习算法的智能水平、续航以及网络,智能眼镜并未取得成功,成了先烈,不过,它们在这一阶段的探索也给后来的AR眼镜等相对成熟的品类奠定了基础。图片来源:Google Glass大模型时代AGI(通用型人工智能)有了更强的感知能力,同时也具备了理解与模拟真实世界的能力,基于此拥有真正的认知能力。在此基础上,AI硬件被寄予厚望,AI Pin也是希冀用新一代AGI技术来实现Google、百度们探索失败的智能视觉交互。图片来源:Open AI Sora然而,目前视觉大模型方面的技术还难以支撑识别万物,AI Pin 通过摄像头了解到的现实世界信息还很有限,视觉交互在短期内很难做到完全可用。续航也是一个问题。AI Pin 采用了分体式的设计,由一个 AI Pin 本体和一个通过磁铁连接的无线充电宝(他们叫做 Battery Boost)组成,Humane 公司还专门设计了热更换的电池以延长续航时间,但就算是总的续航时间,也停留在“轻度负载能坚持大半天”的水平。而这还是建立在少用或者不用激光投射的基础上,毕竟激光在这样一个小型设备上确实是非常耗电的。还存在算力的问题。据雷科技了解,AI Pin 采用了混合模型,设备本身的算力极其有限,端侧模型只用来处理语音识别以及基本操作等需要快速响应的请求,更多的处理还是交给云端模型进行处理。但云端处理就必然涉及到连接和延迟问题,还要再加上模型生成的时间,在 MWC 现场的演示中,AI Pin 往往就需要等待好几秒才能给出回应。对于语音交互来说,无疑是很糟糕的体验。更何况,语音交互还存在严重的局限性,网友当年对锤子 TNT 的群嘲都还历历在目。当前,AI硬件的重点攻克方向就是端侧算力的提升,除了给终端装配更强大的AI芯片外,在MWC24上联发科甚至展示了“多设备共享算力”技术即让A设备可将闲置算力共享给B设备来进行大模型等巨量计算,然而这样的计算模式又需要新的边缘侧网络技术的支持,有挑战,也有机会。不可能取代手机,点燃了AI硬件的星星之火“手机能做的,AI Pin 都能做。”Humane 的工作人员在现场讲解时提到,AI Pin 的终极目标是取代手机。但 AI Pin 真的可能取代手机成为下一代的个人计算平台吗?恐怕没有多少人相信,不管是在现场的雷科技编辑,还是 The Verge、DIgital Camera World 在内的媒体明确指出自己的质疑,包括语音交互的局限性,算力、隐私与体验之间的权衡,以及大量具体到产品体验的实际问题。更何况,这是一款售价高达 699 美元(约合人民币 5029 元)起的设备,有网友就吐槽得好,“有这钱为什么不换个好点的手机。”事实上也是,AI Pin 能做的,理论上都能通过手机做到,并且考虑到更强大的算力、屏幕和软件生态,手机大概率会做得更好,这也是包括 rabbit r1 在内所有独立 AI 终端所面临的挑战。不过也要承认的是,受限于设计和形态,手机很难像 AI Pin 一样挂在胸前,很方便就能让机器“观察世界,回答一切”,这其实也是可穿戴计算设备一直备受追捧的一个重要原因,单单是从口袋拿出 → 解锁 → 呼出相应界面,这几步就能制造足够的“摩擦”,劝退用户随时随地“召唤”AI 助理。从这个角度来看,手机相比 AI Pin 或者 Vision Pro 这类穿戴设备确实存在天然的问题。所以 AI Pin 的成功或失败其实不重要,更关键的问题可能是:可穿戴的 AI 终端能不能在手机全面 AI 化的未来找到生存的空间,甚至在技术的进一步突破之后,成为下一代个人计算平台?这当然还是一个没有答案的问题,但可以相信,一定会有人和厂商继续沿着这条路进行探索,而 AI Pin 正是这样的一次探索,哪怕AI Pin像Google Glass一样一败涂地,但它至少点燃了一团AI硬件的星星之火,包括荣耀、OPPO、三星、魅族、小度、Rabbit在内的越来越多厂商正在AI硬件的路上,勇往直前。 ... PC版: 手机版:

封面图片

斯坦福AI团队回应抄袭面壁智能:Llama3-V模型将悉数撤下

斯坦福AI团队回应抄袭面壁智能:Llama3-V模型将悉数撤下 随后,被网友发现,该项目使用的模型结构和代码与面壁智能不久前发布的 MiniCPM-Llama3-V2.5 惊人相似,仅修改了部分变量名。6月2日深夜,面壁智能团队证实,该斯坦福大模型项目与MiniCPM一样,可以识别出“清华简”战国古文字,“不仅对得一模一样、连错得都一模一样”。且这一古文字数据为研究团队花费数月从清华简上逐字扫描并人工标注得来,并未对外公开,证实抄袭事实。今早北京时间凌晨1点27分,此事件迎来终局:斯坦福 Llama3-V 团队的两位作者 Siddharth Sharma 和 Aksh Garg在 X 上就这一学术不端行为对面壁 MiniCPM 团队正式道歉, 表示会将 Llama3-V 模型悉数撤下。相似内容的道歉信,已于几小时前被作者发出一次,但被迅速删除。 ... PC版: 手机版:

封面图片

斯坦福AI团队抄袭国产大模型?清华系团队发文回应

斯坦福AI团队抄袭国产大模型?清华系团队发文回应 一开始团队面对抄袭质疑还嘴硬否认,只承认使用了MiniCPM-Llama3-V的分词器,后来证据越来越多不仅架构和代码高度相似,而且被发现作者曾在Hugging Face导入MiniCPM-V的代码,然后改名成Llama3-V。最绝的是Llama3-V连国产AI模型的“胎记”都抄走了,跟MiniCPM-V一样能识别清华战国竹简“清华简”,而且连出错的样例、在高斯扰动验证后的正确和错误表现方面都高度相似。而基于非公开训练数据的清华简识别能力,是面壁MiniCPM团队耗时数月、从卷帙浩繁的清华简中逐字扫描并逐一数据标注,融入模型中的。面对铁一般的证据,Llama3-V团队终于立正挨打,一套道歉流程行云流水,火速删库、发文致歉外加撇清关系。其中来自斯坦福计算机科学专业的两位作者澄清说他们并未参与代码工作,所有代码都是毕业于南加州大学的Mustafa Aljadery负责的,他一直没交出训练代码。▲Llama3-V作者:Siddharth Sharma(左)、Aksh Garg(中)、Mustafa Aljadery(右)这样看来,Llama3-V团队并不能算严格意义上的斯坦福团队,不过因为此事声誉受损的斯坦福大学至今没有采取任何公开措施。面壁智能团队的回应很有涵养。今日,面壁智能联合创始人兼CEO李大海在朋友圈回应说“深表遗憾”,这也是一种“受到国际团队认可的方式”,并呼吁大家共建开放、合作、有信任的社区环境。一、网友细数五大证据,作者删库跑路、不打自招Llama3-V的模型代码与MiniCPM-Llama3-V 2.5高度相似,同时其项目页面没有出现任何与MiniCPM-Llama3-V 2.5相关的声明。公开的基准测试结果显示,Llama3-V在所有基准测试中优于GPT-3.5,在多个基准测试中优于GPT-4,且模型尺寸是GPT-4V的1/100,预训练成本为500美元。这也使得该模型一经就冲上Hugging Face首页。但当细心网友发现Llama3-V疑似“套壳”面壁智能此前发布的开源多模态模型MiniCPM-Llama3-V 2.5,在评论区发表评论后,Llama3-V项目作者最初否认抄袭,并称他们的项目开始时间先于MiniCPM-Llama3-V 2.5发布,只是使用了MiniCPM-Llama3-V 2.5的分词器。当网友抛出三大事实质疑后,Llama3-V的做法是不回应直接删除网友评论。昨日下午,网友在MiniCPM-V页面下将事情经过全部公开,并公开@面壁智能让其项目团队投诉。当日晚间,面壁智能研发人员发布推文,其验证结果也印证了网友的说法,Llama3-V与MiniCPM-Llama3-V 2.5高度相似。同时公开喊话Llama3-V研发团队:“鉴于这些结果,我们担心很难用巧合来解释这种不寻常的相似性。我们希望作者能够对这个问题给出官方解释,相信这对开源社区的共同利益很重要。”以下就是Llama3-V被质疑抄袭MiniCPM-Llama3-V 2.5的五大证据:1、Llama3-V的代码是对MiniCPM-Llama3-V 2.5的重新格式化,其模型行为检查点的噪声版本高度相似。其中,Llama3-V只是对代码进行了重新格式化和变量重命名,包括但不限于图像切片、标记器、重采样器和数据加载。面壁智能研发人员也证实,Llama3-V有点类似于MiniCPM-Llama3-V 2.5的噪声版本。2、起初网友在Llama3-V的Hugging Face页面质疑抄袭时,其作者回应称只是使用了其分词器,并且项目开始时间比MiniCPM-Llama3-V 2.5更早。当网友进一步询问如何在MiniCPM-Llama3-V 2.5发布前使用其分词器,作者给出的答案是使用了MiniCPM-V-2的分词器,但很明显,两个版本的分词器完全不同。3、Llama3-V提供的代码无法与Hugging Face的检查点兼容。但网友将Llama3-V模型权重中的变量名称更改为MiniCPM-Llama3-V 2.5的名称后,该模型可以与MiniCPM-V代码一起运行。面壁智能的研发人员的调查结果也显示:更改参数名称后,可以使用MiniCPM-Llama3-V 2.5的代码和config.json运行Llama3-V。4、Llama3-V项目的作者害怕面对质疑,删除了质疑者在Llama3-V上提交的质疑他们偷窃的问题。并且目前Llama3-V项目已经从开源网站中下架删除。5、在一些未公开的实验性特征上,比如在内部私有数据上训练的古汉字清华竹简,Llama3-V表现出与MiniCPM-Llama3-V 2.5高度相似的推理结果。这些训练图像是最近从出土文物中扫描并由面壁智能的团队注释的,尚未公开发布。例如下图中的几个古汉字识别:MiniCPM-Llama3-V 2.5中未公开的WebAgent功能上,在框选内容大小时,Llama3-V与之犯了相同的错误:二、仨作者内讧,Aljadery全权负责写代码,但拿不出训练代码昨天,Aksh Garg、Siddharth Sharma在外媒Medium上公开回应:“非常感谢在评论中指出(Llama3-V)与之前研究相似之处的人。我们意识到我们的架构与OpenBMB的‘MiniCPM-Llama3-V2.5:手机上的GPT-4V级多模态大模型’非常相似,他们在实现方面领先于我们。为了尊重作者,我们删除了原始模型。”Aljadery没有出现在声明中。▲Aksh Garg、Siddharth Sharma的回应声明Mustafa曾在南加州大学从事深度学习研究,并在麻省理工学院从事并行计算研究,拥有南加州大学计算机科学学士学位和计算神经科学理学士学位,目前其没有在公司任职。Garg在社交平台X中发布的致歉声明中提到,Mustafa全权负责编写Llama3-V的代码,他与Sharma因忙于全职工作并未参与代码编写。在听取了Mustafa描述的Idefics、SigLip等架构扩展创新、查看了最新论文后,他们二人就在未被告知该项目与开源代码关系的情况下,帮助Mustafa在外媒Medium和社交平台X对Llama3-V进行了宣传推广。在昨天看到关于Llama3-V的抄袭指控后,Garg和Sharma就与Mustafa进行了原创性讨论,并要求他提供训练代码,但目前未收到任何相关证据。目前,Aljadery的Twitter账号显示“只有获得批准的关注者才能看到”。三、首个基于Llama-3构建的多模态大模型此前,Garg在介绍Llama3-V的文章中提到,Llama3-V是首个基于Llama-3构建的多模态大模型,训练费用不到500美元。并且与多模态大模型Llava相比,Llama3-V性能提升了10-20%。除了MMMU之外,Llama3-V在所有指标上的表现都与大小为其100倍的闭源模型非常相近。他们所做的就是让Llama 3能理解视觉信息。Llama3-V采用SigLIP模型获取输入图像并将其嵌入到一系列块嵌入中。然后,这些嵌入通过投影块与文本标记对齐,投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后,投影块中的视觉标记就被添加到文本标记前面,并将联合表示传递给Llama 3。结语:Llama3-V套壳实锤,或损害开源社区健康发展不论从网友的质疑还是Llama3-V作者的回应来看,该模型套壳MiniCPM-Llama3-V2.5已经基本实锤,高度相似的代码以及部分基于面壁智能内部未公开训练数据训练的功能,都证明这两大模型的相似性。目前来看,对于大模型“套壳”没有明确的界定,但开源大模型以及开源社区的构建本意是促进技术的共享和交流,加速AI的发展,但如果以这种直接“套壳”、更改变量的形式使用,或许会与这一发展愿景背道而驰,损害开源社区的健康发展。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人