LMSYS 在 X 上宣布,bard-jan-24-gemini pro 模型现已加入 LMSYS 平台,大型模型系统组织 (L

LMSYS 在 X 上宣布,bard-jan-24-gemini pro 模型现已加入 LMSYS 平台,大型模型系统组织 (LMSYS Org) 是一个开放的研究组织,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡耐基梅隆大学合作创立。该平台可以向两个模型提出问题,并投票给更好的那个。 via 匿名 标签: #Google #Bard 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

Google DeepMind 和谷歌研究院首席科学家 Jeff Dean 在 X 上表示,由 Gemini Pro 模型提供支

Google DeepMind 和谷歌研究院首席科学家 Jeff Dean 在 X 上表示,由 Gemini Pro 模型提供支持的 Bard 首次亮相就在 Imsys 排行榜排名第二,超越了 GPT-4,Bard + Gemini Ultra 即将发布。 LMSYS Org 是一个开放的研究组织,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡耐基梅隆大学合作创立。 via 匿名 标签: #Bard #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Bard现已在全球范围内采用Gemini Pro模型

Bard现已在全球范围内采用Gemini Pro模型 12 月,Google推出了新的生成式人工智能模型,包括旗舰版 Gemini Ultra、"精简版"Gemini Pro和专为在 Pixel 8 等设备上运行而设计的 Gemini Nano。与此同时,该公司还更新了 Bard 与 Gemini Pro 的英语对话。Google没有量化这些改进,但表示聊天机器人在理解和总结内容、推理、头脑风暴、写作和计划方面会有更好的表现。Bard 在后台经历了几次迭代。最初在 2023 年 2 月亮相时,它采用的是 LaMDA(对话应用语言模型);今年晚些时候,它又更新了一个新模型,称为 PaLM 2;现在,由 Gemini Pro 支持的 Bard 将在 230 多个国家推出,这些名称和版本令人困惑。今年 9 月,Google推出了"双重检查"功能,利用Google搜索来评估其返回的结果是否与 Bard 生成的结果相似。当时,该功能只有英文版。现在,Google正在扩展对 40 多种语言的支持。此外,这家搜索巨头还通过 12 月份发布的 Imagen 2 模型引入了图像生成支持。目前,该功能仅支持英语。用户可以在聊天机器人界面上输入类似"创建一辆未来派汽车的图像"这样的查询。通过 Bard 图像生成的图像示例Google公司表示,Bard生成的图片将在像素中嵌入由DeepMind开发的SynthID数字水印。不过,你必须使用Google的工具来识别这些图像。今年 10 月,Google为Google Assistant注入了 Bard 的人工智能功能,这样用户就可以做一些事情,比如计划旅行或制定杂货清单。11 月,Google向青少年开放了英文版的 Bard,并对其进行了限制,防止 Bard 生成不安全的内容,如非法或有年龄限制的物质。 ... PC版: 手机版:

封面图片

大型 AI 模型已可自动生成小型 AI 工具

大型 AI 模型已可自动生成小型 AI 工具 来自麻省理工学院、加州大学多个校区和 AI 科技公司 Aizip 的科学家团队表示,他们已经能够让大型人工智能模型(如 ChatGPT 运行的模型)基本上实现自我复制。 “目前,我们正在使用大型模型来构建小型模型,就像哥哥帮助弟弟进步一样。这是朝着 AI 自主进化迈出的第一步,”Aizip 首席执行官 Yan Sun 称,“也是首次证明 AI 模型能够自主创造其他 AI 模型。” 研究人员之一 Yubei Chen 补充说:“我们的技术是一个突破,因为我们首次设计了完全自动化的流程,可以在没有人工干预的情况下设计一个 AI 模型。”来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

实测发现Gemini的数据分析能力并不像Google声称的那么好

实测发现Gemini的数据分析能力并不像Google声称的那么好 但新的研究表明,这些模型实际上并不擅长这些事情。两项不同的研究调查了Google的Gemini模型和其他模型如何从海量数据中获得意义想想"战争与和平"长度的作品。这两项研究都发现,Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档的测试中,这些模型只有 40% 50% 的时间给出了正确答案。"虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理较长的上下文,但我们看到很多案例表明,这些模型实际上并不能'理解'内容,"马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说。Gemini缺少上下文窗口模型的上下文或上下文窗口指的是模型在生成输出(如附加文本)之前考虑的输入数据(如文本)。一个简单的问题"谁赢得了 2020 年美国总统大选?- 可以作为上下文,电影剧本、节目或音频片段也是如此。随着上下文窗口的增加,可容纳文件的大小也会随之增加。Gemini 的最新版本可以接收多达 200 万个标记作为上下文。(标记"是原始数据的细分位,如"梦幻"一词中的音节"fan"、"tas"和"tic")。这相当于大约 140 万个单词、2 个小时的视频或 22 个小时的音频这是所有商用模型中最大的语境。在今年早些时候的一次简报会上,Google展示了几个预先录制的演示,旨在说明Gemini长语境功能的潜力。其中一个演示让Gemini 1.5 Pro 搜索阿波罗 11 号登月电视直播的记录(约 402 页),查找包含笑话的引语,然后在电视直播中找到与铅笔素描相似的场景。Google DeepMind 研究副总裁 Oriol Vinyals 主持了这次简报会,他用"神奇"来形容这个模型。他说:"[1.5 Pro]可以在每一页、每一个单词上执行此类推理任务。"但这可能有点夸张。在上述对这些能力进行基准测试的一项研究中,卡平斯卡与来自艾伦人工智能研究所和普林斯顿大学的研究人员一起,要求模型评估有关英文小说的真/假语句。研究人员选择了近期的作品,这样模型就无法依靠预知来"作弊",而且他们还在语句中加入了具体细节和情节点,如果不阅读整本书,是无法理解这些细节和情节点的。Gemini 1.5 Pro 和 1.5 Flash 在阅读了相关书籍后,必须说出这句话的真假并说明理由。图片来源:UMass Amherst马萨诸塞大学阿默斯特分校研究人员对一本长度约为 26 万字(约 520 页)的书进行了测试,发现 1.5 Pro 在 46.7% 的时间内正确回答了真/假语句,而 Flash 仅在 20% 的时间内正确回答了真/假语句。这意味着硬币在回答有关这本书的问题时明显优于Google最新的机器学习模型。综合所有基准测试结果,两个模型的答题准确率都没有超过随机概率。卡平斯卡说:"我们注意到,与那些通过检索句子层面的证据就能解决的问题相比,模型在验证那些需要考虑书中较大部分甚至整本书内容的主张时会遇到更多困难。从质量上讲,我们还观察到,模型在验证有关隐含信息的主张时也很吃力,这些隐含信息对人类读者来说是明确的,但在文本中并没有明确说明。"两项研究中的第二项由加州大学圣巴巴拉分校的研究人员共同完成,测试了 Gemini 1.5 Flash(而非 1.5 Pro)"推理"视频的能力,即搜索并回答有关视频内容的问题。合著者创建了一个图像数据集(例如,一张生日蛋糕的照片),并配以问题让模型回答图像中描述的对象(例如,"这个蛋糕上有什么卡通人物?)为了对模型进行评估,他们随机挑选了其中一张图片,并在其前后插入"干扰"图片,以创建类似幻灯片的片段。Flash 的表现并不尽如人意。在一项让模型从 25 张图片的"幻灯片"中转录 6 位手写数字的测试中,Flash 的转录正确率约为 50%。八位数字的准确率下降到 30%。"在实际的图像问题解答任务中,我们测试的所有模型似乎都特别困难,"加州大学圣塔芭芭拉分校的博士生、该研究的共同作者之一迈克尔-萨克森(Michael Saxon)表示,"少量的推理识别出一个数字在一个框架中并读取它可能就是让模型失效的原因"。这两项研究都没有经过同行评议,也没有对 Gemini 1.5 Pro 和 1.5 Flash 的 200 万标记上下文版本进行测试(这两项研究都对 100 万标记上下文版本进行了测试)。(这两个版本都测试了 100 万标记上下文的版本)而且,Flash 在性能方面并不像 Pro 那样强大;Google 将其宣传为低成本的替代品。尽管如此,这两件事还是让人们更加确信,Google从一开始就对Gemini的承诺过高,而实际效果却不尽如人意。研究人员测试的所有模型,包括 OpenAI 的GPT-4o和 Anthropic 的Claude 3.5 Sonnet,都表现不佳。但Google是唯一一家在广告中将语境窗口放在首位的模型提供商。萨克森说:"根据客观的技术细节,简单地宣称'我们的模型可以接受 X 个词元'并没有错。但问题是,你能用它做什么有用的事情?"随着企业(和投资者)对生成式人工智能技术的局限性感到失望,这种技术正受到越来越多的关注。在波士顿咨询公司(Boston Consulting Group)最近进行的两项调查中,约有一半的受访者(均为 C-suite 高管)表示,他们并不指望人工智能生成技术能带来实质性的生产力提升,而且他们担心人工智能生成工具可能会导致错误和数据泄露。PitchBook 最近报告称,连续两个季度,生成式人工智能最早阶段的交易量出现下滑,从 2023 年第三季度的峰值骤降 76%。面对可以总结会议内容、虚构人物细节的聊天机器人,以及基本上等同于剽窃生成器的人工智能搜索平台,客户们正在寻找有前途的差异化产品。Google一直在追赶其人工智能生成器竞争对手,有时甚至是笨拙地追赶,它急切地想让Gemini的语境成为这些差异化因素之一。但现在看来,这个赌注还为时过早。卡平斯卡说:"我们还没有找到一种方法来真正证明对长文档的'推理'或'理解'正在发生,而且基本上每个发布这些模型的小组都在拼凑他们自己的临时验证来做出这些宣称。在不了解长上下文处理是如何实现的情况下而公司并不分享这些细节很难说这些说法有多现实。"Google没有回应置评请求。萨克森和卡平斯卡都认为,要消除生成式人工智能的夸大宣传,就必须制定更好的基准,同时更加重视第三方的批评意见。萨克森指出,Google在其营销材料中大量引用的"大海捞针"(need in the haystack)是一种更常见的长语境测试方法,它只能衡量模型从数据集中检索特定信息(如姓名和数字)的能力,而不能回答有关这些信息的复杂问题。"所有科学家和大多数使用这些模型的工程师基本上都认为,我们现有的基准文化已经崩溃,"萨克森说,"因此,重要的是公众要明白,对这些包含'跨基准的通用智能'等数字的巨型报告,要慎重对待。" ... PC版: 手机版:

封面图片

全球变暖背景下 干旱和半干旱地区的大气湿度并没有像预测的那样上升

全球变暖背景下 干旱和半干旱地区的大气湿度并没有像预测的那样上升 这项由美国国家科学基金会国家大气研究中心(NSF NCAR)领导的新研究的作者们还不清楚造成这种差异的原因。这项研究的第一作者、美国国家科学基金会 NCAR 科学家 Isla Simpson 说:"影响可能会很严重。这是一个全球性问题,从我们的气候模型结果来看,这是完全出乎意料的"。辛普森和她的合著者说,需要进行后续研究,以确定水汽没有增加的原因。原因可能是水汽没有像预计的那样从地球表面进入大气层,或者以意想不到的方式在大气层中循环。也有可能是一种完全不同的机制造成的。新的研究表明,虽然世界上潮湿地区的水蒸气正在增加,但在一年中最干旱的月份,水蒸气的增加却没有预期的多。这项研究发表在本周的《美国国家科学院院刊》上。 这项研究得到了美国国家科学基金会、国家海洋和大气管理局以及美国能源部的资助。研究报告由来自加州大学洛杉矶分校、加州大学圣巴巴拉分校、康奈尔大学、北极熊国际组织和哥伦比亚大学的科学家共同撰写。令人惊讶的发现气候科学的一个基本规律是,大气层变暖时可以容纳更多的水汽。这就是所谓的克劳修斯-克拉皮隆关系,也是气候模型一直预测大气中的水汽会随着地球变暖而增加的原因。但是,当辛普森在 2020 年为美国国家海洋和大气管理局撰写一份关于美国西南部气候变化的报告时,她意识到那里的大气干燥程度远远超出了根据气候模型模拟的预期。出于好奇,辛普森和她的合著者对全球大气层进行了研究,以确定水蒸气的增加是否与气候预测相符。研究小组利用了从 1980 年到 2020 年的多种观测资料。其中包括气象站网络,以及根据气象气球和卫星等观测数据估算湿度的数据集。科学家们惊讶地发现,干旱和半干旱地区的水汽总体上保持不变,而不是像根据克劳修斯-克拉皮隆关系预计的那样,每升温 1摄氏度(1.8华氏度),水汽就会增加近 7%。美国西南部地区的水汽实际上有所减少,该地区的降水量长期减少。作者在新论文中写道:"这与所有气候模型模拟相反,在气候模型模拟中,水汽上升的速度接近理论预期,甚至在干旱地区也是如此。鉴于水蒸气与野火、生态系统功能和极端温度之间的密切联系,必须解决这个问题,才能为世界干旱和半干旱地区提供可信的气候预测。"研究指出,这种情况正在导致水汽压力不足的增加,水汽压力不足是指大气中可容纳的水汽量与空气中实际存在的水汽量之间的差值。当水汽压力不足上升时,就会成为野火和生态系统压力的重要驱动因素。辛普森说:"我们可能会面临比西南等干旱和半干旱地区预测的更高的风险,西南地区已经受到前所未有的水资源短缺和极端野火季节的影响。"她和她的同事发现,潮湿地区的情况更为复杂,在潮湿季节,大气中的水蒸气会像气候模型预测的那样增加。在最干旱的月份,这种增加在某种程度上趋于平稳,但并不像干旱和半干旱地区那样趋于平稳。寻找罪魁祸首至于为什么大气中的水汽没有像预期的那样在干旱地区增加,作者大致提出了两种可能性:从陆地表面转移到空气中的水汽量可能低于模型,或者大气将水汽输送到干旱地区的方式可能与模型不同。他们得出结论说,大气传输出现问题的可能性较小,因为这不一定能解释全球所有干旱和半干旱地区的共同现象,这些地区从不同的地方获得水分。因此,陆地表面最有可能是罪魁祸首。作者推测了几种可能的原因:与模型相比,现实中陆地向大气提供的水分可能更少;随着气候变暖,陆地的干燥程度可能超过预期;植物可能更有效地保持水分,向大气释放的水分更少。作者还考虑了观测数据存在误差的可能性。但他们认为这种可能性不大,因为这种差异与世界各地区的干燥程度密切相关,而且即使为了避免仪器变化造成的误差而将记录分成较短的时间段,也能持续发现这种差异。辛普森强调,需要进行更多的研究来确定原因。她说:"要解决这个问题确实很棘手,因为我们没有对所有重要过程进行全球观测,无法了解水是如何从陆地表面转移到大气层的。但我们绝对需要弄清楚出了什么问题,因为情况并不像我们预想的那样,可能会对未来产生非常严重的影响。"编译来源:ScitechDaily ... PC版: 手机版:

封面图片

OpenAI首席科学家Ilya离开OpenAI了吗?

OpenAI首席科学家Ilya离开OpenAI了吗? OpenAI 联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)、CTO 米拉·穆拉蒂(Mira Murati)等人,也在积极为 Sora 宣传。但伊尔亚的最后一条推文,停留在了 2023 年 12 月 15 日。OpenAI 在其官网上的 Sora 的文章后面留下了团队成员的名字。在一串致谢名单中,我们看到了萨姆·奥尔特曼、格雷格·布罗克曼、米拉·穆拉蒂等人的名字,但唯独没有出现伊尔亚·苏茨克维。这不禁让人怀疑,伊尔亚究竟是在埋头研究 GPT-5,还是已经离开了 OpenAI ?值得一提的是,OpenAI 创始成员之一、AI 技术研究员安德烈·卡帕蒂(Andrej Karpathy)在Sora 发布前夕离职。有网友大胆猜想:“如果 Andrej 和 Ilya 创办一家真正开放的人工智能公司怎么办?”1.“我们终于知道伊尔亚看到什么了”今天,OpenAI 最新发布的 Sora 模型再次让人们感受到了人工智能的强大,强大到令人害怕。Sora 不仅仅是一个视频生成模型,它涌现出了对物理世界的理解能力(尽管还存在局限),OpenAI 直接将其定义为“世界模拟器”(world simulators)它打开了一条通往模拟物理世界的有效路径。不少人感慨,“现实不存在了”,“物理学不存在了”。人们似乎在这一刻终于理解了伊尔亚为什么一直执着于人工智能的安全性研究。强大的 AI 模型对世界带来的风险并非遥不可及。有网友表示:“现在,我们知道伊尔亚看到什么了。”埃隆·马斯克则在贴子里留下了一个笑哭的表情。去年,随着 GPT-4 以及后续一系列更强大的大语言模型的更新,以伊尔亚为代表的 OpenAI 成员越来越多地考虑 AI 的可控性问题。为此,OpenAI 在 2023 年 7 月 5日宣布成立一个新的团队“超级对齐”(Superalignment),来研究引导和控制比人类聪明得多的 AI 系统。这一项目由伊尔亚与同事简·莱克(Jan Leike)共同领导,并将 OpenAI 20% 的算力专门用于该项目的研究。一般认为,去年 11 月闹得沸沸扬扬的 OpenAI “宫斗事件”的导火索,就是伊尔亚对于 AI 的发展理念与萨姆产生了分歧,伊尔亚越来越担忧 OpenAI 的技术可能造成极度危险的局面,他觉得萨姆对待 AI 应该更加谨慎。显然,萨姆并没有停下来。在硅谷,对于 AI的不同态度把人群分成了保守派与激进派。保守派也被称为EA(Effective Altruism,有效利他主义),代表人物是“人工智能教父”杰弗里·辛顿(Geoffrey Hinton),伊尔亚就是他的学生。激进派被称为“e/acc(有效加速主义)”,很多知名的科技大佬、AI 从业者都是 e/acc 主义的信徒。萨姆并未公开表达过自己的立场,但考虑到他带领下的 OpenAI 一系列激进的产品发布节奏,事实上他已经成为 e/acc 的代言人。伊尔亚联合董事会成员罢免了萨姆。但在大股东微软的斡旋与 OpenAI 全体员工请辞的压力下,伊尔亚最终妥协让步,萨姆在几天后重新回到了 OpenAI 并掌权,并重组了董事会。宫斗事件结束后,伊尔亚并没有立即离开 OpenAI,萨姆希望继续他们之间的工作关系,并正在讨论他如何继续在 OpenAI 的工作。萨姆表达了对伊尔亚的谢意:“我尊重并热爱着伊尔亚,我认为他是这个领域的指路明灯,也是人类的瑰宝。我对他的恶意为零。”但去年外媒一篇报道曾指出,伊尔亚似乎处于一种“迷茫”的状态,在 OpenAI 变得“隐形”。自萨姆回归以来,伊尔亚就没有出现在 OpenAI 旧金山的办公室内。 马斯克也向伊尔亚抛出了橄榄枝,他表示伊尔亚应该加入特斯拉或他的 AI 公司 xAI。伊尔亚对于人工智能安全的工作还在继续。12 月 14 日,OpenAI 发布了超级对齐项目的最新研究论文:使用 GPT-2 级别的小模型来监督 GPT-4 级别的大模型,并获得接近 GPT-3.5 级别的性能。同时,OpenAI 宣布与 Eric Schmidt 合作,启动了一项 1000 万美元的资助计划支持技术研究,以确保超人类人工智能系统的一致性和安全性。作为该论文核心作者之一的伊尔亚,也在 X 上转发了相关内容。但这是宫斗事件至今,伊尔亚在 X上转发的关于 OpenAI 进展的唯一内容。我们暂时无法得知伊尔亚是否已经离开了 OpenAI ,但他对于 Sora 的沉默态度似乎并不寻常。伊尔亚在签名上写着:“朝着拥抱人性多样化的通用人工智能发展。”2.人才是 OpenAI 的核心竞争力虽然伊尔亚并不在 Sora 的研究团队中,但 Sora 仍然表现出了压倒性的性能优势,可见人才密度是 OpenAI 领先的重要因素。Sora 团队整体非常年轻。核心成员有三位,分别是研究负责人Bill Peebles(比尔·皮布尔斯)与 Tim Brooks(蒂姆·布鲁克斯)与系统主管 Connor Holmes。Conner Holmes 曾是微软研究员,在微软工作时以外援形式参与了 DALL·E 3 的推理优化工作,后来跳槽加入 OpenAI 。Bill Peebles 本科就读于 MIT,主修计算机科学,参加了 GAN 和 text2video 的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。毕业后正式开始读博之前,他还参加了 Adobe 的暑期实习,研究的依然是 GAN。2022年5月,Bill 到 Meta 进行了为期半年的实习,和谢赛宁( Bill 开始实习时还未离开 Meta)合作发表了 DiT 模型,首次将 Transformer 与扩散模型(Diffusion Model)结合到了一起。从加州大学伯克利分校博士毕业之后,Bill 加入了 OpenAI。Sora 的模型架构,就是参考了 Bill 与 谢赛宁合作发表的 DiT 论文。值得一提的是,该论文主要聚焦在了 DiT 架构在图像生成领域的性能表现。有人推测,随着 Bill 加入OpenAI ,他很可能把自己在视频领域的研究成果,也带到了 OpenAI 的 Sora 项目中。Sora 的另一个核心作者是 Tim Brooks,曾在 Google 负责 Pixel 手机摄像头的机器学习工作,以及在英伟达负责视频生成模型研究。2023 年从加州大学伯克利分校博士毕业后,Tim 加入 OpenAI,参与了 DALL·E 3 相关研究。在其他几位作者中,也包括两位华人 Li Jing 与 Yufei Guo。今天,上海交大校友、目前在纽约大学担任助教的谢赛宁在朋友圈辟谣了自己是 Sora 作者之一的消息。他表示,Sora 是 Bill 他们在 OpenAI 的呕心沥血之作,虽然不知道细节,但他们每天基本不睡觉高强度工作了一年。同时,谢赛宁也对 Sora 发表了他的观点:第一,对于 Sora 这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的;第二,在问 Sora 为什么没出现在中国的同时,可能也得问问假设真的出现了(可能很快),我们有没有准备好?如何能保证知识和创意的通畅准确传播让每个人拥有讲述和传播自己故事的“超能力”,做到某种意义上的信息平权。但是又不被恶意利用,变成某些人某些组织的谋利和操纵工具。oai 有一整套的 redteaming, safety guardrail 的研究部署,欧美有逐渐成熟的监管体系,我们准备好了吗?这件事跟技术成熟前,生成点小打小闹的漂亮图片不是一个量级,真相捕捉和黑镜里讲的故事,很有可能很快变成现实。(封面图来自 X,左边为安德烈·卡帕蒂,右边为伊尔亚·苏茨克维) ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人