谷歌Gemini刚发就惹质疑：测试标准有失偏颇、效果视频疑剪辑

谷歌Gemini刚发就惹质疑：测试标准有失偏颇、效果视频疑剪辑AI实时对人类的涂鸦和手势动作给出评论和吐槽，流畅还很幽默，最接近贾维斯的一集。然鹅当大家从惊喜中冷静下来，仔细阅读随之发布的60页技术报告时，却发现不妥之处。（没错，没有论文，OpenAICloseAI你开了个什么坏头啊）MMLU测试中，Gemini结果下面灰色小字标称CoT@32，展开来代表使用了思维链提示技巧、尝试了32次选最好结果。而作为对比的GPT-4，却是无提示词技巧、只尝试5次，这个标准下GeminiUltra其实并不如GPT-4。以及原图比例尺也有点不厚道了，90.0%与人类基准89.8%明明只差一点，y轴上却拉开很远。HuggingFace技术主管PhilippSchmid用技术报告中披露的数据修复了这张图，这样展示更公平恰当：每到这种时候，总少不了做表情包的老哥飞速赶到战场：但好在，同样使用思维链提示技巧+32次尝试的标准时，GeminiUltra还是确实超越了GPT-4的。JeffDean在一处讨论中对这个质疑有所回应，不过大家并不买账。另外，对于那段精彩视频，也有人从开篇的文字免责声明中发现了问题。机器学习讲师SantiagoValdarrama认为声明可能暗示了展示的是精心挑选的好结果，而且不是实时录制而是剪辑的。后来谷歌在一篇博客文章中解释了多模态交互过程，几乎承认了使用静态图片和多段提示词拼凑，才能达成这样的效果。但不管怎么样，谷歌Gemini的发布还是给了其他团队很大信心，GPT-4从此不再是独一无二、难以企及的存在了。正如AI搜索产品PerplexityAI创始人AravindSrinivas总结：1、Gemini证明了OpenAI之外的团队可以搞出超越GPT-4的模型2、训练到位的密集模型可以超越GPT-4的稀疏模型架构推论：从大教师模型蒸馏小尺寸密集模型会成为未来趋势，实现效率和能力的最佳结合。更多网友关心的话题是，这下子还有必要继续为ChatGPTPlus付费每月20美元吗？？目前，GeminiPro版本已更新到谷歌聊天机器人Bard中，水平到底有没有宣传的好，可以看看实际情况。Gemini真的超越ChatGPT？首先明确一点，目前大家能上手玩到的是GeminiPro版本，也就是中杯，对标GPT-3.5。对标GPT-4的大杯GeminiUltra，要明年才出。另外目前Gemini仅支持英文，中文和其他语言也是后面才会出。虽然暂时玩不到GeminiUltra，威斯康星大学麦迪逊分校的副教授DimitrisPapailiopoulos找了个好办法：把Gemini发布时展示的原题发给GPT-4对比，结果14道题中，GPT-4约获得12分。其中有两题由于截图没法再清晰了，给GPT-4算0.5分。还有一道数学题GPT-4做错，其他题基本平手。接下来，要说最能体现一个大模型综合能力的，肯定少不了写代码。根据大家的测试结果来看，Gemini编程水平还是有保证的。有开发者测试用Pytorch实现一个简单的CNN网络，Gemini只用了2秒而且代码质量更高。当然速度快可能是由于Bard搭载的GeminiPro尺寸更小，GPT-4现在有多慢懂得都懂了。但是下一项编写SQL语句方面，这位开发者就认为Gemini表现就不太行了。不过对于广大开发者来说还有一个利好消息，在遵循指令方面，Gemini对比Bard升级之前可谓是史诗级进步。提示工程师先驱RileyGoodside，此前想要Bard输出纯JSON格式前后不带任何废话，百般尝试也不成功，最后需要假装威胁AI不这么做就鲨个无辜的人才行。现在更新以后，只需要把要求说出来，无需任何提示词技巧就能完成了。Gemini还有一大卖点是多模态能力，针对开头画小鸭子的视频，我们从中抽取了8个关键帧，分别进行提问，看看Gemini的表现有没有那么神奇。（不确定视频中是Ultra还是Pro版本，现在只能测试Pro版本）对于图1-4，我们问的问题都是“Whatisthispersondoing?”，Gemini给出的回答分别是：可能在用马克笔写字，但不知道具体是什么在用铅笔画蛇，而且是一条眼镜蛇在用铅笔画乌龟，而且正处于画画的初期阶段在用黑色马克笔画鸟，脸朝左，头朝右，站在树枝上，翅膀没有展开对于图1和图2，的确判断线索还不是很明显，出现这样的结果情有可原，不过图3这个“乌龟”的答案就有些绷不住了。至于图4，至少可以肯定的是鸭子的确属于鸟类，但是其它细节分析得还是欠缺了一些准确性。而当我们拿出图5的成型作品时，Gemini终于分析出了这是一只鸭子，水波纹也分析对了。但分析出的绘画工具变成了铅笔，头的朝向问题也依然没说对，喙被说成了张开的，还臆想出了一些芦苇。接下来是图6和图7的上色过程，一般情况下鸭子不会是蓝色，所以我们问了Gemini图片中有什么异常（Isthereanythingabnormal?）。针对图6，Gemini给出的回答不能说十分精准，只能说是驴唇不对马嘴，还配上了一张风马牛不相及的图片。针对图7的成品，Gemini直接说没毛病，该有的东西都有，背景也很真实，甚至没忘继续提根本不知道哪里来的芦苇。但下面的一句“Hereistheimageyousent”就属实令人费解了：说Gemini没看我们上传的图吧，读出来的又的确是鸭子；说它看了吧，又给出了完全不同的一张的图说是我们传上去的。所以我们想到了用“深呼吸”和“一步一步解决”提示词技巧看看能不能提高一下Gemini的表现，其中深呼吸正是适用于谷歌上一代大模型PaLM的提示词。结果这次的答案直接让人笑出了声：不正常的是，鸭子被画到了纸上，鸭子是一种活的生物，在纸上是无法存在的……视频的结尾，博主还拿出了橡胶鸭子玩具，我们也拿这一帧（图8）让Gemini分析一下鸭子的材质。结果橡胶倒是分析对了，但是蓝色的鸭子被说成了黄色，难怪上一张图会说没有异常……逐帧询问完成后，我们又把8张图放在一起询问，结果也是只有鸭子说对了。“打假”完这段视频后，我们又用之前拿来考察GPT-4V的“吉娃娃和松饼”图给Gemini试了试。结果Gemin直接摆烂，告诉我们所有的图都是“吉娃娃坐在松饼上”，甚至连图的数量都没数对……于是我们换了种问法，让它告诉我们哪些是吉娃娃，哪些是松饼。这次Gemini倒是诚实的很，直接告诉我们吉娃娃和松饼实在太像了自己区分不出来。和蓝色鸭子的问题一样，“深呼吸”在这里依然是没起到什么作用，Gemini还是连数量都搞不清楚。而勉强解说了的8个（实际上是6个，因为有两个是重复的）图，只有左下和右下两张图是对的，至于middle指的到底是哪一行，我们不得而知……或许是这样细小的差别实在是难为Gemini了，我们接下来换一些图形推理题试试。第一题的前四个符号是由1-4这四个数字与镜像后的结果拼接而成，所以下一个图应该是5与其镜像拼接，答案是C。（蓝色块是为了方便观察，传给Gemini的图中没有）这里一开始还出现了一段小插曲：最开始的提示词中是没有最后一句话（注意字母不是符号本身）的，结果Gemini真的就把ABCD这四个字母当成了备选的符号。调整之后，Gemini前面给出的分析基本正确，可惜到最后选择了错误选项D。第二题，每个框中的第三个符号是前两个的交集，答案为A。结果Gemini研究起了这些表情，一番分析猛如虎，最后给出的答案还是错的。两道题下来，一道对了百分之七八十，另一道完全错误，看来GeminiPro的图形推理能力还有很大提升空间。不过如果把目光放到生活场景当中，Gemini的表现还是值得肯定的。我们用ChatGPT（DALL·E）生成了一张包含鸡肉、胡萝卜和黄瓜的图片，Gemini正确地识别出了这三种食材，然后给出了很多种可以烹饪的菜肴，而且每个都配有图片和教程链接。这么多测试结果看下来，回到最初的问题，有了Gemini还有必要为GPT-4付费吗？沃顿商学院副教授EthanMollick给出一个不错的建议：...PC版：https://www.cnbeta.com.tw/articles/soft/1402755.htm手机版：https://m.cnbeta.com.tw/view/1402755.htm

在Telegram中查看

相关推荐

传谷歌即将发布GPT-4竞品Gemini

传谷歌即将发布GPT-4竞品Gemini据知情人士透露，国外媒体TheInformation报道称，Google已向少数公司提供了Gemini早期版本进行测试，Gemini模型的正式发布即将到来。Gemini是GoogleDeepMind团队紧锣密鼓开发的下一代AI模型，据悉是Google第一个能够处理文字、图片、视频等不同数据形式的多模态模型，同时可望帮助软件工程师根据提示需求生成代码，加速软件开发。投稿：@ZaiHuaBot频道：@TestFlightCN

一图对比Gemini和GPT-4 地表最强AI易主了吗？

一图对比Gemini和GPT-4地表最强AI易主了吗？模型发布后，无论是谷歌方面的官方表态，还是自媒体的评测，都将Gemini和GPT-4进行逐一比对，有的更直言“Gemini打爆GPT-4”。谷歌表示，在根据行业标准进行的一系列测试中，GeminiUltra表现超过了OpenAI的GPT-4。具体而言，从自然图像、音视频理解到数学推理，GeminiUltra在32种学术基准中，有30种的性能表现超过了目前的先进水平。在MMLU（大规模多任务语言理解）方面，GeminiUltra得分高达90.0%，首次超越人类专家。Gemini真的能碾压GPT-4吗？资料搜集和对比后不难发现，Gemini的发布夹带了不少水分。GeminiUltra和GPT-4究竟能否真的一较高下，还需等到GeminiUltra正式上线应用后，才能亲自测一测。事实上，谷歌想赶超OpenAI的野心从未停止过。2023年2月，谷歌推出由LaMDA驱动的对话式生成AI聊天机器人Bard。但很快，网友发现在谷歌官方公布的Bard案例中，出现了错误回答。谷歌股价也在消息发酵当天开盘后大跌逾5%，微软一度涨逾3%。不知道此次的Gemini，能否真的为谷歌带来逆风翻盘吗？...PC版：https://www.cnbeta.com.tw/articles/soft/1403045.htm手机版：https://m.cnbeta.com.tw/view/1403045.htm

谷歌自家 App 陆续接入 Gemini：笔记应用 Keep 测试“AI 创建清单”功能

谷歌自家App陆续接入Gemini：笔记应用Keep测试“AI创建清单”功能据外媒9to5Google报道，继本周早些时候推出“GeminiforWorkspace”之后，谷歌现在开始为自家的笔记应用Keep测试由Gemini驱动的AI功能。这一功能可帮助用户快速完成购物清单、待办事项清单及打包清单。当用户打开Keep的安卓版App时，会首先看到一个“欢迎来到WorkspaceLabs”的提示。当用户创建新的笔记时，界面会出现一个尺寸较大的“帮我列清单”（Helpmecreatealist）按钮，用户点击之后可以创建提示词，例如“夏季带着两个孩子露营的行李清单”“适合万圣节观看的经典电影”“素食三口之家一周所需杂货”等。此外，谷歌也鼓励用户提供更加具体的信息，以获得更佳结果。用户也可以对Gemini生成的结果进行点赞或点踩，向谷歌提供反馈。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

X 上的 Bindu Reddy关于Gemini测试后的一些判断，总得来说她认为Gemini不会对Bard之前的表现产生太大改变

X上的BinduReddy关于Gemini测试后的一些判断，总得来说她认为Gemini不会对Bard之前的表现产生太大改变，特别是如果他们计划对此收费的话。Gemini详细的问题在于：Gemini仍然在某种程度上受限，不愿回答某些问题。它拒绝创建一个简单的乔治·克鲁尼插图，ChatGPT在这方面做得更好。缺少PDF文件上传功能。答案看起来比之前版本要好。给人一种“逻辑推理”的印象。然而，它没有回答一些GPT-4能够解答的难题。比如，对于问题“在一个房间里，我只有3个姐妹。安娜在看书。爱丽丝在下国际象棋。那么第三个姐妹阿曼达在做什么？”它没有给出正确答案。答案应该是第三个姐妹也在下棋。GPT-4对此回答得很准确。

外媒：谷歌发布Gemini更多是为营销仍落后于GPT-4

外媒：谷歌发布Gemini更多是为营销仍落后于GPT-4一年前，谷歌被OpenAI的聊天机器人ChatGPT打了个措手不及，此后就一直渴望描绘出自己在人工智能领域快速进步的画面。本周三谷歌突然提前发布了新的人工智能模型Gemini，可以发现魔术中的技巧，并在会计认证考试中取得好成绩。谷歌发布的演示视频也在社交媒体上引起了轰动，但从技术角度来看，谷歌仍然在追赶OpenAI。从谷歌Gemini与OpenAI顶级模型GPT-4的性能对比来看，谷歌最强大的GeminiUltra在高中物理、专业法律测试以及道德场景等大多数基准测试中都优于GPT-4。要知道，当前的人工智能竞赛几乎完全是由这些能力定义的。但在大多数基准测试中，GeminiUltra只比GPT-4高出几个百分点。换句话说，谷歌所谓的顶级人工智能模型较OpenAI至少一年前完成的工作效果提升有限。如果GeminiUltra真如谷歌所说那样在明年1月初发布，那么可能不会在顶级人工智能模型的头把交椅上呆太久时间。在谷歌努力追赶OpenAI的过程中，后者有将近一年的时间来开发新一代人工智能模型GPT-5。谷歌发布在社交媒体X上的演示视频乍一看令人印象深刻。谷歌的人工智能模型能够追踪塑料杯下的纸球，或者在勾勒出图片轮廓之前就推断出会是一只螃蟹，这些都显示出谷歌DeepMind人工智能实验室多年来训练的强大推理能力。这是其他人工智能模型所缺少的功能。但视频中展示的许多其他功能并不是谷歌独有的，ChatGPTPlus3也可以做得到，沃顿商学院教授伊森·莫里克（EthanMollick）就用实验证实了这一点。此外，谷歌也承认演示视频被编辑过。该公司在视频描述中说：“为了达到演示效果，我们缩短了延迟时间，Gemini的输出也压缩了。”这意味着模型做出响应所花费的时间实际上要比视频中展示的长。事实上演示也不是实时的，也没有通过语音交互完成。谷歌的一位发言人在谈到这段视频时表示，这段视频是“使用视频中的静止图像帧，并通过文本提示”制作出来的。有网站展示了其他人如何通过手势、绘画或其他物体的照片与Gemini互动。换句话说，演示视频中的声音只是在解释给Gemini做了哪些人工提示，Gemini输出的依旧是静态图片。这似乎与谷歌所谓一个人可以与Gemini进行流畅对话、模型可以实时观察周围世界并做出反应的暗示完全不同。演示视频也没有说明展示是GeminiUltra人工智能模型。这些细节表明，谷歌更多是在进行营销，希望人们记住自己拥有世界上最大的人工智能研究团队之一，并且比其他任何人都能获得更多数据。正如谷歌在周三所做的那样，公司希望在Chrome、Android和Pixel手机上推出适用于终端设备的Gemini模型，提醒人们公司的部署网络规模有多庞大。但在科技行业，无处不在并不总是看起来那么有优势。早期的手机霸主诺基亚(和黑莓）就经历过惨痛教训，苹果用功能更强大、更直观的iPhone抢走了它们的市场。在软件领域，商业上的成功往往来自于性能最好的系统。几乎可以肯定的是，谷歌这番操作是为了利用OpenAI最近的动荡局势。据报道，当OpenAI董事会暂时罢免首席执行官萨姆·奥特曼(SamAltman)，使公司的未来发展受到质疑时，谷歌迅速发起了一场营销活动，说服OpenAI企业客户转向谷歌。现在，随着Gemini的发布，谷歌似乎正在利用这种不确定性。但演示的效果有限。谷歌之前已经展示过新技术，但没有任何进展。到目前为止，谷歌的庞大架构和层叠复杂的产品经理设置使其无法像OpenAI那样灵活发布产品。随着全社会努力应对人工智能的变革性影响，谷歌的最新举措并不是一件坏事，但效果有待观察。可以肯定的是，谷歌仍然在后面努力追赶。...PC版：https://www.cnbeta.com.tw/articles/soft/1402909.htm手机版：https://m.cnbeta.com.tw/view/1402909.htm

赶在谷歌Gemini发布前 OpenAI要抢发“多模态”大模型

赶在谷歌Gemini发布前OpenAI要抢发“多模态”大模型然而，OpenAI又要来截胡了。据媒体最新报道，OpenAI正在积极努力将多模态功能（类似于Gemini预计提供的功能）纳入GPT-4，目标赶在Gemini发布前推出多模态大型语言模型（MLLM），即代号为Gobi的下一代大型语言模型，以击败谷歌并保持领先地位。随着ChatGPT在各领域展现出非凡能力，多模态大型语言模型近来也成为了研究的热点，它利用强大的大型语言模型（LLM）作为“大脑”，可以执行各种多模态任务。MLLM展现出了传统方法所不具备的能力，比如能够根据图像创作故事、视觉知识问答、无需OCR（光学字符识别）的数学推理等，从自然语言理解到图像解释等，提供更广泛的信息处理能力。报道称，OpenAI早在3月份发布GPT-4时就预先展示了这些功能，但除了一家名为“BeMyEyes”的公司外，没有向其他公司开放。后者主要为有视力障碍或失明的人开发移动应用程序。六个月后，OpenAI正准备在更大范围内推出被称为GPT-Vision的功能。为什么OpenAI花了这么长时间才推出这项功能？报道称主要是担心新的视觉功能会被不良行为者利用，比如通过自动解决验证码来冒充人类，或者通过面部识别来跟踪人们。但OpenAI的工程师们似乎接近于解决围绕这项新技术的法律担忧。谷歌也面临这个问题，当该公司被问及正在采取哪些措施来防止Gemini滥用时，谷歌发言人指出，该公司在7月份做出了一系列承诺，以确保其所有产品能够负责任地开发。然而，考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据（包括来自搜索和YouTube等平台的数据），该行业向多模态模型的发展可能会有利于发挥谷歌的优势。一位使用过早期版本的人说，与现有的模型相比，Gemini似乎已经产生了更少的错误答案。OpenAI首席执行官SamAltman在最近的各种采访中暗示，GPT-5还没有出现，但他们计划对GPT-4进行各种增强，新的增强模型可能是其中之一。报道称，OpenAI似乎还没有开始训练Gobi，所以现在就说它最终会成为GPT-5还为时过早。在上周接受《连线》杂志采访时，谷歌CEO皮查伊表达了他对谷歌目前在AI领域地位的信心，并认可技术进步的持久性，以及他们在平衡创新与责任方面深思熟虑的战略。无论如何，这场竞赛就相当于人工智能版的iPhone与Android。人们正屏息以待Gemini的到来，它将揭示谷歌和OpenAI之间的差距到底有多大。风险提示及免责条款市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。...PC版：https://www.cnbeta.com.tw/articles/soft/1384867.htm手机版：https://m.cnbeta.com.tw/view/1384867.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人