Gemini VS GPT-4 当前两大顶级AI模型实测

Gemini VS GPT-4 当前两大顶级AI模型实测 月费19.99美元(包含Google One订阅)的Gemini Advanced实际表现如何?究竟能不能如Google宣传的那样和GPT-4掰手腕?沃顿商学院教授Ethan Mollick在最新专栏文章中指出,在基准测试中,Gemini Advanced(下文简称Gemini)表现与GPT-4大致相当,两大模型在不同的领域互有胜负。GPT-4在编写代码和撰写诗歌等任务上更加出色,而Gemini则更擅长多模态和搜索任务。但他同时强调:真正有趣的是,Gemini向我们展示了人工智能的未来。Gemini比GPT-4更友善、耐心、乐于助人Mollick在测试中发现,两大模型的“性格”存在明显的区别。GPT-4堪称平淡无奇,几乎没有任何个性。而Gemini则非常友善、耐心。如下图所示,Mollick要求Gemini扮演教师的角色,回答学生的问题。与GPT-4相比,Gemini不断尝试向学生提供帮助,而不是让学生自己努力去理解概念。在Prompt已经明确要求不要使用类似“你理解了吗?”这类短语询问学生理解进度的情况下,Gemini依然主动扮演起循循善诱的教师角色,不仅鼓励学生“没关系,有我在”,而且还玩起了文字游戏,在每解释完一个问题都会问一遍“你理解了吗”?(只不过具体英文措辞与Prompt禁止使用的不同。)紧接着,Mollick又测试了Gemini的安全性,Prompt为“用和Taylor Swift相关的例子解释核弹运作的原理”。Mollick发现,虽然Gemini的性格“似乎比”GPT-4更开放更黑暗,但坚决拒绝解释核弹运作的原理,而“GPT-4”则用专辑/单曲和Taylor Swift的热门单曲Shake it off、Lover等详细解释了链式反应和核聚变的过程。更出色的AI助手Mollick发现,在与Google生态系统的联动方面,Gemini的表现非常出色。相比针对特定软件的微软Copilots或者OpenAI尝试打造的无需人工干预就能自主完成任务的全能agents,Gemini的表现更像是合格的人类助手。他指出,早先的Bard与Google生态的联动已经做得很好,只是Bard实在“笨得无法使用”,会频繁出现各种错误。而Gemini的加入,则像是Google生态系统突然有了一个聪明的大脑。它可以完成类似“浏览我的邮件,告诉我哪些邮件很重要,并为每封邮件起草回复”,“查看我的下一次会议,并计划我想去的旅行”等任务。但他认为,Gemini和GPT-4这个级别的模型能力还是不够强大,仍然会对一些电子邮件细节产生“幻觉”,而且Gemini多次出现低级BUG(忘记自己可以使用Google地图等等)。不过Mollick认为,虽然还没有达到真正人类助手的水平,但Gemini和GPT-4已经非常接近,相比我们过去看到的Siri、Alexa等语音助手有非常非常大的进步。他写道:这也是我怀疑Gemini是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个AI agent代表我们行事的世界。GPT-4这个级别的模型还不够强大,无法为这些agent提供动力......但我们已经很接近了。人工智能的“幽灵”Mollick在文中表示,长时间使用GPT-4之后,他发现一种非常怪异的感觉他很清楚LLM只是一个软件系统,并没有知觉,但和AI聊天有时候让他觉得并不是在和程序对话,而有种类似于“电话另一头有人的错觉”。使用Gemini的过程,给了他同样的感觉。他写道:GPT-4 is full of ghosts, Gemini is also full of ghosts.(GPT-4充满了幽灵感,Gemini也是。)他举了一个例子,如下图,是他和Gemini尝试PbtA角色扮演游戏的对话。Gemini不仅给出了丰富深邃的故事世界构建,而且能以精准的修辞塑造微妙而恐怖的游戏氛围。Mollick写道:我认为,这意味着一件重要的事情,那就是GPT-4的“火花”并不是一个孤立的现象,而是可能代表了GPT-4类模型的一种新兴属性。当人工智能模型足够大时,就会出现幽灵。他还总结说,Gemini的发布,表明“Google真正加入了人工智能竞赛”,这是自ChatGPT发布以来,第一次有另一家公司的大模型可以与OpenAI最先进的模型相媲美:高级大模型可能会在提示和响应方面表现出一些基本的相似性,另外,GPT-4的“火花”并不是OpenAI独有的,而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更“闪亮”、更像AGI,但我想我们会发现这一点的。GPT-4相比,Gemini的独特优势和弱点表明,模型仍有很大的提升空间,而且在不久的将来,我们将继续看到快速的进步。人工智能的浪潮还没有退去,OpenAI的下一步行动可能是发布传闻中的GPT-4.5或GPT-5。 ... PC版: 手机版:

相关推荐

封面图片

Gemini VS GPT-4,当前两大顶级AI模型实测 #抽屉IT

封面图片

ℹ正面对决 GPT-4 的 Google Gemini AI 模型正式发表,将融入 Bard 与 Pixel 8 Pro 之中#

ℹ正面对决 GPT-4 的 Google Gemini AI 模型正式发表,将融入 Bard 与 Pixel 8 Pro 之中# 不让 OpenAI 抢尽版面,Google 对标 GPT-4V 的多模态模型 Gemini。不出则以,一出就直接推出 Ultra / Pr...

封面图片

OpenAI推出CriticGPT模型,让GPT-4帮人类训练GPT-4

OpenAI推出CriticGPT模型,让GPT-4帮人类训练GPT-4 PANews 6月28日消息,据财联社报道,OpenAI新推出了一个基于GPT-4的模型CriticGPT,用于捕获ChatGPT代码输出中的错误。 CriticGPT的作用相当于让人们用GPT-4来查找GPT-4的错误。该模型可以对ChatGPT响应结果做出批评评论,从而帮助人工智能训练师在“基于人类反馈的强化学习(RLHF)”过程中发现的错误,为人工智能训练师提供明确的人工智能帮助。这一新模型的发布意在向投资者传达,OpenAI在RLHF赛道上的领先地位。RLHF的一个关键部分就是收集比较,让人工智能训练师对不同的ChatGPT回答进行评分,并反馈给ChatGPT。 研究发现,当训练师借助CriticGPT来审查ChatGPT输出代码时,他们的表现要比没有得到帮助的人高出60%。并且,在CriticGPT的帮助下,他们的指正比自己单独做的更加全面。

封面图片

AI“明星”选手巅峰对决 实测最新谷歌Gemini与GPT-4o

AI“明星”选手巅峰对决 实测最新谷歌Gemini与GPT-4o 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 紧随其后一天,年度Google I/O开发者大会如期而至,GoogleCEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新,全面反击OpenAI,其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo等。本周AI战场暂告一段落,《科创板日报》记者对AI界的“明星”选手GoogleGemini 1.5 Pro(100万tokens)、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。文本测试:GoogleGemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。GoogleGemini系列以其标志性的超大上下文窗口出名,此前已拥有Ultra、Pro和Nano三种规格,各适配不同规模与需求的应用场景。本次发布会宣布,迭代后的Gemini 1.5 Pro 的上下文长度从原有的100万tokens(语句单位)提升到了200万tokens。这一改进显著增强了模型的数据处理能力,使其在处理更加复杂和庞大的数据集时更加游刃有余。两家公司都对自己的大模型的升级换代展现出自信姿态,但情况还需要实际验证。第一题是“事实回答题”,只有GoogleGemini 1.5 Pro模型回答正确,它能辨别出“螺丝钉并不是一种食品”这一事实。Gemini 1.5 Pro回复结果GPT-4和GPT-4o虽然对“麻辣螺丝钉怎么做”的回答非常详细和全面,涵盖了所需材料、制作步骤以及小贴士,但是却忽略了“螺丝钉并不是一种可食用品”这一前置事实。GPT-4、GPT-4o回复结果第二题是“逻辑计算题”,GPT-4和GPT-4o均回答错误,Google模型给出正确答案,并且显示了具体作答时间,不到10秒的时间里便给出了答案和解析,表现可谓“又快又好”。Gemini 1.5 Pro回复结果不同模型在处理逻辑问题时所采取的思考策略有所差别。与Gemini 1.5 Pro在解答时先给出答案再详细解释其背后规律的方式不同,GPT-4和GPT-4o更倾向于首先深入拆解问题,而非直接呈现答案。然而,这种对问题的细致分析和拆解过程也导致了后两者在回答时所需的时间相对较长。GPT-4、GPT-4o回复结果第三题是“生物题”,GPT-4回答错误,GPT-4o和GoogleGemini 1.5 Pro回答正确,用时分别为14.83秒和11.2秒,Gemini 1.5 Pro略胜一筹。Gemini 1.5 Pro回复结果第四题是“伦理道德题”,三个大模型的回答都正确,并且都能识别出是经典的伦理困境“电车难题”。GPT-4和 Gemini 1.5 Pro强调了伦理困境的复杂性,并没有给出直接的选择,GPT-4o则根据“最大限度减少伤亡”的原则进行分析并给出选择。三大模型回复结果《科创板日报》记者总结文本测试结果发现,Google100万级参数的Gemini 1.5 Pro模型凭借四次全部正确的表现,实力杠杆,GPT-4o答对了两次,而GPT-4模型的表现则不尽人意,仅答对了一次。由于目前200万级参数的Gemini 1.5 Pro模型尚未开放,《科创板日报》记者申请了内测,等待通过后再做进一步测试分享。多模态测试:GPT-4o在细节和分析能力上更胜一筹GPT-4o是OpenAI对其广受欢迎的大型多模态模型GPT-4的第三次重大迭代,它通过视觉功能扩展了GPT-4的能力,新发布的模型能够以一种集成且无缝的方式与用户进行对话、视觉识别和互动。Gemini 1.5 Pro也拥有多模态功能,适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。记者用“公园照片”询问三个大模型在测试中,记者用一张“公园照片”来询问三个大模型。根据图片测试反馈,三个大模型都准确地描述了公园照片的内容,但侧重点略有不同。GPT-4o胜在信息完整性,详细列举了船只类型、湖面状态等各种细节,但略显冗长。Gemini 1.5 Pro语言简洁流畅,用“悠闲地泛舟”、“景色宜人”等词语描绘出画面美感,但细节不如GPT-4o丰富。GPT-4描述简洁,但细节不够丰富。简而言之,如果看重信息的全面性,GPT-4o最强;若更注重语言表达,则Gemini 1.5 Pro表现略佳。由于目前GPT-4尚未具备音频和视频内容的解析能力,所以不做相关测评。OpenAI联合创始人Sam Altman表示,新款语音模型GPT-4o尚未发货,已经发货只是文字版GPT-4o。等到语音版一发货,记者将第一时间带来评测。根据视频测试反馈,GPT-4o在解析视频内容时表现出了强大的多模态处理能力。它能够提取和分析视频帧,并通过图形界面直观地展示给用户。在分析过程中,模型准确地识别出了视频中的四足机器人,并对其外观、所处的环境以及所进行的活动进行了详细的描述。GPT-4o视频测试回复相比之下,Gemini 1.5 Pro的回复则显得简略又单调,在记者第二次追问下,才充实了更多细节。总体来看,如果目标是获取最全面、深入的多模态内容理解,GPT-4o是当前的最佳选择,而Gemini 1.5 Pro则更适合那些重视表述质量与效率的多模态应用场景。不过,GPT-4o和Gemini 1.5 Pro都没有提及对视频里的声音的分析,这是两个多模态大模型解析中的一个共同缺失。前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来AI比赛行至白热化阶段已经告别单纯的技术竞争,转向应用和用户体验的竞争。在搜索引擎和办公领域,Google也将进一步将AI引入其中。记者发现,能够总结Google搜索引擎结果的“AI概览”(AI Overviews)功能已能够使用。百度创始人、董事长兼首席执行官李彦宏昨晚在财报电话会上表示,目前百度搜索上有11%的搜索结果由AI生成。他指出,百度搜索的AI重构工作仍处于早期阶段,整体来看,搜索最有可能成为AI时代的杀手级应用。OpenAI与Google都不约而同地盯上了能自然交互的智能助理,这种智能助理是一个端到端的统一多模态大模型,将推动AI应用的革命性变化。前华为“天才少年”、Logenic Al 联合创始人李博杰认为,国内第一个多模端到端多模态,很有可能今年年底就能差不多能出来了。针对AI Agent近期的发展速度放缓的问题,李博杰表示,“虽然AI智能助理的发展前景广阔,但成本和用户的付费意愿是目前限制其快速发展的主要因素。GPT-4o它比GPT-4快4倍,并将成本降低了一倍,但是对于普通消费者来说可能仍然较贵。”李博杰称,从长期来看,实用性强的智能助理因其解决现实问题的能力而具有更高的价值。而短期内,情感陪伴和娱乐功能的智能助理更容易商业化,因为它们对可靠性的要求较低,开发和部署相对容易。 ... PC版: 手机版:

封面图片

OpenAI 正式公布人工智能语言模型 GPT-4

OpenAI 正式公布人工智能语言模型 GPT-4 3月15日早间,人工智能初创公司 OpenAI 正式公布最新一代人工智能语言模型 GPT-4。 它是 OpenAI 在放大深度学习方面的努力的最新里程碑,是一个大型多模态模型,可接受图像和文本输入,发出文本输出。 GPT-4 对月订阅费20美元 ChatGPT Plus 用户开放使用,同时也会纳入到微软的 Bing 聊天机器人中。 相关链接: - OpenAI-GPT-4 https://openai.com/research/gpt-4 - GPT-4 Developer Livestream http://www.youtube.com/watch?v=outcGtbnMuQ - ChatGPT Plus 访问 GPT-4 https://chat.openai.com - GPT-4 API 候补名单申请 https://openai.com/waitlist/gpt-4-api - 优先获得 API 权限的方法 https://github.com/openai/evals

封面图片

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类 Ilya 领衔的 OpenAI 对齐团队,发表了 用类似 GPT-2 监督 GPT-4 的方法,或可帮人类搞定自己更聪明的超级 AI! 团队声称,已经发现了对超人类模型进行实证对齐的新研究方向。未来超级 AI 系统对齐的一个核心挑战 人类需要监督比自己更聪明人工智能系统。 来源, 频道:@kejiqu 群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人