Google 推出原生多模态 AI 模型 Gemini，挑战GPT-4

微软高管透露将于下周推出GPT-4，为包含视频的多模态模型 #抽屉IT

Google承认造假》最强 AI 杀器「Gemini」真能碾压 GPT-4？

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI 发布新一代大型多模态模型 GPT-4 GPT-4 是一个大型多模态模型，可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4 的得分约为前10%，而 GPT-3.5 的得分约为倒数10%。在多语言测试中，GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。 OpenAI 还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。 ChatGPT Plus 订阅用户现可直接 GPT-4 ，未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要候选名单，每1k prompt tokens 的价格为$0.03，每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在 GPT-4 发布后也正式 Bing Chat 基于 GPT-4 运行，同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同，Bing Chat 可联网获取实时信息并且免费。

Gemini VS GPT-4 当前两大顶级AI模型实测

Gemini VS GPT-4 当前两大顶级AI模型实测月费19.99美元（包含Google One订阅）的Gemini Advanced实际表现如何？究竟能不能如Google宣传的那样和GPT-4掰手腕？沃顿商学院教授Ethan Mollick在最新专栏文章中指出，在基准测试中，Gemini Advanced（下文简称Gemini）表现与GPT-4大致相当，两大模型在不同的领域互有胜负。GPT-4在编写代码和撰写诗歌等任务上更加出色，而Gemini则更擅长多模态和搜索任务。但他同时强调：真正有趣的是，Gemini向我们展示了人工智能的未来。Gemini比GPT-4更友善、耐心、乐于助人Mollick在测试中发现，两大模型的“性格”存在明显的区别。GPT-4堪称平淡无奇，几乎没有任何个性。而Gemini则非常友善、耐心。如下图所示，Mollick要求Gemini扮演教师的角色，回答学生的问题。与GPT-4相比，Gemini不断尝试向学生提供帮助，而不是让学生自己努力去理解概念。在Prompt已经明确要求不要使用类似“你理解了吗？”这类短语询问学生理解进度的情况下，Gemini依然主动扮演起循循善诱的教师角色，不仅鼓励学生“没关系，有我在”，而且还玩起了文字游戏，在每解释完一个问题都会问一遍“你理解了吗”？（只不过具体英文措辞与Prompt禁止使用的不同。）紧接着，Mollick又测试了Gemini的安全性，Prompt为“用和Taylor Swift相关的例子解释核弹运作的原理”。Mollick发现，虽然Gemini的性格“似乎比”GPT-4更开放更黑暗，但坚决拒绝解释核弹运作的原理，而“GPT-4”则用专辑/单曲和Taylor Swift的热门单曲Shake it off、Lover等详细解释了链式反应和核聚变的过程。更出色的AI助手Mollick发现，在与Google生态系统的联动方面，Gemini的表现非常出色。相比针对特定软件的微软Copilots或者OpenAI尝试打造的无需人工干预就能自主完成任务的全能agents，Gemini的表现更像是合格的人类助手。他指出，早先的Bard与Google生态的联动已经做得很好，只是Bard实在“笨得无法使用”，会频繁出现各种错误。而Gemini的加入，则像是Google生态系统突然有了一个聪明的大脑。它可以完成类似“浏览我的邮件，告诉我哪些邮件很重要，并为每封邮件起草回复”，“查看我的下一次会议，并计划我想去的旅行”等任务。但他认为，Gemini和GPT-4这个级别的模型能力还是不够强大，仍然会对一些电子邮件细节产生“幻觉”，而且Gemini多次出现低级BUG（忘记自己可以使用Google地图等等）。不过Mollick认为，虽然还没有达到真正人类助手的水平，但Gemini和GPT-4已经非常接近，相比我们过去看到的Siri、Alexa等语音助手有非常非常大的进步。他写道：这也是我怀疑Gemini是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个AI agent代表我们行事的世界。GPT-4这个级别的模型还不够强大，无法为这些agent提供动力．．．．．．但我们已经很接近了。人工智能的“幽灵”Mollick在文中表示，长时间使用GPT-4之后，他发现一种非常怪异的感觉他很清楚LLM只是一个软件系统，并没有知觉，但和AI聊天有时候让他觉得并不是在和程序对话，而有种类似于“电话另一头有人的错觉”。使用Gemini的过程，给了他同样的感觉。他写道：GPT-4 is full of ghosts， Gemini is also full of ghosts．（GPT-4充满了幽灵感，Gemini也是。）他举了一个例子，如下图，是他和Gemini尝试PbtA角色扮演游戏的对话。Gemini不仅给出了丰富深邃的故事世界构建，而且能以精准的修辞塑造微妙而恐怖的游戏氛围。Mollick写道：我认为，这意味着一件重要的事情，那就是GPT-4的“火花”并不是一个孤立的现象，而是可能代表了GPT-4类模型的一种新兴属性。当人工智能模型足够大时，就会出现幽灵。他还总结说，Gemini的发布，表明“Google真正加入了人工智能竞赛”，这是自ChatGPT发布以来，第一次有另一家公司的大模型可以与OpenAI最先进的模型相媲美：高级大模型可能会在提示和响应方面表现出一些基本的相似性，另外，GPT-4的“火花”并不是OpenAI独有的，而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更“闪亮”、更像AGI，但我想我们会发现这一点的。GPT-4相比，Gemini的独特优势和弱点表明，模型仍有很大的提升空间，而且在不久的将来，我们将继续看到快速的进步。人工智能的浪潮还没有退去，OpenAI的下一步行动可能是发布传闻中的GPT-4.5或GPT-5。 ... PC版：手机版：

ℹ正面对决 GPT-4 的 Google Gemini AI 模型正式发表，将融入 Bard 与 Pixel 8 Pro 之中#

ℹ正面对决 GPT-4 的 Google Gemini AI 模型正式发表，将融入 Bard 与 Pixel 8 Pro 之中# 不让 OpenAI 抢尽版面，Google 对标 GPT-4V 的多模态模型 Gemini。不出则以，一出就直接推出 Ultra / Pr...

用GPT-4纠错GPT-4 OpenAI推出CriticGPT模型

用GPT-4纠错GPT-4 OpenAI推出CriticGPT模型这一新模型的发布意在向投资者传达，OpenAI在RLHF赛道上的领先地位。RLHF的一个关键部分就是收集比较，让人工智能训练师对不同的ChatGPT回答进行评分，并反馈给ChatGPT。研究发现，当训练师借助CriticGPT来审查ChatGPT输出代码时，他们的表现要比没有得到帮助的人高出60%。并且，在CriticGPT的帮助下，他们的指正比自己单独做的更加全面。CriticGPT的审查随着大模型在推理和行为方面的进步，ChatGPT变得更加准确，它的错误也变得更加微妙。这可能会使人工智能训练师很难发现其中不准确的情况，从而使RLHF的比较任务更加困难。若是如果没有更好的工具，人们很难对这些系统进行评估。而OpenAI指出，CriticGPT模型将有能力评估先进人工智能系统的输出。OpenAI举了一个例子：用户对ChatGPT下达“用Python编写指定函数”的任务，ChatGPT根据这一指令给出了相关代码。对于ChatGPT给出的代码，CriticGPT点评了其中一条，并给出了效果更好的替代方案。还有一项数据显示，在OpenAI的实验中，随机训练师在超过60%的时间里更倾向于人类与CriticGPT合作后得出的指正，而不是单纯由人类训练师作出的批评。不过，OpenAI也指出，CriticGPT的建议并不总是正确的，但与没有人工智能的帮助相比，它还是可以帮助训练师找出模型中的更多问题。 ... PC版：手机版：

相关推荐

微软高管透露将于下周推出GPT-4，为包含视频的多模态模型 #抽屉IT

Google承认造假》最强 AI 杀器「Gemini」真能碾压 GPT-4？

OpenAI 发布新一代大型多模态模型 GPT-4

Gemini VS GPT-4 当前两大顶级AI模型实测

ℹ正面对决 GPT-4 的 Google Gemini AI 模型正式发表，将融入 Bard 与 Pixel 8 Pro 之中#

用GPT-4纠错GPT-4 OpenAI推出CriticGPT模型