大模型实时打《街霸》捉对PK GPT-4居然不敌3.5

大模型实时打《街霸》捉对PK GPT-4居然不敌3.5 这种新玩法吸引了不少网友来围观。由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。排名结果也很出人意料。经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。考验AI的动态决策力AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:反应要快:格斗游戏讲究实时操作,犹豫就是败北脑子要灵:高手应该预判对手几十步,未雨绸缪思路要野:常规套路人人会,出奇制胜才是制胜法宝适者生存:从失败中吸取教训并调整策略久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率具体玩法如下:每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述。所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。再把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击,可能的情况下使用特殊招式,以及通过跳跃来拉开距离。从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差。开发者对此解释到:目标是评估大模型的实时决策能力,规则上允许AI提前生成3-5个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。正如开发者所说,想要赢,要在速度和精度之间做好权衡。GitHub项目: ... PC版: 手机版:

相关推荐

封面图片

微软钦点OpenAI备胎:GPT-4级大模型上线即挤爆 成本仅2200万美元

微软钦点OpenAI备胎:GPT-4级大模型上线即挤爆 成本仅2200万美元 同时推出在线聊天机器人平台Le Chat,即使有了微软Azure算力资源,服务器还是被挤爆了。由于其API比GPT-4最新版便宜20%,已经吸引了部分创业者去尝试。根据HyperWriteAI创始人测试,Mistral Large跑分看起来只比排第三的Claude 2好一点,但是实测效果还要好更更更多。不过也有开发者认为便宜只是暂时的,非常确信GPT-4也有降价空间。总之,这个价格战真的打起来就更妙了。网页版开放,但服务器被挤爆Mistral Large属于他家商用系列的大杯,不开源,也不免费。主要亮点如下:32k上下文窗口支持多语言,代码能力强,擅长推理原生支持函数调用和输出JSON格式模块化的审查控制机制在多项推理和知识能力测试中,成绩仅次于GPT-4除此之外,并无更多消息透露,从之前小杯、中杯的情况看,技术报告可能也不会有了。不过创始人Arthur Mensch透露,Mistral Large训练成本不到2200万美元,相比之下GPT-4可能超过1亿美元。API价格比gpt-4-turbo便宜20%,输出一百万token要24美元,约173人民币元。gpt-4-turbo同样输出一百万token要30美元,约216人民币。两者输入token价格都是输出tokend的1/3。除了通过API访问之外,这次Mistral也开放了相当于ChatGPT的网页版Le Chat聊天助手。这里还有一个小彩蛋。Le Chat在法语里相当于英语The Cat,在原本的M字Logo下加上两个点代表眼睛,这样空白处就成了猫耳朵。切换到夜间模式,还会变成Le Chat Noir,也就是The Black Cat。很可惜,现在再注册已经需要排队了。如果现在想体验Mistral Large, 还可以去Poe.com或大模型竞技场LMSYS Chatbot Arena。不过由于太火了,目前全平台无法响应……在最新Chatbot Arena排行榜上,Mistral中杯版已经与GPT-4早期版本差距不大,大杯版的表现也值得期待。微软不再独宠OpenAI微软CEO纳德拉宣布,已与Mistral AI建立多年合作伙伴关系。微软将持有Mistral AI少量股份,并提供算力基础设施用于w训练和推理部署大模型。新模型优先通过微软Azure云提供给客户,暂不登录亚马逊Google云等其他云平台。Mistral也成了微软Azure上除了OpenAI以外,第二个商业闭源模型供应商。有网友开玩笑说,早看出来他们两家有点子关系,Mistral AI的Logo一看就是用Word艺术字画的。 ... PC版: 手机版:

封面图片

Mistral 正式发布 Mistral Large,在基准测试中仅次于GPT-4,超过其他所有模型。

Mistral 正式发布 Mistral Large,在基准测试中仅次于GPT-4,超过其他所有模型。 Mistral Large具有新的功能和优势: 它在英语、法语、西班牙语、德语和意大利语方面拥有母语般流利的能力,并对语法和文化背景有细致的理解。 其32K令牌的上下文窗口允许从大型文档中精确地寻找信息。 它精确的指令跟随能够让开发者设计他们的管理政策 - 我们用它来建立 le Chat 的系统级管理。 它本身就能够进行函数调用。这一点,再加上在la Plateforme上实现的受限输出模式,使得应用程序开发和技术栈现代化能够大规模进行。 支持在La Plateforme、Azure和私有部署。 了解更多:

封面图片

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类 Ilya 领衔的 OpenAI 对齐团队,发表了 用类似 GPT-2 监督 GPT-4 的方法,或可帮人类搞定自己更聪明的超级 AI! 团队声称,已经发现了对超人类模型进行实证对齐的新研究方向。未来超级 AI 系统对齐的一个核心挑战 人类需要监督比自己更聪明人工智能系统。 来源, 频道:@kejiqu 群组:@kejiquchat

封面图片

Vercel Labs 推出 AI Playground 可用 GPT-4

Vercel Labs 推出 AI Playground 可用 GPT-4 是 Vercel 提供的在线平台,允许用户在交互式环境中测试和对比多个AI模型,包括 OpenAI 的 GPT-4 。用户可以输入文本或代码,AI 模型将根据输入生成响应。这使开发人员和非开发人员都可以轻松探索 AI 模型的功能、测试想法并构建 AI 驱动的应用程序。#AI 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

GitHub19k星项目:无需注册,免费使用GPT4,GPT3.5,Claude等AI模型。ForeFront还支持不同的助手,

GitHub19k星项目:无需注册,免费使用GPT4,GPT3.5,Claude等AI模型。ForeFront还支持不同的助手,比如毕加索,托尼斯塔克,爱因斯坦等等 目前OpenAI已经发了警告邮件要求开发者撤下此系统,否则开发者将面临法律诉讼。

封面图片

《大模型应用开发极简入门:基于GPT-4和ChatGPT》

《大模型应用开发极简入门:基于GPT-4和ChatGPT》 简介:本书提供了关于大模型应用开发极简入门:基于GPT-4和ChatGPT的深度解析,涵盖其发展背景、核心概念以及实际应用。通过真实案例与科学研究,帮助读者理解其重要性,并掌握相关技能或知识点。适合对该主题感兴趣的读者,让你在短时间内提升认知,拓宽思维边界。 标签:#大#大模型应#知识#学习 文件大小:NG 链接:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人