大模型实时打《街霸》捉对PK GPT-4居然不敌3.5

大模型实时打《街霸》捉对PKGPT-4居然不敌3.5这种新玩法吸引了不少网友来围观。由于项目是在Mistral举办的黑客马拉松活动上开发，所以开发者只使用OpenAI和Mistral系列模型进行了测试。排名结果也很出人意料。经过342场对战后，根据棋类、电竞常用的ELO算法得出的排行榜如下：最新版gpt-3.5-turbo成绩断崖式领先，Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。开发者认为，这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。与传统的强化学习也有所不同，强化学习模型相当于根据奖励函数“盲目地”采取不同行动，但大模型完全了解自身处境并有目的的采取行动。考验AI的动态决策力AI想在格斗游戏里称王，需要哪些硬实力呢？开发者给出几个标准:反应要快：格斗游戏讲究实时操作，犹豫就是败北脑子要灵：高手应该预判对手几十步，未雨绸缪思路要野：常规套路人人会，出奇制胜才是制胜法宝适者生存：从失败中吸取教训并调整策略久经考验：一局定胜负不说明问题，真正的高手能保持稳定的胜率具体玩法如下：每个大模型控制一个游戏角色，程序向大模型发送屏幕画面的文本描述，大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。第一个挑战是定位人物在场景中的位置，通过检测像素颜色来判断。由于目前大模型数学能力还都不太行，直接发送坐标值效果不好，最终选择了将位置信息改写成自然语言描述。所以对于AI来说，实际上他们在玩的是一种奇怪的文字冒险游戏。再把大模型生成的动作招式映射成按键组合，就能发送给游戏模拟器执行了。在试验中发现，大模型可以学会复杂的行为，比如仅在对手靠近时才攻击，可能的情况下使用特殊招式，以及通过跳跃来拉开距离。从结果上可以看出，与其他测试方法不同，在这个规则下似乎更大的模型表现越差。开发者对此解释到：目标是评估大模型的实时决策能力，规则上允许AI提前生成3-5个动作，更大的模型能提前生成更多的动作，但也需要更长的时间。在推理上的延迟差距是有意保留的，但后续或许会加入其他选项。后续也有用户提交了流行开源模型的对战结果，在7B及以下量级的战斗中，还是7B模型排名更靠前。从这个角度看，这种新型基准测试为评估大模型的实用性提供了新思路。现实世界的应用往往比聊天机器人复杂得多，需要模型具备快速理解、动态规划的本领。正如开发者所说，想要赢，要在速度和精度之间做好权衡。GitHub项目：https://github.com/OpenGenerativeAI/llm-colosseum参考链接：[1]https://x.com/nicolasoulianov/status/1772291483325878709[2]https://x.com/justinlin610/status/1774117947235324087...PC版：https://www.cnbeta.com.tw/articles/soft/1425768.htm手机版：https://m.cnbeta.com.tw/view/1425768.htm

在Telegram中查看

相关推荐

五分钟速览OpenAI发布会：GPT-4 Turbo模型、GPT应用商店等登场

五分钟速览OpenAI发布会：GPT-4Turbo模型、GPT应用商店等登场（来源：OpenAIDevDay）在发布会的开始，奥特曼简短回顾了公司过去一年的发展历程，特别提到“公司在今年3月发布的GPT-4，至今仍是世界上能力最强的AI大模型”。时至今日，已经有200万开发者正在使用OpenAI的API（应用程序接口），在全球各地提供多种多样的服务；92%的财富500强公司正在使用OpenAI的产品搭建服务，而ChatGPT的周活用户数也达到1亿人。GPT-4Turbo模型登场随后便进入了新品发布时间，首先登场的是GPT-4Turbo模型。简单来说，相较于全球股民都很熟悉的GPT-4，GPT-4Turbo的进步主要体现在6个方面。1、AI能够理解更长的上下文对话长度（contextlength）。标准版GPT-4模型最多支持8192个token，此前的升级将其提高至最多3.2万个token。而GPT-4Turbo支持最高12.8万个token，相当于一本标准大小的300页纸质书所包含的文本量；奥特曼也表示，新模型在处理长文本情境下的准确度也有所提高；2、给予开发者更多的控制权。新的模型允许开发者指示模型固定以特定形式返回有效JSON—JSON模式。同时开发者可以通过访问seed参数和system_fingerprint响应字段，来实现“模型对每次请求都给出确定性的输出”。3、GPT-4对于现实世界的知识截止于2021年9月，GPT-4Trubo的知识则截止于2023年4月。4、多模态API来了。文生图模型DALL·E3、具有视觉输入能力的GPT-4Trubo，以及新的声音合成模型（TTS）都在今日进入API。OpenAI也在今天发布了新的语音识别模型WhisperV3，将在近期向开发者提供API。5、继向全球开发者开放GPT3.5微调（Fine-tuning）后，OpenAI宣布将向活跃开发者提供GPT-4微调的资格。对于开发细分行业的垂直AI应用而言，微调是必经的过程。对于这类开发者，OpenAI也推出了定制化模型项目，帮助一些组织训练针对特定领域的定制化GPT-4模型。奥特曼也表示，这件事情一开始并不会便宜。6、OpenAI将所有GPT-4用户的Token速率限制扩大了一倍，开发者可以申请进一步提高速率。与微软、Adobe类似，OpenAI也引入了“版权护盾”机制。在ChatGPT企业版用户和API用户遭到版权官司时，公司将会出面辩护，并支付因此产生的赔偿责任。在市场极为关注的定价方面，作为行业领先的大模型，GPT-4Turbo的价格要远低于GPT-4。其中输入Token的价格只有三分之一，而输出Token的价格只有一半。也就是说，输入1000个Token的定价为1美分，而输出1000个Token的定价为3美分。与此同时，GPT-3Turbo16K模型的价格也有所下调。（新定价表，来源：OpenAI）在新品发布间隙，微软CEO纳德拉也来到现场，猛夸了一顿OpenAI并再次强调“微软深爱着OpenAI”。ChatGPT也有更新奥特曼宣布，虽然今天是开发者大会，但OpenAI也忍不住对ChatGPT做出一些更新。首先，从今天开始ChatGPT将使用刚刚发布的GPT-4Trubo模型。另外，针对用户每次对话前都要选择不同模式的困扰，GPT-4Trubo也将迎来产品逻辑的更新，现在机器人能够主动根据对话来适配对应的功能。更新前更新后接下来本场活动的第二个重要产品登场——GPTs。用户将能通过自定义指令、拓展（模型）的知识边界和下达行动命令，来构建自己的GPT，并能对外发布给全球更多的人使用。更重要的是，整个构建“自定义GPT”的过程也是通过自然语言对话形成的。奥特曼也在现场演示了如何通过聊天搭建一个GPT。他给GPTBuilder的指令是“希望帮助创业者思考商业灵感并提供建议，然后‘拷问’他们为何公司发展得不够快。”随后ChatGPT迅速搭建了一个创业咨询GPT，还顺手生成了一个Logo。随后奥特曼在属性页面中上传了一份他自己关于创业公司的演讲稿，向这个用例提供了额外的知识。至此，自定义用途的GPT初步搭建完成。用户可以保存这个用例只给自己使用，也能对外公开发布。既然说到“公开发布”，OpenAI也顺势宣布，将在本月晚些时候上线“GPT应用商店”。对于那些最热门的GPT，公司还将分享一部分的营收，来推进GPT应用生态的进步。AssistantsAPI最后是面向开发者的新品AssistantsAPI。“助理API”是一个专门构建的人工智能，具有特定的指令，利用额外的知识，并能调用模型和工具来执行任务。新的助手API提供了如代码解释器、检索以及函数调用等功能，以处理此前开发者必须自己完成的诸多繁重工作。OpenAI介绍称，这个API的用例范围非常灵活，例如基于自然语言的数据分析应用、编程助手、AI度假规划器、语音控制DJ、智能视觉画布等等。作为示例，OpenAI的首席开发者体验官RomainHuet搭建了一个“知晓整场开发者大会”的用例，并调用Whisper来实现语音输入。同时由于这个API可以联网，所以Romain也在现场用语音指示AI随机挑选5位现场观众，给他们的OpenAI账户里各充值500美金。作为本场活动的最后一个惊喜环节，Romain再一次向AI发出指令，给现场所有人的账户里各打了500美元。...PC版：https://www.cnbeta.com.tw/articles/soft/1394965.htm手机版：https://m.cnbeta.com.tw/view/1394965.htm

阿里云发布通义千问2.0 性能超GPT-3.5 正加速追赶GPT-4

阿里云发布通义千问2.0性能超GPT-3.5正加速追赶GPT-4通义千问2.0发布周靖人介绍，过去6个月，通义千问2.0在性能上取得巨大飞跃，相比4月发布的1.0版本，通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前，通义千问的综合性能已经超过GPT-3.5，加速追赶GPT-4。通义千问2.0综合性能超过GPT-3.5，正在加速追赶GPT-4在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上，通义千问2.0的得分整体超越Meta的Llama-2-70B，相比OpenAI的Chat-3.5是九胜一负，相比GPT-4则是四胜六负，与GPT-4的差距进一步缩小。中英文理解能力是大语言模型的基本功。英语任务方面，通义千问2.0在MMLU基准的得分是82.5，仅次于GPT-4，通过大幅增加参数量，通义千问2.0能更好地理解和处理复杂的语言结构和概念；中文任务方面，通义千问2.0以明显优势在C-Eval基准获得最高得分，这是由于模型在训练中学习了更多中文语料，进一步强化了中文理解和表达能力。在数学推理、代码理解等领域，通义千问2.0进步明显。在推理基准测试GSM8K中，通义千问排名第二，展示了强大的计算和逻辑推理能力；在HumanEval测试中，通义千问得分紧跟GPT-4和GPT-3.5，该测试主要衡量大模型理解和执行代码片段的能力，这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。据介绍，通义千问更成熟了，也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化，能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能，支持图片输入、文档解析等细分任务。与此同时，基于通义大模型训练的8大行业模型组团上线，分别是：通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-AI法律顾问。8大行业模型面向当下最受欢迎的多个垂直场景，使用领域数据进行专门训练。用户可以在官网直接体验模型功能，开发者可以通过网页嵌入、API/SDK调用等方式，将模型能力集成到自己的大模型应用和服务中。通义大模型家族全面升级，8大行业模型组团上线截至10月，阿里云已与60多个行业头部伙伴进行深度合作，推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。周靖人透露，阿里云计划近期开源通义千问72B版本，此前，阿里云已先后开源7B和14B版本模型，模型累计下载量超过100万。阿里云将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。图：通义千问72B即将开源...PC版：https://www.cnbeta.com.tw/articles/soft/1393391.htm手机版：https://m.cnbeta.com.tw/view/1393391.htm

阿里巴巴 CEO 吴泳铭：通义千问正释放基础大模型能力，加快追赶 GPT-4

阿里巴巴集团CEO、阿里云智能董事长吴泳铭近日在《中国网信杂志》撰文称，作为国内基础大模型的代表之一，通义千问正加快追赶GPT-4，并把基础大模型能力释放出来。吴泳铭表示，AI大模型将开启全新的智能时代，引发人机交互、计算范式和认知协作三场革命，通过开放API/SDK调用等方式，千行百业的开发者和企业用户不仅可以便捷开发人工智能原生应用，还可以与合作伙伴高效实现产业协同，促进大模型上下游产业链融合发展。吴泳铭还认为，AI的发展需要激发全社会的创新和创造力。via匿名标签:#阿里巴巴#通义千问频道:@GodlyNews1投稿:@GodlyNewsBot

Mistral 正式发布 Mistral Large，在基准测试中仅次于GPT-4，超过其他所有模型。#ai##llm#

Mistral正式发布MistralLarge，在基准测试中仅次于GPT-4，超过其他所有模型。MistralLarge具有新的功能和优势：它在英语、法语、西班牙语、德语和意大利语方面拥有母语般流利的能力，并对语法和文化背景有细致的理解。其32K令牌的上下文窗口允许从大型文档中精确地寻找信息。它精确的指令跟随能够让开发者设计他们的管理政策-我们用它来建立leChat的系统级管理。它本身就能够进行函数调用。这一点，再加上在laPlateforme上实现的受限输出模式，使得应用程序开发和技术栈现代化能够大规模进行。支持在LaPlateforme、Azure和私有部署。了解更多：

微软钦点OpenAI备胎：GPT-4级大模型上线即挤爆成本仅2200万美元

微软钦点OpenAI备胎：GPT-4级大模型上线即挤爆成本仅2200万美元同时推出在线聊天机器人平台LeChat，即使有了微软Azure算力资源，服务器还是被挤爆了。由于其API比GPT-4最新版便宜20%，已经吸引了部分创业者去尝试。根据HyperWriteAI创始人测试，MistralLarge跑分看起来只比排第三的Claude2好一点，但是实测效果还要好更更更多。不过也有开发者认为便宜只是暂时的，非常确信GPT-4也有降价空间。总之，这个价格战真的打起来就更妙了。网页版开放，但服务器被挤爆MistralLarge属于他家商用系列的大杯，不开源，也不免费。主要亮点如下：32k上下文窗口支持多语言，代码能力强，擅长推理原生支持函数调用和输出JSON格式模块化的审查控制机制在多项推理和知识能力测试中，成绩仅次于GPT-4除此之外，并无更多消息透露，从之前小杯、中杯的情况看，技术报告可能也不会有了。不过创始人ArthurMensch透露，MistralLarge训练成本不到2200万美元，相比之下GPT-4可能超过1亿美元。API价格比gpt-4-turbo便宜20%，输出一百万token要24美元，约173人民币元。gpt-4-turbo同样输出一百万token要30美元，约216人民币。两者输入token价格都是输出tokend的1/3。除了通过API访问之外，这次Mistral也开放了相当于ChatGPT的网页版LeChat聊天助手。这里还有一个小彩蛋。LeChat在法语里相当于英语TheCat，在原本的M字Logo下加上两个点代表眼睛，这样空白处就成了猫耳朵。切换到夜间模式，还会变成LeChatNoir，也就是TheBlackCat。很可惜，现在再注册已经需要排队了。如果现在想体验MistralLarge，还可以去Poe.com或大模型竞技场LMSYSChatbotArena。不过由于太火了，目前全平台无法响应……在最新ChatbotArena排行榜上，Mistral中杯版已经与GPT-4早期版本差距不大，大杯版的表现也值得期待。微软不再独宠OpenAI微软CEO纳德拉宣布，已与MistralAI建立多年合作伙伴关系。微软将持有MistralAI少量股份，并提供算力基础设施用于w训练和推理部署大模型。新模型优先通过微软Azure云提供给客户，暂不登录亚马逊Google云等其他云平台。Mistral也成了微软Azure上除了OpenAI以外，第二个商业闭源模型供应商。有网友开玩笑说，早看出来他们两家有点子关系，MistralAI的Logo一看就是用Word艺术字画的。...PC版：https://www.cnbeta.com.tw/articles/soft/1421197.htm手机版：https://m.cnbeta.com.tw/view/1421197.htm

谷歌集大成之作要来了据称将发布AI大模型Gemini 对标GPT-4

谷歌集大成之作要来了据称将发布AI大模型Gemini对标GPT-4在ChatGPT掀起的人工智能浪潮中，谷歌今年加大了对生成式人工智能（AIGC）的投资，试图迎头赶上。该公司花费了大量的计算资源和人力来开发这款产品，因此对谷歌来说，Gemini的发布事关重大。而允许外部开发者使用Gemini意味着谷歌正在考虑将其纳入其消费者服务。据知情人士透露，谷歌并将发布不同大小的Gemini版本，这样开发者就可以购买一个不那么复杂的版本来处理简单的任务，或者一个足够小的版本来在个人设备上运行。Gemini的功能Gemini是一个大语言模型的集合，它支持多种功能，包括：聊天机器人、生成原始文本、根据用户的要求总结文本等。Gemini还有望帮助软件工程师编写代码，并根据用户的要求生成原始图像。与现有型号相比，Gemini将大大提高帮助软件开发人员生成代码的能力。谷歌希望用它来追赶微软的GitHubCopilot代码助手，该助手由OpenAI的模型驱动，现在已经成为一个大热产品。谷歌此前还讨论过使用Gemini来增强图表分析等功能，比如让该模型解释已完成图表的含义；以及使用文本或语音命令来浏览网页浏览器或其他软件。此外，谷歌计划通过其谷歌云的VertexAI服务向企业提供Gemini模型，变相促进了谷歌的云服务业务。除了推动云服务器租赁业务外，谷歌还寄望于该软件为其所有业务提供动力，从其Bard聊天机器人到Workspace软件的新功能。...PC版：https://www.cnbeta.com.tw/articles/soft/1384103.htm手机版：https://m.cnbeta.com.tw/view/1384103.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人