腾讯大模型的绝活居然是发布会上没吹的写代码？

腾讯大模型的绝活居然是发布会上没吹的写代码？方案中包含了很多行业大模型，只不过当时腾讯的通用大模型依旧还很神秘。后续的各种消息、报道里，腾讯也在内部不断打磨混元大模型。所以这也让差评君对混元的期待值，越来越高。毕竟上一个用“hunyuan”名号的，可是打了一整套闪电五连鞭。话不多说，下面就开始新一轮大模型测试。本次测试和混元同场竞技的是，大模型界的老学长ChatGPT。整个测试环节将分：常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结，以及大家喜闻乐见的弱智吧问答等8个维度。这次我们一反常态，把长文总结能力的测评放在了第一位。因为我们让大模型总结的，就是这篇测评本身（除长文总结能力部分）。至于能不能当成省流版，往下看你就懂了。混元的总结非常精练，但过于精练，以至于我很难从这个总结得出有效的信息。但当我让他展开讲讲的时候其实还行，但可惜无中生有了“长文总结”这个模块。而ChatGPT由于输入字数限制，被我人为分成了两部分输入，不确定这有没有没影响它的总结能力。在回答中，它莫名克扣了对自己的所有评测，甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点，也不好用。向上滑动看来，这俩大模型总结得都没那么完美，想看看两家到底什么水平，大家还得仔细往下看正文。首先我们做的测试是常规的语义理解问题。问题是理解“原来谁都看不上，现在谁都看不上”。这句话混元理解得挺好，基本解释了我对单身这事的调侃，两个“看不上”都解释上了。但ChatGPT说的依旧很ChatGPT，说最多的话，犯最蠢的错。他本来解释得相当到位，特别是分析这句话是用幽默的方式来调侃单身，还带着一丝无奈情绪，很高级。但它完全没品出这前后两个“看不上”里，带有反转的幽默感，遗憾。向上滑动接下来我们看混元的复杂问题理解能力。问题是魂穿到官渡之战中袁绍身上，时间节点是骂完许攸之后。既要回答怎么破局赢下官渡之战，还要提供进一步统一全国的规划。要给大家稍微讲下这题为啥是复杂提问。因为要回答这题，首先得熟悉三国这些人物历史背景、相关故事，特别是骂完许攸这个时间节点很微妙。因为在这之后许攸投靠曹操，献计火烧袁绍囤积在乌巢的粮草。最终以少胜多击败袁绍，随后几年内彻底吞下冀北逐渐统一北方。而进一步设想里的统一全国，更是曹操本人都没能实现。所以大模型们要完美理解并回答这个问题，那网文作者们基本可以宣告失业了。AI浪潮下的网文作者现状经过测试，两个大模型的回答都很一般。从一开始，二者都没能理解自己穿越扮演袁绍角色的指令。混元急哄哄地给袁绍出主意，ChatGPT则是以为我要穿越，教我做事。至于两个给的回答，既没有get到我提出这个微妙时间节点的用意，也没有什么行之有效的战略规划，都是些泛泛而谈的车轱辘话。相对而言，个人感觉混元的稍胜一筹。毕竟ChatGPT可是希望袁绍去和曹操建立互利共赢的关系，哈哈哈。向上滑动▼既然一个复杂指令两个考试都理解不好，那干脆简单点，让两者去角色扮演一个婚礼主持人，一点点诱导进行连续对话。结果立马就能发现混元和ChatGPT，就像理科生和文科生的区别。混元的回答简单不啰嗦，但有的时候过于生硬。你说有错吧，谈不上，你要说给高分肯定不可能。而ChatGPT就是不管对不对，先把字写满再说。看里面的描述啥的都很好，但其实从中间就已经理解错意思，搞混了我的意图。所以两者都不完美，都有待改进。向上滑动▼然后我们还重点考验了下大模型的文字学习能力。搬出了当年的火星文，给两个考生上上强度。先是丢了一篇火星文版的朱自清《背影》名场面给大模型学习。然后让他们分别用这种风格写一篇养金毛心得。结果就是，混元不愧是本土大模型，背靠火星文鼻祖发源地QQ空间就是有优势，火星文的熟练度相当不错。第一眼就悟到了火星文的精髓，非常顺利地学习了火星文的创作手法。而ChatGPT虽然意识到火星文是一种不标准的中文形式，但他实在学不会这种方式，最后甚至直接承认自己不行了。向上滑动▼接下来就到了代码能力的考核。这次出的题目是，写一个现代极客风格的925活动抽奖页面，页面中必须有醒目的925标志。说起来，因为混元发布时对代码能力基本没咋提，所以本来我们对混元的代码能力没啥期待。但论这个题目，混元的效果相当不错，黑白配色的极客风有了，页面逻辑也没啥问题。甚至还预留了给我们替换logo的位置满足我们有925醒目标志的区域，相当成熟。对比之下，ChatGPT甚至把极客风理解成了925极客活动……整个抽奖界面也非常毛胚。混元页面效果ChatGPT页面效果除了代码问题，数学就是另一个大模型的老大难了。这次我们也挑了不少数学问题给两个考生做，从小学1年级一直做到了初一。最终混元大模型在六年级时挑战失败，到了初一开始胡言乱语，也让我们彻底放弃测试了。而ChatGPT明显还有余力。5年级测试题向上滑动6年级测试题向上滑动初一测试题向上滑动当然，最后也少不了网友们喜闻乐见的“弱智吧”精选套餐。这次我们更新了题库，用上了今年上半年最新的弱智吧精选问题，我们发现可能AI最后的图灵测试可能还真是弱智吧。因为在大部分测试里，混元和GPT基本都不够弱智而无法正确理解问题，这点上，人类遥遥领先！向上滑动除了以上这些常规测试外，混元发布会后的媒体采访上，很多媒体也在询问腾讯这么晚掏出大模型，那和市面上的竞品们有什么优势。腾讯方面则是说，混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉（胡言乱语）等通病上，有了针对性的改善。所以我们在实际测试时，也专门留心感受了这两块内容。不得不说，混元的大模型幻觉减少较为明显，这大概也和他惜字如金有关系，毕竟说多错多还是很有道理的。但容易受诱导这方面的改善其实并不明显，一些该跳的坑还是很难避免，只能说千防万防，人心难防。而且作为一个刚上市的大模型，一些小问题比起同期早已发布的前辈们还是有待改进。比如“重新生成”答案经常性会失灵，甚至有的时候重启重新输入问题都没法解决。而当你发现混元说错了某个回答希望他改正，他总是倔强地虚心认错，死不悔改。还有就是，他对一些比较简单的提问，反而有时候会抽风，有点像抓关键词一样作答，很让人抓狂，只能不停修改提示词才会好点。再吹毛求疵一点的话，这个生成问题时的头像动效，有种二胡卵子的异样美感，咱也不知道这是高级呢还是可爱呢？这些小问题其实还挺频繁，真要列起来又有点太稀碎，大家还是自己体验后会有更深刻的理解。不过这些小毛病，后续的更新迭代倒也简单，等用户数多了，相信很快就能优化。总的来说，混元和ChatGPT在中文环境下的PK中，二者其实水平差不多，放到国产大模型梯队里，也能有个平均水平。只是在用了这么多大模型后，我们感觉混元特别之处是给人的感觉，它更像个理工科直男，主打一个废话少说。而GPT为首的其它大模型们则是典型的文科小编，主打能水就水，油多不坏菜。而这种感觉也更贴合腾讯对混元大模型“实用级”的定义。毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。那对于差评君来说，混元...PC版：https://www.cnbeta.com.tw/articles/soft/1382633.htm手机版：https://m.cnbeta.com.tw/view/1382633.htm

在Telegram中查看

相关推荐

腾讯混元文生图大模型开源训练代码

腾讯混元文生图大模型开源训练代码今日，腾讯混元文生图大模型（以下简称为混元DiT模型）宣布全面开源训练代码，同时对外开源混元DiTLoRA小规模数据集训练方案与可控制插件ControlNet。据腾讯混元方面介绍，这意味着，全球的企业与个人开发者、创作者们，都可以基于混元DiT训练代码进行精调，创造更具个性化的专属模型，进行更大自由度的创作；或基于混元DiT的代码进行修改和优化，基于此构建自身应用，推动技术的快速迭代和创新。(证券时报)

腾讯发布混元大模型加速库：生图时间缩短 75%

腾讯发布混元大模型加速库：生图时间缩短75%据腾讯云官微消息，腾讯发布针对腾讯混元文生图开源大模型（混元DiT模型）的加速库。实测显示，加速后的生图时间缩短75%、生图速度提升4倍，大幅提升模型运行效率。混元DiT模型的使用门槛也大幅降低。用户可以基于ComfyUI的图形化界面，使用腾讯混元文生图模型能力。同时，混元DiT模型已经部署至HuggingFaceDiffusers通用模型库中，用户仅用三行代码即可调用混元DiT模型，无需下载原始代码库。

腾讯混元文生图大模型全面开源

腾讯混元文生图大模型全面开源5月25日获悉，腾讯近日宣布旗下混元文生图大模型全面升级，并对外开源。这是业内首个中文原生的DiT架构文生图开源模型，具备原生中文理解能力和双语编码能力，参数量15亿。此次开源的模型包含模型权重、推理代码、模型算法等完整模型，供企业与个人开发者免费商用，目前已在专注于自然语言处理的开源机器学习平台HuggingFace及面向软件开发者的代码托管平台Github上发布。腾讯混元文生图技术负责人芦清林介绍，升级后的混元文生图大模型采用了与Sora一致的DiT架构，不仅可支持文生图，也可作为文生视频等多模态视觉生成的基础。混元文生图大模型的开源，将丰富以中文为主的文生图开源生态，推动中文文生图技术研发和应用。（科技日报）

腾讯终究还是出了大模型测了下感觉还行

腾讯终究还是出了大模型测了下感觉还行这次，知危编辑部也想办法获得了混元大模型的体验资格，下面就带大家看看混元的能力。首先是常规的对话，我们先看看多轮对话：以上内容仅能展示连续对话，内容真实性无法验证正常的问题是可以一直聊下去的（与其他同行相同，混元也有最大连续对话数的限制），回答的内容也尚可，并且它会知道哪些信息可以说、哪些信息不可以说。下面我们看看它提供方案的能力：策略上没有什么太大的问题，考虑得相对周到，还是有一定参考价值的。再让它生成一个演讲稿：觉得有些太正式官方了，让他调整了一下：混元的表现尚可，还是可以起到启发或者生产力工具的作用的。下面我们再看看它的语义理解能力：当我们要求进一步解释时，混元应对的也比较好：除了常规的对话，混元还给出了比较丰富的“特调”应用，叫作“灵感发现”，囊括了各个场景下的诸多功能：我们测试了一下社群营销文案，刚好最近中秋节要到了，看到一些社群在发月饼团购文案，就让混元也试了一下。作为对比，我们先找了一下盒马社群关于月饼的社群营销文案看看大概什么样：混元的表现如下：感觉味儿还是对的，随便修修改改就能用。除此之外，还有专门的代码模式和代码解释器。我们先让混元生成了一段2048游戏的代码：然后再把它生成的代码扔进它的代码解释器功能里，它解释的还行：好了，编辑部的测试大概就是这么多，总地感觉下来，混元的水平跟国内一线大厂持平，说不上惊艳，但也没掉队，执行各种不同领域任务时的表现在GPT-3.5水平上下浮动。自打8月15日《生成式人工智能服务管理暂行办法》开始施行后，行业开始有了明晰的规范，已经有一批大厂的大模型获得了全量面向公众开放的资格。这意味着行业迎来了一个成熟的时机：数量不设限的用户可以更好地给大模型提供训练资料，让大模型更快成长。所以，腾讯大模型的发布，极有可能是看中了这一点。如此一来，最后一个一线大厂也加入了通用大模型的“大乱斗”中。希望未来某一天，它们能卷出点让人眼前一亮的东西。...PC版：https://www.cnbeta.com.tw/articles/soft/1382317.htm手机版：https://m.cnbeta.com.tw/view/1382317.htm

5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在HuggingFace平台及Github上发布，包含模型权

5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在HuggingFace平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。升级后的混元文生图大模型采用了与sora一致的DiT架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。（全天候科技）

腾讯混元大模型全面降价

腾讯混元大模型全面降价5月22日，腾讯云公布全新大模型升级方案，主力模型之一混元-lite模型，API输入输出总长度计划从目前的4k升级到256k，价格从0.008元/千tokens调整为全面免费。混元-standardAPI输入价格从0.01元/千tokens降至0.0045元/千tokens，下降55%，API输出价格从0.01元/千tokens降至0.005元/千tokens，下降50%。新上线的混元-standard-256k，具备处理超过38万字符的超长文本能力，API输入价格下调至0.015元/千tokens，下降87.5%，API输出价格下降至0.06元/千tokens，下降50%。其中，最高配置万亿参数模型混元-pro，API输入价格从0.1元/千tokens降至0.03元/千tokens，降幅达70％。以上价格调整立即生效。腾讯云表示，目前大模型赛道还处于能力爬坡的过程中，腾讯云非常重视技术积累与客户体验，未来会持续为客户提供有竞争力的产品和服务。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人