北大卢菁：1. 训练起来大模型和训练出有通用能力的模型完全是两码事。

北大卢菁： 1. 训练起来大模型和训练出有通用能力的模型完全是两码事。目前国内大模型只能说训练起来了，但是远无技术壁垒，这是大厂本就应该具备的能力，并不值得骄傲。 2. 具备通用能力的大模型，入门参数量可能不是GPT3.5的175B，可能是GPT4的1.8T。而且这仅仅是必要条件，大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。 3. 如果瓶颈真的在语料，我很悲观这会成为比芯片更大的壁垒。因为人类最高质量的语料是书籍和论文，而真正高质量的书籍和论文掌握在西方世界手里。 4. 现阶段，最关键的是把智能做上去。诸如长文本建模，性能优化，应用场景这些一点都不关键。至少对有出息企业来说是这样，如果只是想做做应用就另当别论了。 5. 拿Llama2 Finetune刷榜意义不大，在特定数据集上刷得比GPT-4高并不能说明任何问题。国内厂商最搞笑的是把C-eval的数据丢进训练集里面，然后再在C-eval上刷榜，各种吊打GPT，这种行为跟芯片造假的性质差不多，让国人认不清差距，以为GPT-4根本没有什么壁垒，国内厂商已经很接近了。事实是，如果GPT4是100分的话，国产的大模型能拿个10分已经烧高香了。 6. 知识能力可能不是个事，GPT4除了四则运算会犯傻逼错误之外，很少犯傻逼错误。而且推理能力比其他模型要强太多太多，我想其中可能有特别的建模方式，不清楚是不是RLHF带来的收益。 7. 数学能力不是做算术，也不是做高考题。而是有数学直觉，推导，证明的能力。目前我只在GPT4上看到了拥有数学直觉，但证明的能力还很欠缺。 8. 流量不是大模型要考虑的事情，大模型要解决的是人类面临的难题，比如解决人类还没解决的科学问题去扩展人类的智能；帮助企业做商业计划优化市场经济；帮助社会建立更健全体系等等，达到千金一Token的效果。否则只是陪用户聊天，ROI很难做正。 9. 在国内做LLM其实竞争不大，因为大家做事都太急太糙，目前看来大家都没太大出息。预计两年内不会有太好的成果，而我也非常期待被打脸。 10. 两个东西需要重新思考：在过去做不Work的想法，也许在大模型下可以重新尝试，说不定就Work了；在小模型下做Work的想法，也许在一定规模之后就不再Work了。原因很简单，过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合；

在Telegram中查看

相关推荐

《卢菁博士AI大模型微调实战训练营》

《卢菁博士AI大模型微调实战训练营》简介：《卢菁博士AI大模型微调实战训练营》由卢菁博士主讲，是专注于AI大模型微调的实战课程。课程详细介绍AI大模型微调的原理、方法和技巧，通过实际案例和项目，指导学员掌握如何根据具体任务需求对预训练大模型进行微调，以提高模型性能和应用效果，适合AI开发者、数据科学家等专业人士学习标签：#AI大模型#模型微调#实战训练#AI开发#数据科学文件大小：NG 链接：https://pan.quark.cn/s/46ad619b27b7

LLM得上下文越来越长，模型搜寻信息的能力却未必线性提升

LLM得上下文越来越长，模型搜寻信息的能力却未必线性提升总体而言，模型会更注意开头的文本准确性方面，有时上下文更长的Claude100k表现不如 ChatGPT16k 利用ChatDoc/ChatPDF 来获取信息并帮助模型筛选信息块、或重新排序信息块也能提升效果最后，价格高贵的GPT4效果拔群

GPT是如何获得它的能力的？追踪语言模型的涌现能力 | 最近，OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留

GPT是如何获得它的能力的？追踪语言模型的涌现能力 | 最近，OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问，它又强又聪明，且跟它说话很好玩，还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。于是就有一个问题：ChatGPT 是怎么变得这么强的？它的各种强大的能力到底从何而来？在这篇文章中，我们试图剖析 ChatGPT 的突现能力（Emergent Ability），追溯这些能力的来源，希望能够给出一个全面的技术路线图，来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。这篇文章旨在能够促进大型语言模型的透明度，成为开源社区共同努力复现 GPT-3.5 的路线图。

中文AI能力评测发布，即通用大模型综合性基准。

中文AI能力评测发布，即中文通用大模型综合性基准。这是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是：在当前通用大模型大力发展的背景下，中文大模型的效果情况，包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、 "这些模型与人类的效果对比如何"。

GPT 4到底有多强？文心一言和ChatGPT比还有多少差距？非技术人员如何比较全面地评价一个大语言模型的各种能力？作为早期投资

GPT 4到底有多强？文心一言和ChatGPT比还有多少差距？非技术人员如何比较全面地评价一个大语言模型的各种能力？作为早期投资人和对话式AI的狂热爱好者，我们从自身需求出发，总结推出了「Z-Bench」一个为非技术人员定性测试大模型对话式产品（类 ChatGPT 产品）准备的测试集。扫描小程序码可以打开查看全部300个测试prompts，以及GPT4，GPT3.5，百度文心一言（0317）的回答。这里面每一个模型的回答我们都只是取第一次回答，因此可能和你测试的结果有所不同。 Z-Bench 1.0 从基础能力、进阶能力、垂直能力 3 个角度出发，共提供了 300 个 Prompts，我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集，而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例，以及大模型出现之后学术界发现的涌现和顿悟能力，提供一个适合非技术专业人士使用的大模型能力测试集。我们难免会漏掉一些场景，或是出现很多专业角度看比较业余的内容，未来，我们会不断根据搜集到的反馈去补充完善，并且及时予以公布。欢迎大家扩散，拍砖，感谢！

清华大模型报告：文心一言中文理解、数学等多项能力全球第一

清华大模型报告：文心一言中文理解、数学等多项能力全球第一最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench 大模型综合能力评测框架，正式对外发布 2024 年 3 月版《SuperBench 大模型综合能力评测报告》。评测共包含了 14 个海内外具有代表性的模型，在人类对齐能力评测中，文心一言 4.0 表现位居国内第一，其中在中文推理、中文语言等评测上，文心一言分数领先，和其他模型拉开明显差距，中文理解上，文心一言 4.0 领先优势明显，领先第二名 GLM-4 0.41 分，GPT-4 系列模型表现较差，排在中下游，并且和第一名文心一言 4.0 分差超过 1 分。在语义理解中的数学能力上，文心一言 4.0 与 Claude-3 并列全球第一； GPT-4 系列模型位列第四五，其他模型得分在 55 分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言 4.0 超过 GPT-4 Turbo、Claude-3 以及 GLM-4 拿下榜首。在安全性评测上，国内模型文心一言 4.0 拿下最高分（89.1 分），Claude-3 仅列第四。来源：财经慢报频道

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人