OpenAI 遥遥领先 —— GPT-4 与 Claude 2.1 的长上下文精度对比

OpenAI遥遥领先——GPT-4与Claude2.1的长上下文精度对比GregKamradt对GPT-4(128K)与Claude2.1(200K)进行了名为"大海捞针"的长上下文精度测试。实验了两个AI在接收不同长度的上下文时，对文档中不同位置的内容，有何记忆上的差异。测试结果:*AI更容易记住(无论长度):文本后半部分。*AI更不容易记住(90K长文时):文本前半部分。*AI近乎100%记住(无论长度):文本开头&文本结尾。*越少的上下文=越高的准确性。*测试的API调用成本约为1016美元。投稿：@ZaiHuaBot频道：@TestFlightCN

在Telegram中查看

相关推荐

百川智能宣布推出Baichuan2-192K 上下文窗口长超GPT-4约14倍

百川智能宣布推出Baichuan2-192K上下文窗口长超GPT-4约14倍今年9月25日，百川智能宣布已开放Baichuan2的API接口，进军企业级市场，开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户，目前百川智能已启动Baichuan2-192K的API内测，开放给法律、媒体、金融等行业的核心合作伙伴。上下文窗口长度是大模型的核心技术之一，通过更大的上下文窗口，模型能够结合更多上下文内容获得更丰富的语义信息，更好的捕捉上下文的相关性、消除歧义，进而更加准确、流畅的生成内容，提升模型能力。...PC版：https://www.cnbeta.com.tw/articles/soft/1393115.htm手机版：https://m.cnbeta.com.tw/view/1393115.htm

谷歌发布了Gemini 1.5模型，最主要的升级是支持了高达 100 万的上下文长度，秒杀了所有模型。#ai##llm#

谷歌发布了Gemini1.5模型，最主要的升级是支持了高达100万的上下文长度，秒杀了所有模型。Gemini1.5基于Transformer和MoE架构的研究和工程创新，提高了训练和服务的效率。Gemini1.5Pro是一个中等规模的多模态模型，适用于多种任务，并引入了在长上下文理解方面的实验性特性。它标准的上下文窗口为128,000个Token，但现在已经可以通过AIStudio和VertexAI向开发者和企业客户提供高达100万个Token的私人预览。1.5Pro可以一次处理大量信息——包括1小时的视频、11小时的音频、包含超过30,000行代码的代码库或超过700,000个单词。Gemini1.5Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini1.0Pro，并且与1.0Ultra在同样的基准测试上表现相当。此外，Gemini1.5Pro在进行长上下文窗口的测试中表现出色，在NIAH评估中，它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。了解更多：#context-window

Giraffe：世界上第一个商业可用的32K长上下文开源LLM（基于Llama-2）

Giraffe：世界上第一个商业可用的32K长上下文开源LLM（基于Llama-2）Giraffe是一个新的模型系列，它们是从已发布的基础LLaMA和LLaMA2模型进行微调的，其中包括了从LLaMA微调的4kGiraffe和16kGiraffe，以及从LLaMA2微调的32kGiraffe，并将它们的权重发布在HuggingFace上。Giraffe-32k在开源LLM领域成为一股强大的力量，Giraffe-32k可以执行更复杂的检索操作，出错更少，对于维护长时间对话或要求LLM帮助处理大型现有代码库至关重要。该研究强调了用于上下文长度探索的两种新方法。值得注意的是，ABACUS.AI的一种技术，称为truncation（截断），表现出极具潜力的结果。

Anthropic 发布 Claude 2.1 模型

Anthropic发布Claude2.1模型Claude2.1拥有业界领先的20万token上下文窗口(约15万单词/500页信息)、幻觉相比Claude2降低两倍，长文档的错误回答减少了30%，错误结论文件支持特定主张的比率降低了3-4倍。还新引入了系统提示，允许用户向Claude提供自定义指令以提高性能。Claude2.1现已在API中提供，并为免费版和专业版Claude提供支持。20万上下文窗口的使用权保留给ClaudePro用户。投稿：@ZaiHuaBot频道：@TestFlightCN

百川智能发布Baichuan2-192K大模型 | 详情

百川智能发布Baichuan2-192K大模型上下文窗口长度高达192K，是目前全球最长的上下文窗口，能够一次处理约35万个汉字。官方宣称：Baichuan2-192K不仅在上下文窗口长度上超越Claude2，在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。10项长文本评测7项取得SOTA，全面领先Claude2Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异，有7项取得SOTA，显著超过其他长窗口模型。此外，LongEval的评测结果显示，在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能，而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外，在窗口长度超过80K后整体效果下降非常严重。Baichuan2-192K正式开启内测，已落地法律、媒体等诸多真实场景Baichuan2-192K现已正式开启内测，以API调用的方式开放给百川智能的核心合作伙伴，已经与财经类媒体及律师事务所等机构达成了合作，将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中，不久后将全面开放。

从通用人工智能（AGI）创业公司北京月之暗面科技有限公司获悉，该公司推出的Kimi智能助手已支持200万字超长无损上下文，预计今

从通用人工智能（AGI）创业公司北京月之暗面科技有限公司获悉，该公司推出的Kimi智能助手已支持200万字超长无损上下文，预计今年将开启商业化模式。月之暗面创始人杨植麟表示，通往通用人工智能，无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进，本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标，才是有意义的规模化。（澎湃）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人