### 6.2 答案段落位置测试

### 6.2 答案段落位置测试 - 根据答案所在段落的位置（开始、结束或输入的中间）测试这些策略。 ### 6.3 上下文长度测试 - 通过测试包含70K和95K令牌文档的效果，以了解上下文长度对结果的影响。 - 通过遵循本执行手册的指导，用户可以有条不紊地进行测试和优化，以提高Claude模型在长文档上下文中的回忆能力。

在Telegram中查看

相关推荐

！非常好的文章，使我的GPT4旋转。

！非常好的文章，使我的GPT4旋转。 Claude 官方发布的一篇博客，很实用，链接下面是我用ChatGPT4的web browsing功能把这篇博客通过特定的prompt转换成的一本「执行手册」，可以简单参考一下，具体信息建议还是从原文链接看：基于您的要求和提供的文章内容，以下是一份详细、具体、逻辑清晰且可操作的执行手册，形式为Markdown文本： - # Claude模型长文本回忆优化执行手册本手册旨在指导用户通过特定步骤和方法，优化Claude模型在处理长文档时的回忆能力。 ## 一、目标定义 - 评估和优化Claude模型在长文档上下文中正确回忆特定信息的能力。 ## 二、准备阶段 ### 2.1 数据源选择 - 选择一个公开可用的、日常发布的政府文档，作为测试的基础数据源。 ### 2.2 文档分段与问题生成 - 将选定的文档分成多个部分。 - 使用Claude为每个部分生成五个选择题，每个题目包含三个错误答案和一个正确答案。 ## 三、多选题生成策略 ### 3.1 避免过于明显的问题 - 确保问题不应包含答案。 ### 3.2 避免模糊的短语 - 避免使用模糊的短语，如“此文档”或“此段落”，而应明确指定问题所指的段落。 ## 四、评估与测试 ### 4.1 模型选择 - 使用Claude Instant 1.2模型进行测试。 ### 4.2 回忆能力测试 - 在不同情境下测试Claude的回忆能力，例如仅提供Claude用于编写问题的确切段落，评估Claude能否正确回答自己生成的问题。 ## 五、提示策略 ### 5.1 Base策略 - 直接要求Claude回答问题。 ### 5.2 Nongov Examples策略 - 提供与政府文档无关的两个正确回答的常识性选择题示例。 ### 5.3 Two Examples策略 - 提供两个与文档上下文中的其他部分有关的正确回答的选择题示例。 ### 5.4 Five Examples策略 - 同上，但提供五个示例。 ## 六、优化提示 ### 6.1 使用 - 在测试各种提示策略时，同时测试是否使用，在其中指示Claude提取相关引用。

月之暗面支持200万字上下文的Kimi智能助手启动内测

月之暗面支持200万字上下文的Kimi智能助手启动内测从月之暗面获悉，3月18日，月之暗面Kimi智能助手在长上下文窗口技术上再次取得突破，无损上下文长度提升数量级到200万字。目前，支持200万字上下文的Kimi已启动内测。（上证报）来源：雪球7X24资讯

微软正在将 ChatGPT AI 添加到 Win 11 的记事本中

微软正在将 ChatGPT AI 添加到 Win 11 的记事本中微软正在 Windows 11 的记事本应用中测试由 ChatGPT-4 驱动的新功能“Cocreator”。新功能也许会采用“积分制”来限制用户使用次数，免费积分使用完后，生成时间会比平常慢。根据截图显示，用户可以在长度、语气、格式和说明等选项之间选择，记事本 AI 具有上下文感知能力，可以提供与文档内容相关的建议。记事本 AI 功能可能会在未来几天内开始向测试者推出。

Gemini 数据分析能力并不像宣称的那么好

Gemini 数据分析能力并不像宣称的那么好谷歌 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 据称能够凭借其“长上下文”完成以前不可能完成的任务，例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明，这些模型实际上在这些方面并不是很擅长。两项独立研究调查了 Gemini 模型和其他模型如何很好地理解大量数据。两项研究都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题；在一系列基于文档测试中，这些模型给出正确答案的概率只有40%到50%。马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说：“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文，但我们已经看到许多案例表明，这些模型实际上并不‘理解’内容。”

百川智能发布Baichuan2-192K大模型 | 上下文窗口长度高达192K，是目前全球最长的上下文窗口，能够一次处理约35万

百川智能发布Baichuan2-192K大模型 | 上下文窗口长度高达192K，是目前全球最长的上下文窗口，能够一次处理约35万个汉字。官方宣称：Baichuan2-192K不仅在上下文窗口长度上超越Claude2，在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。 10项长文本评测7项取得SOTA，全面领先Claude2 Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异，有7项取得SOTA，显著超过其他长窗口模型。此外，LongEval的评测结果显示，在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能，而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外，在窗口长度超过80K后整体效果下降非常严重。 Baichuan2-192K正式开启内测，已落地法律、媒体等诸多真实场景 Baichuan2-192K现已正式开启内测，以API调用的方式开放给百川智能的核心合作伙伴，已经与财经类媒体及律师事务所等机构达成了合作，将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中，不久后将全面开放。

谷歌发布了Gemini 1.5模型，最主要的升级是支持了高达 100 万的上下文长度，秒杀了所有模型。

谷歌发布了Gemini 1.5模型，最主要的升级是支持了高达 100 万的上下文长度，秒杀了所有模型。 Gemini 1.5基于Transformer和MoE架构的研究和工程创新，提高了训练和服务的效率。 Gemini 1.5 Pro是一个中等规模的多模态模型，适用于多种任务，并引入了在长上下文理解方面的实验性特性。它标准的上下文窗口为128,000个Token，但现在已经可以通过AI Studio和Vertex AI向开发者和企业客户提供高达100万个Token的私人预览。 1.5 Pro 可以一次处理大量信息包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词。 Gemini 1.5 Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini 1.0 Pro，并且与1.0 Ultra在同样的基准测试上表现相当。此外，Gemini 1.5 Pro在进行长上下文窗口的测试中表现出色，在NIAH评估中，它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。了解更多：#context-window

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人