现在做基于Embedding的文档问答已经不是什么新鲜事，但是这个视频还是值得一看，主要是他介绍了几种不同的生成问答结果的方式：

现在做基于Embedding的文档问答已经不是什么新鲜事，但是这个视频还是值得一看，主要是他介绍了几种不同的生成问答结果的方式：1.Stuff，我们熟知的把找到的文档块和问题一起扔给LLM总结2.Map_reduce，对每一个文档块和问题分别人给LLM，最后把所有结果一起摘要，适用于文档类型不同，或者找到的文档太多的情况，可以并行处理3.Refine和Map_reduce类似，只是它是线性的，第一个回答完，将第一个得到的内容和第二个文档块还有问题一起给LLM，所以没法并行处理4.Map_rereank也和前面两个类似，但是它也是每个文档块去独立拿结果，但同时让LLM打分，最后根据打分情况来选分数最高的。这个的关键在于LLM能对结果打分。BTW：这个LangChain的系列字幕翻译进度很慢，是因为主讲的这哥们讲课水平比起Isa姐姐水平差太多，很多问题讲不清楚，如果按照字面意思翻译很难看懂，所以需要在翻译时帮助改写或者补充很多信息基于LangChain的大语言模型应用开发5——基于文档的问答LangChainforLLMApplicationDevelopment基于LangChain的大语言模型应用开发第5集QuestionandAnsweroverDocuments基于文档的问答频道：@chiguadashen

在Telegram中查看

相关推荐

AiR - 基于 Rust 的 AI 写作工具

AiR-基于Rust的AI写作工具灵感来自openai-translator，由于无法解决个人某些痛点，决定用Rust+egui开发替代品。第一个稳定版本刚发布，丝滑。推荐功能，快捷键重写/翻译，适合需要处理文档或邮件的用户。例如作为开发者，经常需要写外文文档，为了我脆弱的手腕/颈椎，实在不想在各个App间跳转对话复制结果。https://github.com/hack-ink/AiRViaXavierLau关注频道@ZaiHuaPd频道爆料@ZaiHuabot

史料RAG：用向量数据库基于RAG(检索增强生成)方式搭建一个中国历史问答应用，这个应用接受用户的询问，从历史语料库中检索相关的

：用向量数据库基于RAG(检索增强生成)方式搭建一个中国历史问答应用，这个应用接受用户的询问，从历史语料库中检索相关的历史资料片段，利用大语言模型给出较为可靠的回答。相比于直接询问大模型，这种方式具有回答准确率高，不容易产生大模型的“幻觉”问题等优点。本项目实现了两种使用方式：“Milvus方案“在本地启动一个Milvus向量数据库的Docker服务，使用LlamaIndex框架和本地BAAI/bge-base-zh-v1.5Embedding模型实现RAG的业务逻辑。“ZillizCloudPipelines方案”使用云上的知识库检索服务ZillizCloudPipelines，该服务包括了RAG流程的文档切片、向量化、向量检索等功能。两种方案均使用OpenAI的GPT4作为大语言模型。

三星与微软合作开发一款聊天机器人将负责文档摘要等工作

三星与微软合作开发一款聊天机器人将负责文档摘要等工作根据最新获得的信息，三星似乎正在与微软合作进行"内部生成式人工智能开发"。两家公司正在合作开发目前已知的三星聊天机器人，我们目前掌握的信息显示，它将处理翻译以及文档摘要等任务，并将使用由OpenAI开发的LLM来完成。据韩国《电子日报》11日报道，三星电子正在使用微软的AzureOpenAI服务创建一个人工智能聊天机器人，用于协助公司内部的工作。早些时候，微软向OpenAI投资了12万亿韩元，并签署了一项独家许可，许可中明文规定：（1）OpenAI必须在Azure云上运行；（2）OpenAI在为企业提供服务时，必须仅在Azure云上提供。因此，如果三星要使用OpenAI的LLM开发自己的生成式人工智能，就必须使用AzureCloud。三星正在使用AzureOpenAI服务提供的"GPT-4"和"GPT-3.5"等LLM的应用编程接口（API）开发内部生成式人工智能工具。API是允许程序发送和接收数据的接口，使公司更容易将ChatGPT等功能集成到其应用程序或服务中。据报道，三星正在将该服务与OpenAI的LLM相连接，并进行概念验证（PoC）。"目前，三星电子正在准备一项使用Azure上API的服务，"MS代表说，"我们正在就使用哪种模式进行PoC。"三星之所以决定基于开放式人工智能模型开发企业聊天机器人，是因为使用生成式人工智能进行业务创新的需求日益增长。此前，三星曾以泄露机密信息的风险为由，暂时中止通过内部PC使用ChatGPT等生成式AI。这加速了与提供开放式人工智能大语言模型（LLM）的MS的合作，三星似乎决定开发一个无需担心数据安全的三星聊天机器人。"我们在6月左右开始开发，但仍有太多变数，无法公开披露。"一位三星官员说。三星将基于OpenAI大语言模型（LLM）提供的服务名称也备受关注，三星最近向韩国知识产权局提交了"Gauss"和"Gais"的商标申请。在商标申请中，三星将"用于基于机器学习的语言和语音处理的计算机软件（SW）"和"用于自然语言处理/创建/理解/分析的计算机软件（SW）"列为商标商品，这两个商标是否会被用于此次PoC的生成式AI服务，值得关注。所有这些听起来确实令人兴奋，但更值得关心的是这些聊天机器人将如何以任何方式帮到用户。当然，如果有一个不需要互联网连接的离线人工智能就更好了。我们不能对即将发生的事情说得太多，但三星与苹果、Google和微软等其他公司都期待着实现这一目标，这一点是显而易见的。不仅如此，得益于高通公司的下一代骁龙处理器，这一切都将比现在更接近现实，希望到今年年底，我们就能拥有一款内置人工智能的智能手机，无需主动连接互联网即可运行。...PC版：https://www.cnbeta.com.tw/articles/soft/1383105.htm手机版：https://m.cnbeta.com.tw/view/1383105.htm

Mozilla上线AI帮助资源库结果文档也学会了GPT的胡言乱语

Mozilla上线AI帮助资源库结果文档也学会了GPT的胡言乱语Mozilla最近宣布了AI帮助，这是一个基于人工智能的生成工具，旨在成为网络开发者在MDNWebDocs上搜索答案的新的"问题解决伙伴"。该网站自2005年以来承载了关于CSS、HTML、JavaScript和其他网络技术的文件，它基本上已经成为一个权威的资源，其贡献来自志愿者、微软和Google等大公司，当然还有Mozilla本身。自2017年以来，MDN服务还托管了决定关闭自己的文档项目的三星公司的所有网络文档。很显然，当Mozilla决定给MDN带来一些大的、出乎意料的补充时，开发者会以不可预知的、热情的方式做出反应。根据MDN主管HerminaCondei的说法，AI帮助的构思是为了优化开发人员的搜索过程，使其"快速和容易"找到他们需要的信息。AI帮助使用OpenAI的API向用户提供ChatGPT的提示，生成性AI应该从MDN的综合文档库中检索出"最相关的信息"。不少了解现状的技术人员知道，生成式人工智能不应该被认为是任何类型的可靠信息来源。该算法并不产生智慧，对事物本身都没有认识，它只是把单词放在一起，试图为用户的文本提示找到最符合统计学原理的答案。Mozilla正在征求关于人工智能帮助介绍的反馈意见，而开发者们也纷纷作出回应。为Yari（为MDN服务提供动力的平台代码）打开的GitHub问题清楚地描述了这个"AI帮助"功能现在所处的遗憾状态。开通该问题的开发者"Eevee"将生成性人工智能功能描述为一个"奇怪的决定"，对于一个技术参考资料来说，类似人类的答案"可能是偶然正确的，也可能包含令人信服的错误"。更多的开发者加入了讨论，还将人工智能帮助描述为一种"蛇油"药水，称它"比无用的还要糟糕"。最善意的评论说，AI帮助功能可能会造成"比它可能提供的帮助更多的损害"，而其他不太有同情心的开发者则迅速将该功能视为一个"被深深误导"的附加功能，它将大规模地产生虚假信息--"就像所有其他LLM应用程序一样"。Mozilla社区中似乎没有人会喜欢用生成式人工智能算法来解决关于实际网络文档的问题的想法。最后，一位名叫"sidehowbarker"的MDN核心维护者说，AI帮助系统的加入似乎是Mozilla决定自己做的事情，"没有给任何其他MDN利益相关者任何形式的提示"。sidhowbarker说，这个新的人工智能功能是一个"非常糟糕的想法"，他承诺将亲自在Mozilla内部"尽可能地"升级这个问题，目的是让它"绝对尽快"被删除。...PC版：https://www.cnbeta.com.tw/articles/soft/1369119.htm手机版：https://m.cnbeta.com.tw/view/1369119.htm

“弱智吧”不收弱智，成最佳中文AI训练语料！

“弱智吧”不收弱智，成最佳中文AI训练语料！4月4日，“弱智吧”突然在中文AI领域刷屏，中科院用各大社交平台的数据，作为中文AI语料数据进行训练，结果发现“弱智吧”居然是最棒的中文语料，在多项测试中取得最高分！目前LLM大型语言模型中，英文语料占到大多数，而中文数据集此前多半是先从英文翻译再进行训练，很多大模型的中文效果比英文差，为了调侃AI，许多人也常常拿弱智吧的问题去挑战AI。为了更好地满足中文大模型的需求，中科院联合多所大学利用中文数据集来训练中文大模型。首先，团队直接找到某乎、某瓣等社交网络平台，爬取数据并进行标注，打造了全新的中文指令微调数据集COIG-CQIA，再用这些数据集来训练零一万物开源大模型，并用GPT4在BELLE-Eval测试集上打分。在340亿参数版本的Yi-34B下，弱智吧的分数非常突出，可以说是一骑绝尘，在问答、分类、生成、总结、摘要和代码上均取得极高的分数，数学某乎分数最高76分，但弱智吧也取得了72.6分的高分，最终均分76.9分遥遥领先！弱智吧的出色成绩也引起了大量的讨论，对比其他专业的技术问答社区，弱智吧的数据集其实更加精炼有效，提高模型的逻辑推理能力，而且“弱智”的方向十分多元，文本质量极高，从而提高了模型性能。而COIG-CQIA，也成为目前相对来说相当高质量的中文指令微调数据集，收集了来自各种来源如社交媒体、百科知识、考试题库等大量高质量的中文指令，弱智吧的出色表现，出在高质量中文知识学习方面的潜力，也给我们带来更多深入的思（乐）考（子）。标签:#AI#中文预料#弱智吧频道:@GodlyNews1投稿:@GodlyNewsBot

写 prompt 的 26 条参考原则。

写prompt的26条参考原则。这篇论文(https://arxiv.org/abs/2312.16171)总结了26条优化prompt的原则。我读完，感觉有点像是OpenAI官方提示词指南加上最近流行的几个技巧，比如给小费技巧「I'mgoingtotipyou$300Kforabetteranswer.」还是可以当做一个很好的入门参考。受@杨昌的启发，调整了一下用Kimi读论文的基本工作流。既然Kimi这么能翻，那能者多劳，多翻点吧。调整后的工作流如下：第一步：逐句翻译论文的摘要和结论。论文的摘要和结论很好地展现了论文基于什么背景，用什么方式解决什么问题，最后得到一个什么样的结果。所以，Kimi，开始翻吧。参考提示词：这是一篇论文，请帮我逐句翻译论文的摘要(Abstract)和结论(Conclusion)。论文总结的26条原则中，有一条是不需要使用像“请”这样的礼貌用语。哎呀，这个手它不听使唤呀。第二步：从5个方面进行总结。参考提示词：https://docs.qq.com/doc/DSXp1YXJ4eHhLdklR比起上一个版本，去掉了列出核心观点，因为我用下来，核心观点基本是对解决方案的复述。增加了一个方案局限性总结。第三步：还是从What、Why、How的角度问问题。取决于你想了解什么，想到什么就问什么。反正Kimi的上下文窗口足够长。我个人还是习惯让Kimi先列出问题相关原文再回答。参考提示词：https://docs.qq.com/doc/DSXdkc2dtampyYkRW26条原则提升结果参考图六。当然，所有的方案都是有适用条件的。这个结果是基于论文自己的数据集。另外，论文作者很贴心，把26条原则和相应的prompt例子整理成文档了，见：https://github.com/VILA-Lab/ATLAS/blob/main/data/README.md

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人