RECONCILE框架:让多个LLM,经过多轮讨论,产生最终的回复。

RECONCILE框架:让多个LLM,经过多轮讨论,产生最终的回复。 第1轮每个LLM生成初始答案、一个例子和对答案的自信程度。 第2-N轮开始每个LLM对其他LLM的答案进行质疑。 达成一致后或达到轮数上限后,按权重输出最终答案。 | #框架

相关推荐

封面图片

消灭“幻觉”:Google全新ASPIRE方法让LLM给自己打分 效果碾压10x体量模型

消灭“幻觉”:Google全新ASPIRE方法让LLM给自己打分 效果碾压10x体量模型 大模型的“幻觉”问题马上要有解了?威斯康星麦迪逊大学和Google的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。如果系统可以进一步筛选评分的结果进行输出,比如如果评分过低,大模型就可能生成“我没法回答这个问”,从而有望最大限度的改善幻觉问题。ASPIRE能让LLM输出答案以及答案的置信度得分。研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显著优于传统的选择性预测方法。让LLM不仅要回答问题,还要评估这些答案 。在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。这就是ASPIRE的本质,它涉及三个阶段:(1) 针对特定任务的调优,(2) 答案采样,(3) 自我评估学习。在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。如果LLM可以成为决策过程中值得信赖的合作伙伴。只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。ASPIRE 的机制针对特定任务的微调答案采样自评估学习结果当深入研究固定模型预测的选择分数计算时,ASPIRE获得了比所有数据集的基线方法更高的AUROC分数(随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率)。例如,在CoQA基准上,与基线相比,ASPIRE将AUROC从51.3%提高到80.3%。TriviaQA数据集评估中出现了一个有趣的模式。虽然预训练的OPT-30B模型表现出更高的基线精度,但当应用传统的自我评估方法(Self-eval和P(True))时,其选择性预测的性能并没有显著提高。相比之下,小得多的OPT-2.7B模型在使用ASPIRE进行增强后,在这方面表现优于其他模型。这种差异体现了一个重要的问题:利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变:语言模型的容量并不是其性能的全部和最终目的。相反,可以通过策略调整来大幅提高模型的有效性,即使在较小的模型中也可以进行更精确、更自信的预测。因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。 ... PC版: 手机版:

封面图片

黄仁勋“几乎每天用” Perplexity会是“搜索的未来”吗?

黄仁勋“几乎每天用” Perplexity会是“搜索的未来”吗? 这公司到底什么来头能让黄仁勋天天用?Perplexity自称为“世界上首个对话式搜索引擎”,核心使命是:挑战Google在搜索引擎领域的主导地位。与Google传统搜索引擎不同,Perplexity并非简单给出网站链接,而是运用先进的人工智能模型,针对用户的搜索问题提供直接、精准的答案,这种模式提升了搜索效率,也使得搜索过程更为智能;而与ChatGPT等生成式AI相比时效性更强、可溯源。Perplexity于2022年8月成立,获OpenAI、Meta内部AI负责人等注资,并未研发自己的大语言模型,而是选择GPT-3.5等大语言模型的接口做一些微调,旨在用AI技术打造一个没有广告的“Google搜索”。Perplexity的创始人兼CEO Aravind Srinivas直言,他们之所以存在,是因为在信息过载的噪音中,需要有一个平台来为用户提供精准的答案,“尤其在时间如此宝贵的时代。”Srinivas认为,Perplexity最终会取代Google和Bing等传统搜索引擎。数据显示,Perplexity去年的年收入已突破1000万美元大关,今年2月,其移动端和桌面应用的访问量同比增长8.6%,达到了5000万用户。这一庞大的用户规模也吸引了众多投资者的目光,近日,媒体报道称,Perplexity开始进行新一轮的融资,估值将达到10亿美金成为新的“独角兽”。而2个月前,Perplexity刚完成了7360万美金的新一轮融资,当时估值为5.2亿美金,这意味着2个月时间其估值涨了1倍。Perplexity重新定义AI搜索打开Perplexity,你或许会误以为这是一款与ChatGPT或者Claude类似的AI聊天机器人,主要由左边的标签栏和右边的搜索框组成,用户可以在搜索框里搜任何你想知道的东西。比如华尔街见闻搜索了一下“如何看待马斯克起诉OpenAI”。Perplexity搜索结果中包括以下几个部分:“Sources” :列出答案所引用的来源,支持点击链接,这一例子中,Perplexity共引用了5个不同的来源。“Answer”:通过整合内容得出的结构化答案,文字包含引用源,比如这个例子中,完整解释了马斯克诉讼OpenAI的始末,以及OpenAI对马斯克的最新官方回应。“Related”:回答完成后,Perplexity还会紧跟着提供几个可能感兴趣的相关问题,可以直接点击追问,也可以继续文字提交。有观点认为,此前《纽约时报》针对OpenAI的侵权诉讼里就提及了ChatGPT来源不清的问题,而Perplexity清晰的原文链接或许可以一定程度上避免版权纠纷。用户如果对Perplexity的回答不满意,也能让它重写,同时还会提供一些衍生话题的追问,比如:马斯克和OpenAI的关系如何?马斯克的诉讼对OpenAI的影响?Perplexity的工作原理是:用户输入一个内容后,它会重构查询,从实时索引中提取出相关链接。然后,Perplexity将回答用户查询的任务交给大语言模型(LLM),要求它阅读所有链接,并从每个链接中提取出相关段落整合内容,形成精准全面的答案。除了搜索外,Perplexity AI还提供了“发现”板块,展示最近比较热门的新闻,比如,今日发稿之时最火的话题为OpenAI官方回应马斯克的博客。Perplexity与巨头们相比强在哪儿?那么在AI应用接连落地,搜索引擎“卷出天际”的时代,Perplexity有哪些优势?分析指出,首先,与Google相比,Perplexity页面更为简洁凝练,给出的搜索结果排序依据不同,传统搜索引擎的结果排序受SEO优化、广告等因素影响。而Perplexity更多基于语义信息和内容本身质量进行排序,不受SEO等因素的影响。比如,当让Perplexity帮忙找哥伦比亚大学附近最实惠的打印店时,Perplexity很快提供了20个引用来源并筛选出6家门店。每家都尽可能附带了官网、地址和业务范围。同样的问题去Google搜索,结果不出所料前4个都是广告赞助,而后是Google地图、Yelp排名、某个打印店官网、Reddit论坛等等各种杂烩。因此从Perplexity直观的界面对比来看,确实Google的回答需要用户花很长时间去甄别有效信息。其二则在于,Perplexity重视事实和信息来源的做法,可以建立"用户信任",使用者不用担心其提供的答案是否有“幻觉”,减少了大模型有时出现的“胡言乱语”的情况。Perplexity生成的每一句话都附有引用链接,在保证可靠性的同时便于用户溯源或深入研究。此外,Perplexity与用户之间的沟通方式更为灵活,除了回答问题外,Perplexity还允许用户提出后续问题、搜索视频、甚至生成图像等等,便于使用。Perplexity可以进行上下文响应,而传统搜索引擎却无法保证逻辑的延续性。Perplexity有望打破Google垄断,重塑生态?中金公司认为,自研大模型与内部搜索引擎或为未来探索方向,从成本看,据测算,Perplexity调用Bing搜索引擎及GPT-4的单个问题成本约为0.03美元,年成本约为6000万美元。使用GPT-3.5微调模型降低成本,自研模型与内部索引或为未来探索方向:Perplexity成本主要来源于两部分,即调用Bing Search API查找相关内容的成本、调用GPT生成答案的成本。Perplexity官网显示,目前Copilot已经可以基于自研的GPT-3.5 微调模型提供服务,与GPT-4性能基本对等,且能减少4-5倍延迟,输入成本可以控制在0.012美元/1k tokens,输出成本可以控制在0.016美元/tokens。按照同样的计算方法,单次提问成本降至0.02美元,年成本4568万美元。此外,公司创始人也表明,除使用自研模型之外,搜索引擎API调用成本受到Bing和Google的防御性机制而走高,我们认为建立内部搜索引擎也有望使得成本端下降,公司也计划在这两方面持续探索更加健康的发展方式。中金公司认为,从需求侧看,Perplexity的出现及高热度验证了大模型与传统搜索引擎结合的刚性需求,未来以Perplexity为代表的对话式搜索引擎模式或将长期存在。虽然目前Perplexity在短期内无法撼动商业模式完备成熟的搜索引擎市场,但有望通过生态夯实先发优势:从供给侧看,随着传统搜索引擎与大模型厂商的入局,未来对话式搜索引擎的格局有望呈现百花齐放态势。Perplexity的主要竞争对手可以分为两大类别,一类是以Google为代表的传统搜索引擎厂商,另一类是以OpenAI为代表的通用智能大模型厂商。Perplexity有望打造知识平台,成为生态入口。基于对话式搜索引擎,Perplexity支持用户将搜索问题及答案分享至社区,供其他用户学习讨论。2023年9月,公司发布Collections,可以根据项目、主题或其他分类创建收藏夹,整合梳理查询对话并拓展新问题,还可以邀请其他参与者协作管理Collections,创建知识共享平台。随着Collections、pplx-api等业态的逐步成熟,我们认为Perplexity有望建立特定社群,进一步夯实对话式搜索引擎的领先生态优势。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人