一篇写的非常好的文章,详细介绍了如何对大语言模型的质量进行评估。

一篇写的非常好的文章,详细介绍了如何对大语言模型的质量进行评估。流程包括单元测试、人工评估、模型评估和A/B测试,强调快速迭代和数据管理的重要性。一个好的测试流程是模型进步的必要条件,如果没办法准确测试模型质量,就没办法帮助模型进步。下面是大致的内容整理,后面有全文翻译:大语言模型产品的评估系统评估系统对大语言模型(LLM)产品的成功至关重要。许多LLM产品之所以失败,根本原因在于未能创建健壮的评估系统。评估、调试和改进是LLM产品成功的关键,而良好的评估系统可以创造一个良性循环,加速产品的迭代和改进。案例研究中的Lucy就是一个典型的例子,它初期通过提示工程取得了进展,但后来遇到了性能瓶颈,需要建立系统的评估方法来突破瓶颈。评估的类型LLM产品的评估主要分为三个层次:单元测试、人工评估和模型评估、A/B测试。单元测试是通过编写一些断言语句,在开发过程中快速获得反馈。人工评估和模型评估是通过人工检查和训练评估模型来评估整个系统。A/B测试则用于确保AI产品能够驱动期望的用户行为或结果。除了评估整个系统,还需要对子组件如RAG进行单独评估。单元测试的步骤单元测试是LLM产品评估的基础,通常包括三个步骤:编写特定范围的测试、创建测试用例和定期执行测试并追踪结果。编写测试时要针对LLM的不同功能和场景,检验相应的断言。可以利用LLM自动生成测试用例,触发不同的场景。测试应当定期执行,利用CI基础设施可以很方便地实现自动化测试和结果跟踪。测试通过率并不一定要达到100%,而是要在错误容忍度和产品目标之间取得平衡。人工评估和模型评估人工评估和模型评估是更高层次的测试手段。首先要记录LLM系统的跟踪数据,包括用户的输入和系统的响应,为后续分析提供数据基础。在查看数据时,定制化的查看工具和良好的可视化非常重要。将人工评估结果与评估模型的预测对齐,可以极大提高评估的效率。随着评估模型性能的提升,可以渐进式地用自动评估来替代人工评估。微调和数据合成与管理

相关推荐

封面图片

Awesome-LLM-SoftwareTesting:关于在软件测试中使用大型语言模型 (LLM) 的论文和资源的集合。

:关于在软件测试中使用大型语言模型(LLM)的论文和资源的集合。LLM已成为自然语言处理和人工智能领域的突破性技术。这些模型能够执行各种与编码相关的任务,包括代码生成和代码推荐。因此,在软件测试中使用LLM预计会产生显着的改进。一方面,软件测试涉及诸如单元测试生成之类的任务,这些任务需要代码理解和生成。另一方面,LLM可以生成多样化的测试输入,以确保全面覆盖正在测试的软件。此存储库对LLM在软件测试中的运用进行了全面回顾,收集了102篇相关论文,并从软件测试和法学硕士的角度进行了全面的分析。

封面图片

问医断病这届AI行不行?科学家评估大型语言模型回答医学问题的能力

问医断病这届AI行不行?科学家评估大型语言模型回答医学问题的能力图为研究团队的方法和现有技术的比较。Flan-PaLM540B模型在MedQA,MedMCQA和PubMedQA数据集上均超过了以往最先进的SOTA,每列上方显示的是准确率百分比。图片来源:《自然》就其本身而言,人工智能(AI)给出的答案是准确的。但英国巴斯大学教授詹姆斯·达文波特指出了医学问题和实际行医之间的区别,他认为“行医并不只是回答医学问题,如果纯粹是回答医学问题,我们就不需要教学医院,医生也不需要在学术课程之后接受多年的培训了。”鉴于种种疑惑,在《自然》杂志新近发表的一篇论文中,全球顶尖的人工智能专家们展示了一个基准,用于评估大型自然语言模型能多好地解决人们的医学问题。现有的模型尚不完善最新的这项评估,来自Google研究院和深度思维公司。专家们认为,人工智能模型在医学领域有许多潜力,包括知识检索和支持临床决策。但现有的模型尚不完善,例如可能会编造令人信服的医疗错误信息,或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。相关的评估此前并非没有。然而,过去通常依赖有限基准的自动化评估,例如个别医疗测试得分。这转化到真实世界中,可靠性和价值都有欠缺。而且,当人们转向互联网获取医疗信息时,他们会遭遇“信息超载”,然后从10种可能的诊断中选择出最坏的一种,从而承受很多不必要的压力。研究团队希望语言模型能提供简短的专家意见,不带偏见、表明其引用来源,并合理表达出不确定性。5400亿参数的LLM表现如何为评估LLM编码临床知识的能力,Google研究院的专家希库费·阿孜孜及其同事探讨了它们回答医学问题的能力。团队提出了一个基准,称为“MultiMedQA”:它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及“HealthSearchQA”——这是一个新的数据集,包含3173个在线搜索的医学问题。团队随后评估了PaLM(一个5400亿参数的LLM)及其变体Flan-PaLM。他们发现,在一些数据集中Flan-PaLM达到了最先进水平。在整合美国医师执照考试类问题的MedQA数据集中,Flan-PaLM超过此前最先进的LLM达17%。不过,虽然Flan-PaLM的多选题成绩优良,进一步评估显示,它在回答消费者的医疗问题方面存在差距。专精医学的LLM令人鼓舞为解决这一问题,人工智能专家们使用一种称为设计指令微调的方式,进一步调试Flan-PaLM适应医学领域。同时,研究人员介绍了一个专精医学领域的LLM——Med-PaLM。设计指令微调是让通用LLM适用新的专业领域的一种有效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如,Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答,Med-PaLM的回答评分为92.6%,相当于医师作出的回答(92.9%)。同样,Flan-PaLM有29.7%的回答被评为可能导致有害结果,Med-PaLM仅5.8%,相当于医师所作的回答(6.5%)。研究团队提到,结果虽然很有前景,但有必要作进一步评估,特别是在涉及安全性、公平性和偏见方面。换句话说,在LLM的临床应用可行之前,还有许多限制要克服。...PC版:https://www.cnbeta.com.tw/articles/soft/1371591.htm手机版:https://m.cnbeta.com.tw/view/1371591.htm

封面图片

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能

a16z近期公布了他们的开源AI资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能构建的模型和社区。第二期有7个项目::一个在任何云上运行LLMs、AI和批处理作业的框架,提供最大的成本节省、最高的GPU可用性和托管执行。主要能力有:在任何云上启动作业和集群、排队并运行多个作业,自动管理、轻松访问对象存储、自动选择最便宜的云服务。:用于微调LLMs的工具,支持多种配置和架构。工具支持:训练各种Huggingface模型,如llama、pythia等、支持全面微调、lora、qlora、relora和gptq多种训练方式、使用简单的yaml文件或CLI覆盖自定义配置等。还有很多其他特性。:开源模型、系统和评估平台。开源了LLM用的数据集,还有一个LLM模型。最著名的还是通过ELO算法和机制评估LLM质量的项目,这种人工评分的机制比一些数据集的评价方法更加可以反应人类对于LLM质量的判断。:用于训练许多LLMs的开放网络爬取数据存储库。这是一个从2007年就开始收集的互联网语聊数据库,他们会定期抓取,你可以免费下载所有数据用来训练模型。GPT-382%的训练语料来自这个项目。:开源多模态模型(语言和视觉)。端到端训练的大型多模态模型,连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。现在最新的是LLaVA1.5版本,只是对原始LLaVA进行简单修改,利用了所有公开数据,在单个8-A100节点上约1天内完成训练。:AI动画的平台和开源社区,是一种AI生成动画的方式。Deforum的WebUI插件和Discord社区都是他们在维护。:高影响力AI模型的开放实现。PhilWang,也以其在线昵称“lucidrains”而闻名,在AI和机器学习领域是一位杰出人物。以在PyTorch框架中实现各种有趣的AI模型和论文而闻名。他的工作包括VisionTransformer、DALL-E2、Imagen和MusicLM等的实现。

封面图片

Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名

ScaleAI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名SEAL排行榜显示,OpenAI的GPT系列LLM在其用于人工智能模型排名的四个初始领域中的三个领域排名第一,AnthropicPBC广受欢迎的Claude3Opus在第四个领域排名第一。GoogleLLC的Gemini模型也表现出色,在其中几个领域与GPT模型并列第一。ScaleAI表示,它之所以创建SEAL排行榜,是因为现在有数以百计的LLM可供公司使用,而人工智能的表现却缺乏透明度。这些排行榜由ScaleAI的安全、评估和对齐实验室(Safety,Evaluations,andAlignmentLab)开发,并声称通过拒绝透露其用于评估LLM的提示的性质来保持中立性和完整性。该公司指出,虽然也有其他对LLM进行排名的努力,如MLCommons的基准和斯坦福HAI的透明度指数,但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如,ScaleAI指出,MLCommon的基准是公开的,因此公司可以对其模型进行专门训练,以准确响应他们使用的提示。SEAL开发了私有的评估数据集,以保持其排名的完整性,据说其测试是由经过验证的领域专家创建的。此外,所使用的提示和给出的排名都经过仔细评估,以确保其可信度,同时通过公布所使用评估方法的明确解释来确保透明度。ScaleAI表示,在ScaleCoding领域,每个模型都要在随机选择的提示上与评估中的其他模型进行至少50次比较,以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力,排行榜显示,OpenAI的GPT-4TurboPreview和GPT-4o模型与Google的Gemini1.5Pro(I/O后)并列第一。之所以将它们并列第一,是因为ScaleAI只声称其评估分数的置信度为95%,而且前三名之间的差距很小。尽管如此,GPT-4TurboPreview似乎略胜一筹,获得了1155分,GPT-4o以1144分位居第二,Gemini1.5Pro(PostI/O)获得了1112分。在多语言领域,GPT-4o和Gemini1.5Pro(PostI/O)并列第一,得分分别为1139分和1129分,GPT-4Turbo和GeminiPro1.5(PreI/O)紧随其后,并列第三。GPT-4o在"指令跟踪"领域也名列前茅,获得88.57分,GPT-4TurboPreview以87.64分名列第二。结果表明,Google在这一领域仍需努力,因为OpenAI最接近的竞争对手是MetaPlatforms公司的开源Llama370bInstruct(得分85.55)和Mistral公司的MistralLargeLatestLLM(得分85.34)。最后,ScaleAI测试了LLM的数学能力。事实证明,Anthropic的Claude3Opus以95.19的高分拔得头筹,无可争议地获得了第一名,超过了95.10的GPT-4TurboPreview和94.85的GPT-4o。这些比较很有意思,但似乎还不能说明全部问题,因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如,AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和CommandLLM在所有四项评估中都明显缺席,埃隆-马斯克(ElonMusk)的生成式人工智能初创公司xAICorp.建立的Grok模型也是如此。好消息是,ScaleAI可能会解决LLM排行榜不完整的问题。该公司表示,它打算每年多次更新排行榜,以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外,它还计划在排行榜上添加新的领域,力争成为最值得信赖的大模型第三方评估机构。...PC版:https://www.cnbeta.com.tw/articles/soft/1432840.htm手机版:https://m.cnbeta.com.tw/view/1432840.htm

封面图片

评估系统所积累的数据和流程,可以很自然地应用到 LLM 产品的微调和数据管理中。微调最关键的是数据质量,而评估系统可以通过筛选、

评估系统所积累的数据和流程,可以很自然地应用到LLM产品的微调和数据管理中。微调最关键的是数据质量,而评估系统可以通过筛选、清洗、合成等手段来生成高质量的微调数据。评估系统中记录的跟踪数据、断言规则、人工反馈等,都可以直接用于微调数据的管理。总的来说,评估基础设施和微调及数据合成所需的基础设施有很大重叠。调试LLM产品的调试也可以受益于评估系统。理想的评估系统应该能够支持快速定位错误,找到问题的根本原因。其中的关键是丰富的跟踪数据、可以标记错误的机制、高效的日志搜索和导航工具等。此外,系统的设计应当允许快速测试解决方案并验证有效性。总之,调试和评估所需的基础设施在很多方面是共通的。全文翻译:https://quail.ink/op7418/p/e4bda0e79a84e4babae5b7a5e699bae883bde4baa7e59381e99c80e8a681e8af84e4bcb0-e5a682e4bd95e8af84e4bcb0llme4baa7e59381

封面图片

Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平

Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平Meta的人工智能主管表示,为ChatGPT等生成式人工智能产品提供动力的大型语言模型永远无法实现像人类一样的推理和计划能力,他专注于一种激进的替代方法,即在机器中创造“超级智能”。该公司首席人工智能科学家杨立昆表示,LLM“对逻辑的理解非常有限……不理解物理世界,没有持久的记忆,不能按照任何合理的定义进行推理,也不能进行层次化的规划”。杨立昆说,LLMs的这种进化是肤浅和有限的,只有当人类工程师介入并根据这些信息进行训练时,模型才会学习,而不是像人类那样自然地得出结论。“在大多数人看来,这当然是推理,但主要是利用从大量训练数据中积累的知识。(LLM)尽管有局限性,但非常有用。”——()

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人