评估系统所积累的数据和流程,可以很自然地应用到 LLM 产品的微调和数据管理中。微调最关键的是数据质量,而评估系统可以通过筛选、

评估系统所积累的数据和流程,可以很自然地应用到LLM产品的微调和数据管理中。微调最关键的是数据质量,而评估系统可以通过筛选、清洗、合成等手段来生成高质量的微调数据。评估系统中记录的跟踪数据、断言规则、人工反馈等,都可以直接用于微调数据的管理。总的来说,评估基础设施和微调及数据合成所需的基础设施有很大重叠。调试LLM产品的调试也可以受益于评估系统。理想的评估系统应该能够支持快速定位错误,找到问题的根本原因。其中的关键是丰富的跟踪数据、可以标记错误的机制、高效的日志搜索和导航工具等。此外,系统的设计应当允许快速测试解决方案并验证有效性。总之,调试和评估所需的基础设施在很多方面是共通的。全文翻译：https://quail.ink/op7418/p/e4bda0e79a84e4babae5b7a5e699bae883bde4baa7e59381e99c80e8a681e8af84e4bcb0-e5a682e4bd95e8af84e4bcb0llme4baa7e59381

在Telegram中查看

相关推荐

持续更新的中文指令微调数据集，支持双语微调和数据修正。

持续更新的中文指令微调数据集，支持双语微调和数据修正。本数据集包括中文和英文的混合数据集，方便双语微调，以及后续做持续的数据修正。原始的Alpaca英文数据集也存在不少的问题，个别的数学类的sample是错的，有少部分output字段需要修正，一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上，翻译出对应的中文版本，中文版基本是原始sample的翻译，但是对于一些比如押韵类、时态类的一些instruction，直接翻译导致韵脚丢失，时态不一致等。需要对应的进行人工改写。主要分为以下几个方面：修改原始英文数据集的一些问题翻译为中文数据集调整直译导致的一些samplecode等一些特殊的输出不进行翻译对齐一些特殊的标签或者拒绝生成等输出#数据集

LLM Engine：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式主要特征适用于你喜爱的模型的即用型API：部署和服务开源基础模型-包括LLaMA、MPT和Falcon。使用Scale托管模型或部署到您自己的基础设施。微调基础模型：根据您自己的数据微调开源基础模型，以优化性能。优化推理：LLMEngine提供推理API，用于流式响应和动态批处理输入，以实现更高的吞吐量和更低的延迟。开源集成：使用单个命令部署任何。即将推出的功能K8s安装文档：我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前，我们的文档涵盖了使用我们的客户端库访问Scale的托管基础设施。快速冷启动时间：为了防止GPU闲置，LLMEngine在不使用模型时会自动将模型缩放为零，并在几秒钟内扩展，即使对于大型基础模型也是如此。成本优化：部署人工智能模型比商业模型更便宜，包括冷启动和预热时间。

QLoRA 是一种LLM微调的新技术。

QLoRA是一种LLM微调的新技术。-12小时的单个消费级GPU上训练，性能就可以达到了ChatGPT的97％-4bit训练，但是性能与16bit相当这个数据有点离谱。。TimDettmers: QLoRA:4-bitfinetuningofLLMsishere!WithitcomesGuanaco,achatbotonasingleGPU,achieving99%ChatGPTperformanceontheVicunabenchmark:Paper:Code+Demo:Samples:Colab:

基于LLM的系统和产品的构建模式 | link

基于LLM的系统和产品的构建模式讨论了如何将大型语言模型(LLM)应用于系统和产品中的实用模式，介绍了七种关键模式，包括评估性能、使用外部知识、微调模型、缓存技术以减少延迟和成本、设置保护措施确保输出质量、设计防御性用户体验来处理错误、收集用户反馈来建立数据循环。深入讨论了如何使用各种评估指标来衡量模型性能，包括BLEU、ROUGE、BERTScore和MoverScore等；提到了如何使用检索增强生成技术(RAG)将外部信息嵌入到模型中，提高生成质量和可用性。

一篇写的非常好的文章，详细介绍了如何对大语言模型的质量进行评估。

一篇写的非常好的文章，详细介绍了如何对大语言模型的质量进行评估。流程包括单元测试、人工评估、模型评估和A/B测试,强调快速迭代和数据管理的重要性。一个好的测试流程是模型进步的必要条件，如果没办法准确测试模型质量，就没办法帮助模型进步。下面是大致的内容整理，后面有全文翻译：大语言模型产品的评估系统评估系统对大语言模型(LLM)产品的成功至关重要。许多LLM产品之所以失败,根本原因在于未能创建健壮的评估系统。评估、调试和改进是LLM产品成功的关键,而良好的评估系统可以创造一个良性循环,加速产品的迭代和改进。案例研究中的Lucy就是一个典型的例子,它初期通过提示工程取得了进展,但后来遇到了性能瓶颈,需要建立系统的评估方法来突破瓶颈。评估的类型LLM产品的评估主要分为三个层次:单元测试、人工评估和模型评估、A/B测试。单元测试是通过编写一些断言语句,在开发过程中快速获得反馈。人工评估和模型评估是通过人工检查和训练评估模型来评估整个系统。A/B测试则用于确保AI产品能够驱动期望的用户行为或结果。除了评估整个系统,还需要对子组件如RAG进行单独评估。单元测试的步骤单元测试是LLM产品评估的基础,通常包括三个步骤:编写特定范围的测试、创建测试用例和定期执行测试并追踪结果。编写测试时要针对LLM的不同功能和场景,检验相应的断言。可以利用LLM自动生成测试用例,触发不同的场景。测试应当定期执行,利用CI基础设施可以很方便地实现自动化测试和结果跟踪。测试通过率并不一定要达到100%,而是要在错误容忍度和产品目标之间取得平衡。人工评估和模型评估人工评估和模型评估是更高层次的测试手段。首先要记录LLM系统的跟踪数据,包括用户的输入和系统的响应,为后续分析提供数据基础。在查看数据时,定制化的查看工具和良好的可视化非常重要。将人工评估结果与评估模型的预测对齐,可以极大提高评估的效率。随着评估模型性能的提升,可以渐进式地用自动评估来替代人工评估。微调和数据合成与管理

中国公布《数据出境安全评估办法》

中国公布《数据出境安全评估办法》中国国家互联网信息办公室周四（7月7日）公布《数据出境安全评估办法》，当中规定“关键信息基础设施运营者”必须通过网信办的安全评估，才能向境外提供个人信息。据网信办官网的消息，除了关键信息基础设施运营者，处理100万人以上个人信息的数据处理者，以及自上年1月1日起累计向境外提供10万人个人信息或者1万人敏感个人信息的数据处理者，也必须遵守上述规定。《数据出境安全评估办法》也指出，数据处理者在申报数据出境安全评估前，应当展开数据出境风险自评估，重点评估几个事项包括数据出境和境外接收方处理数据的目的；出境数据的规模、范围、种类、敏感程度，数据出境可能对国家安全、公共利益、个人或者组织合法权益带来的风险等等。《华尔街日报》引述法律专家说，这项将于9月1日生效的《数据出境安全评估办法》，可能会增加企业的合规成本，并促使更多跨国公司将数据存储在中国。这些规定是继去年10月份发布的一份草案之后出台的，明确了在中国产生的数据数据出境和境外接收方处理数据的程序。中国网约车巨头滴滴出行去年6月底赴美上市两日后，突遭中国国家互联网信息监管机构的网络安全审查。在此之后，互联网企业涉及的国家数据安全在中国被广泛讨论。发布：2022年7月10日5:00PM

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人