相关推荐

一篇写的非常好的文章，详细介绍了如何对大语言模型的质量进行评估。

一篇写的非常好的文章，详细介绍了如何对大语言模型的质量进行评估。流程包括单元测试、人工评估、模型评估和A/B测试,强调快速迭代和数据管理的重要性。一个好的测试流程是模型进步的必要条件，如果没办法准确测试模型质量，就没办法帮助模型进步。下面是大致的内容整理，后面有全文翻译：大语言模型产品的评估系统评估系统对大语言模型(LLM)产品的成功至关重要。许多LLM产品之所以失败,根本原因在于未能创建健壮的评估系统。评估、调试和改进是LLM产品成功的关键,而良好的评估系统可以创造一个良性循环,加速产品的迭代和改进。案例研究中的Lucy就是一个典型的例子,它初期通过提示工程取得了进展,但后来遇到了性能瓶颈,需要建立系统的评估方法来突破瓶颈。评估的类型LLM产品的评估主要分为三个层次:单元测试、人工评估和模型评估、A/B测试。单元测试是通过编写一些断言语句,在开发过程中快速获得反馈。人工评估和模型评估是通过人工检查和训练评估模型来评估整个系统。A/B测试则用于确保AI产品能够驱动期望的用户行为或结果。除了评估整个系统,还需要对子组件如RAG进行单独评估。单元测试的步骤单元测试是LLM产品评估的基础,通常包括三个步骤:编写特定范围的测试、创建测试用例和定期执行测试并追踪结果。编写测试时要针对LLM的不同功能和场景,检验相应的断言。可以利用LLM自动生成测试用例,触发不同的场景。测试应当定期执行,利用CI基础设施可以很方便地实现自动化测试和结果跟踪。测试通过率并不一定要达到100%,而是要在错误容忍度和产品目标之间取得平衡。人工评估和模型评估人工评估和模型评估是更高层次的测试手段。首先要记录LLM系统的跟踪数据,包括用户的输入和系统的响应,为后续分析提供数据基础。在查看数据时,定制化的查看工具和良好的可视化非常重要。将人工评估结果与评估模型的预测对齐,可以极大提高评估的效率。随着评估模型性能的提升,可以渐进式地用自动评估来替代人工评估。微调和数据合成与管理

看到一个新闻，一篇文章。

看到一个新闻，一篇文章。新闻说某地一些采集核酸样品的工作人员因为防护措施没做好而感染。这个其实提醒我们，反复的大规模核酸检测不可避免地带来人员聚集情况，本身存在扩散感染的风险，这个几个月前我在公众号上就写过一篇文章。现在工作人员在密集的采样环境下感染，自然也要考虑同样在这个环境下的被检测的人的风险——这些工作人员是因为在这个环境里与感染者近距离接触感染的，同样在这里的老百姓一样也有被感染的风险。这是一个非常鲜活的教训，告诉我们核酸不是测得越多、越频繁就越好。另外看到的故事是有人因为想吃鸡火丝，不小心走到医院边上一个密接人员经过的地方，被隔离了两周。我很好奇鸡火丝是什么，但这个可以先放在一边，从长计议。毕竟无论是什么山珍海味，隔离两周的代价未免太高，吃不起。我想提出来的是，为什么需要去隔离这样的纯纯粹粹的路人甲。什么样的人需要隔离，是依据实际暴露程度与感染风险来的。这个人经过的地方，当时没有感染者在。注意在这个地方呆过的人是密切接触者，不是感染者，而且这个人已经被带走了。这种情况下，误入这个区域的人算什么？连次密接都算不上。按现在的防控方案，根本就不需要隔离。这种就是典型的，毫无意义的折腾。从这篇文章的描述来看，这样被拉去隔离的人各种情况都有，甚至包括高危孕妇、刚做完手术伤口尚未痊愈的人，以及有痛风这种基础疾病的人。这些人莫名其妙拉去隔离，出事的风险是多大？我们甚至可以回看不到一个月前贵州转运疫情相关人员发生重大车祸的事情。里面的人按照防控方案，根本不需要去别的地方集中隔离。但就是莫名其妙要到整个省最边远的地方隔离管理。这不是没事增加风险吗？反复大规模做核酸最后在核酸监测点发生传播，以及将没有隔离必要的人强制集中隔离，这些都不是降低疫情风险，只是在增加防疫成本，甚至在增加次生灾害以及疫情本身扩散的风险。

《华盛顿邮报》发表了一篇文章谈论了中国防火长城对世界的影响：互联网能被有效的审查。

《华盛顿邮报》发表了一篇文章谈论了中国防火长城对世界的影响：互联网能被有效的审查。防火长城，一堵虚拟的柏林墙，防止对党有害的信息进入中国。人们通常认为信息不可能永远被堵住，虚拟的柏林墙终有一天会像现实中的柏林墙那样倒下。但至少在短期内我们看不到墙会倒下，事实上它正在被加固，党正在为墙制定法律基础，堵上漏洞，加强对墙内网络的控制。后发的劣势被后发的优势彻底盖住了，以人数计算，中国有着世界最多的网民，全世界四分之一的网民都生活在防火长城内。中国还在向世界吹嘘它的互联网主权理念和信息控制上的成就。https://www.washingtonpost.com/world/asia_pacific/chinas-scary-lesson-to-the-world-censoring-the-internet-works/2016/05/23/413afe78-fff3-11e5-8bb1-f124a43f84dc_story.html

纸钞屋.柏林第一季(4KHRD+1080P)

名称：纸钞屋.柏林第一季(4KHRD+1080P)描述：只有两样东西能让糟糕的一天变成美好的一天：爱和价值数百万的薪水。这两件东西让柏林度过了他的黄金岁月，在这段时间里，他对自己的疾病一无所知，也没有像老鼠一样被困在西班牙造币厂。在这里，柏林开始准备他最非凡的抢劫行动之一：让价值4400万美元的珠宝像变魔术一样消失。为此，柏林将寻求他曾与之一起行窃的三个团伙之一的帮助。链接：https://www.alipan.com/s/U1kpd6AAKJq大小：ng标签：#剧情#动作##悬疑#惊悚#犯罪来自：雷锋频道：@Aliyundrive_Share_Channel群组：@alyd_g投稿：@AliYunPanBot

这是关联上一篇文章的。

这是关联上一篇文章的。如果您很有可能遇到被搜查手机的情况——比如在美国机场或者在中国街头——您需要事先删除敏感的通信应用。之后再恢复它。这就需要您有备份以还原数据。本指南介绍：-什么时候需要备份、-备份的风险是什么，-以及如何安全备份。详细：https://www.iyouport.org/%e6%98%af%e5%90%a6%e9%9c%80%e8%a6%81%e5%a4%87%e4%bb%bd%e4%bb%a5%e5%8f%8a%e8%af%a5%e5%a6%82%e4%bd%95%e5%ae%89%e5%85%a8%e5%9c%b0%e5%a4%87%e4%bb%bd-whatsapp%ef%bc%9f/

纸房子：柏林 (2023) 4K HDR 中字内嵌字幕

名称：纸房子：柏林(2023)4KHDR中字内嵌字幕描述：只有两样东西能让糟糕的一天变成美好的一天：爱和价值数百万的薪水。这两件东西让柏林度过了他的黄金岁月，在这段时间里，他对自己的疾病一无所知，也没有像老鼠一样被困在西班牙造币厂。在这里，柏林开始准备他最非凡的抢劫行动之一：让价值4400万美元的珠宝像变魔术一样消失。为此，柏林将寻求他曾与之一起行窃的三个团伙之一的帮助。链接：https://pan.quark.cn/s/37bef54feb65大小：标签：#动作#悬疑#犯罪#纸房子#柏林#西班牙剧#quark频道：@yunpanshare群组：@yunpangroup

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人