为了评价AI大语言模型的性能，学者们所使用的数据集竟是……

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名

ScaleAI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名SEAL排行榜显示，OpenAI的GPT系列LLM在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，AnthropicPBC广受欢迎的Claude3Opus在第四个领域排名第一。GoogleLLC的Gemini模型也表现出色，在其中几个领域与GPT模型并列第一。ScaleAI表示，它之所以创建SEAL排行榜，是因为现在有数以百计的LLM可供公司使用，而人工智能的表现却缺乏透明度。这些排行榜由ScaleAI的安全、评估和对齐实验室（Safety,Evaluations,andAlignmentLab）开发，并声称通过拒绝透露其用于评估LLM的提示的性质来保持中立性和完整性。该公司指出，虽然也有其他对LLM进行排名的努力，如MLCommons的基准和斯坦福HAI的透明度指数，但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如，ScaleAI指出，MLCommon的基准是公开的，因此公司可以对其模型进行专门训练，以准确响应他们使用的提示。SEAL开发了私有的评估数据集，以保持其排名的完整性，据说其测试是由经过验证的领域专家创建的。此外，所使用的提示和给出的排名都经过仔细评估，以确保其可信度，同时通过公布所使用评估方法的明确解释来确保透明度。ScaleAI表示，在ScaleCoding领域，每个模型都要在随机选择的提示上与评估中的其他模型进行至少50次比较，以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力，排行榜显示，OpenAI的GPT-4TurboPreview和GPT-4o模型与Google的Gemini1.5Pro（I/O后）并列第一。之所以将它们并列第一，是因为ScaleAI只声称其评估分数的置信度为95%，而且前三名之间的差距很小。尽管如此，GPT-4TurboPreview似乎略胜一筹，获得了1155分，GPT-4o以1144分位居第二，Gemini1.5Pro（PostI/O）获得了1112分。在多语言领域，GPT-4o和Gemini1.5Pro（PostI/O）并列第一，得分分别为1139分和1129分，GPT-4Turbo和GeminiPro1.5（PreI/O）紧随其后，并列第三。GPT-4o在"指令跟踪"领域也名列前茅，获得88.57分，GPT-4TurboPreview以87.64分名列第二。结果表明，Google在这一领域仍需努力，因为OpenAI最接近的竞争对手是MetaPlatforms公司的开源Llama370bInstruct（得分85.55）和Mistral公司的MistralLargeLatestLLM（得分85.34）。最后，ScaleAI测试了LLM的数学能力。事实证明，Anthropic的Claude3Opus以95.19的高分拔得头筹，无可争议地获得了第一名，超过了95.10的GPT-4TurboPreview和94.85的GPT-4o。这些比较很有意思，但似乎还不能说明全部问题，因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如，AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和CommandLLM在所有四项评估中都明显缺席，埃隆-马斯克（ElonMusk）的生成式人工智能初创公司xAICorp.建立的Grok模型也是如此。好消息是，ScaleAI可能会解决LLM排行榜不完整的问题。该公司表示，它打算每年多次更新排行榜，以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外，它还计划在排行榜上添加新的领域，力争成为最值得信赖的大模型第三方评估机构。...PC版：https://www.cnbeta.com.tw/articles/soft/1432840.htm手机版：https://m.cnbeta.com.tw/view/1432840.htm

数据与AI公司Databricks推出通用目的DBRX大语言模型（LLM），按标准基准来看，其性能超越所有现存开源模型。该公司C

英国AI安全研究所轻松越狱主要大语言模型

英国AI安全研究所轻松越狱主要大语言模型英国政府下属人工智能安全研究所(AISI)在一份新报告中指出，接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施，以防止它们产生有害或非法的反应；越狱简单地说就是欺骗模型，使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱，这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”，所有模型都对98%至100%的有害问题作出了回应。——

：大型语言模型实验室应用，支持以下特性：下载数百种流行模型；通过聊天或完成与模型交互；使用数据集库或自己的数据对模型进行微调；评

Databricks开源DBRX高性能大语言模型

开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型，在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好，尤其在编程和数学推理方面优于其他开源模型。与开源模型相比，DBRX在MMLU数据集上的表现也是最好的。根据测试，DBRX甚至超过了专门用于编程的CodeLLAMA-70B，并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构，使其在训练和推理上更加高效。与类似参数量的非MoE模型相比，DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍，这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成，客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型，也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

使用AI语言模型有助于诊断精神分裂症

使用AI语言模型有助于诊断精神分裂症目前，精神疾病的诊断几乎完全依赖于与患者及其亲近的人交谈，血液检查和脑扫描等测试只起极小的作用。但是，这种诊断的不精确阻碍了对精神疾病成因的更深入理解，也阻碍了治疗效果的监测。研究人员让26名患有精神分裂症的参与者和26名对照组参与者完成两个言语流畅性任务，要求他们在5分钟内尽可能快地说出属于“动物”类别的词或以“p”开头的词。为了分析参与者的回答，研究团队使用了一个AI语言模型，该模型通过训练大量互联网文本来表示词义，与人类表示词义的方式类似。他们测试人们自发回忆的词是否能被AI模型预测，以及精神分裂症患者的可预测性是否降低。结果发现，对照组参与者的回答确实比精神分裂症患者的回答更可被AI模型预测，这种差异在症状更严重的患者中最大。研究人员认为这种差异可能与大脑学习记忆和思想之间的关系以及在所谓“认知地图”中存储这些信息的方式有关。该研究的第二部分中，作者利用脑扫描测量了参与学习和存储“认知地图”的大脑区域中的脑活动，为这一理论提供了支持。第一作者MatthewNour博士表示，随着类似ChatGPT这样的AI语言模型的出现，自动语言分析已经为医生和科学家所用。这项工作展示了将AI语言模型应用于和语言、意义密切相关的精神病学领域的潜力。他们计划在更大的患者样本中广泛应用这项技术，以测试它在临床中的用途。如果这些工具被证明是安全和可靠的，他预计它们会在未来十年开始应用于临床。...PC版：https://www.cnbeta.com.tw/articles/soft/1389261.htm手机版：https://m.cnbeta.com.tw/view/1389261.htm