研究发现 AI 模型存在性别偏见：中性 / 男性 LLM 性能优于女性角色========(指向那只AI猫娘)那她的性能呢？

Workers AI LLM Playground-Cloudflare推出AI LLM体验平台支持30款AI模型

Workers AI LLM Playground-Cloudflare推出AI LLM体验平台支持30款AI模型 #AI工具 #趣站 #AI #AI工具 https://www.ahhhhfs.com/57305/

Meta 开源 FACET 工具，用于评估 AI 模型中的种族和性别偏见 ======反过来说 facet 应该相当精通地狱骑士

高通自研 Oryon SoC 曝光：性能优于苹果 M2、功耗上存在诸多挑战 ========超级火龙？

苹果开放 AI 研究成果，发布多模态 LLM 模型 Ferret - IT之家

Stability AI 发布了其新的开放大型语言模型（LLM）StableCode

Stability AI 发布了其新的开放大型语言模型（LLM）StableCode Stability AI 刚刚宣布推出了 StableCode，这是他们首个用于编码的 LLM 生成式人工智能产品。该产品旨在帮助程序员完成日常工作，同时也为准备将技能提升到新水平的新开发人员提供了一个出色的学习工具。旨在帮助开发人员生成代码，并提供三个版本：通用用例的、和，其中长上下文窗口模型支持多达 16,000 个令牌以进行更高级的编程。 StableCode是使用来自开源BigCode项目的编码数据进行训练的，支持Python、Go、Java、JavaScript、C、Markdown和C++等语言的开发。BigCode项目被用作ServiceNow Inc.的StarCoder LLM的基础，该项目是与HuggingFace Inc.合作开发的，并于五月份推出。

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名 SEAL 排行榜显示，OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。Google LLC 的 Gemini 模型也表现出色，在其中几个领域与 GPT 模型并列第一。Scale AI表示，它之所以创建SEAL排行榜，是因为现在有数以百计的LLM可供公司使用，而人工智能的表现却缺乏透明度。这些排行榜由 Scale AI 的安全、评估和对齐实验室（Safety, Evaluations, and Alignment Lab）开发，并声称通过拒绝透露其用于评估 LLM 的提示的性质来保持中立性和完整性。该公司指出，虽然也有其他对LLM进行排名的努力，如MLCommons的基准和斯坦福HAI的透明度指数，但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如，Scale AI指出，MLCommon的基准是公开的，因此公司可以对其模型进行专门训练，以准确响应他们使用的提示。SEAL 开发了私有的评估数据集，以保持其排名的完整性，据说其测试是由经过验证的领域专家创建的。此外，所使用的提示和给出的排名都经过仔细评估，以确保其可信度，同时通过公布所使用评估方法的明确解释来确保透明度。Scale AI 表示，在 Scale Coding 领域，每个模型都要在随机选择的提示上与评估中的其他模型进行至少 50 次比较，以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力，排行榜显示，OpenAI 的 GPT-4 Turbo Preview 和 GPT-4o 模型与Google的 Gemini 1.5 Pro（I/O 后）并列第一。之所以将它们并列第一，是因为 Scale AI 只声称其评估分数的置信度为 95%，而且前三名之间的差距很小。尽管如此，GPT-4 Turbo Preview 似乎略胜一筹，获得了 1155 分，GPT-4o 以 1144 分位居第二，Gemini 1.5 Pro（Post I/O）获得了 1112 分。在多语言领域，GPT-4o 和 Gemini 1.5 Pro（Post I/O）并列第一，得分分别为 1139 分和 1129 分，GPT-4 Turbo 和 Gemini Pro 1.5（Pre I/O）紧随其后，并列第三。GPT-4o 在"指令跟踪"领域也名列前茅，获得 88.57 分，GPT-4 Turbo Preview 以 87.64 分名列第二。结果表明，Google在这一领域仍需努力，因为 OpenAI 最接近的竞争对手是 Meta Platforms 公司的开源 Llama 3 70b Instruct（得分 85.55）和 Mistral 公司的 Mistral Large Latest LLM（得分 85.34）。最后，Scale AI 测试了 LLM 的数学能力。事实证明，Anthropic 的 Claude 3 Opus 以 95.19 的高分拔得头筹，无可争议地获得了第一名，超过了 95.10 的 GPT-4 Turbo Preview 和 94.85 的 GPT-4o。这些比较很有意思，但似乎还不能说明全部问题，因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如，AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四项评估中都明显缺席，埃隆-马斯克（Elon Musk）的生成式人工智能初创公司xAI Corp.建立的Grok模型也是如此。好消息是，Scale AI 可能会解决LLM排行榜不完整的问题。该公司表示，它打算每年多次更新排行榜，以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外，它还计划在排行榜上添加新的领域，力争成为最值得信赖的大模型第三方评估机构。 ... PC版：手机版：

相关推荐