Reka_Core：和GPT_4性能不相上下的多模态语言模型_–_XiaoHu

Google 推出原生多模态 AI 模型 Gemini，挑战GPT-4

OpenAI的模型在评估眼疾方面几乎与医生不相上下

OpenAI的模型在评估眼疾方面几乎与医生不相上下眼科一直是将人工智能应用于临床并解决其应用障碍的工作重点，例如模型通过虚构数据产生"幻觉"的倾向。"这项工作表明，这些大型语言模型在眼健康方面的知识和推理能力现在几乎与专家无异，"发表在《PLOS 数字健康》杂志上的一篇论文的主要作者 Arun Thirunavukarasu 说。他补充说："我们看到了回答相当复杂问题的能力。研究使用了 87 种不同的病人情况来测试 GPT-4 在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称，该模型的表现优于初级医生，并取得了与许多专家相似的结果。研究人员说，这项研究之所以引人注目，是因为它将人工智能模型的能力与执业医生的能力进行了比较，而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力，而不是之前一些人工智能医学研究中测试的狭窄能力，如通过病人扫描诊断癌症风险。该模型在需要一阶记忆的问题和需要高阶推理的问题（如插值、解释和处理信息的能力）上表现同样出色。Thirunavukarasu 在剑桥大学临床医学院学习期间开展了这项研究，他目前在牛津大学工作，他认为可以通过扩大数据集（包括管理算法、去身份化的病人笔记和教科书）对模型进行训练，从而进一步完善模型。这就要求在扩大信息来源的数量和性质的同时，确保信息保持良好的质量，在两者之间取得"棘手的平衡"。潜在的临床用途可能是对病人进行分流，或在专业医护人员有限的情况下使用。有证据表明，人工智能有助于诊断，例如能发现可能被医生遗漏的早期乳腺癌，因此在临床环境中部署人工智能的兴趣大增。与此同时，考虑到错误诊断可能对患者造成的伤害，研究人员也在努力解决如何控制严重风险的问题。伦敦大学学院人工医学智能教授皮尔斯-基恩（Pearse Keane）说，这项最新研究"令人兴奋"，其利用人工智能为专家的表现设定基准的想法"超级有趣"。基恩也是伦敦莫菲尔德眼科医院的成员，他也认为，在将这些技术引入临床之前，还需要做更多的工作。他列举了自己去年研究中的一个例子：向一个大型语言模型询问有关眼部黄斑变性的问题，结果该模型在回答中给出了根本是"杜撰"出来的参考资料。"我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡.....至少要有谨慎和怀疑。"他说。 ... PC版：手机版：

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下百度公司创始人李彦宏宣布，其公司的大型语言模型终于赶上了OpenAI先进的GPT-4，在中国开发可与美国匹敌的人工智能的竞赛中取得了领先地位。这位亿万富翁周二在北京登台演讲，对文心一言（Ernie） 4.0 进行了问答，旨在展示其即时提供答案和解决复杂谜题的能力。李彦宏在一个由钢铁厂改建而成的礼堂里对座无虚席的观众说，文心一言在复杂性和一般能力方面已经与OpenAI的开创性产品不相上下。著名的“文心一言”聊天机器人的用户数量现已突破 4500 万这一里程碑仍落后于 ChatGPT 的约 1.8 亿用户数量，尽管 ChatGPT 早在几个月前就在美国推出了该聊天机器人。百度是中国搜索领域的领头羊，经常被称为本土的谷歌，它寄希望于人工智能来帮助自己超越阿里巴巴集团控股有限公司和腾讯控股有限公司等控制互联网其他领域的竞争对手。百度股价周二下跌约 1.5%。李彦宏对听众说：“文心一言在任何方面都不逊色于GPT-4。” 早在今年 6 月，百度就曾表示，早期版本的“文心一言”在综合能力上超过了 OpenAI 基于 GPT-3.5 开发的聊天机器人。百度还援引一家地方报纸的测试结果称，它在几项中文能力上超过了 GPT-4。百度现在希望“文心一言机器人”能成为在线营销的核心业务，帮助百度挽回被抖音所有者字节跳动和腾讯运营的多功能应用夺走的用户。

稳定币龙头 Tether 跨足 AI！成立新部门、开发多模态 AI 模型

一个关于多模态大语言模型资料收集的项目，包括数据集、多模态指令调整、多模态上下文学习、多模态思维链、LLM辅助视觉推理、基础模型

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名 SEAL 排行榜显示，OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。Google LLC 的 Gemini 模型也表现出色，在其中几个领域与 GPT 模型并列第一。Scale AI表示，它之所以创建SEAL排行榜，是因为现在有数以百计的LLM可供公司使用，而人工智能的表现却缺乏透明度。这些排行榜由 Scale AI 的安全、评估和对齐实验室（Safety, Evaluations, and Alignment Lab）开发，并声称通过拒绝透露其用于评估 LLM 的提示的性质来保持中立性和完整性。该公司指出，虽然也有其他对LLM进行排名的努力，如MLCommons的基准和斯坦福HAI的透明度指数，但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如，Scale AI指出，MLCommon的基准是公开的，因此公司可以对其模型进行专门训练，以准确响应他们使用的提示。SEAL 开发了私有的评估数据集，以保持其排名的完整性，据说其测试是由经过验证的领域专家创建的。此外，所使用的提示和给出的排名都经过仔细评估，以确保其可信度，同时通过公布所使用评估方法的明确解释来确保透明度。Scale AI 表示，在 Scale Coding 领域，每个模型都要在随机选择的提示上与评估中的其他模型进行至少 50 次比较，以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力，排行榜显示，OpenAI 的 GPT-4 Turbo Preview 和 GPT-4o 模型与Google的 Gemini 1.5 Pro（I/O 后）并列第一。之所以将它们并列第一，是因为 Scale AI 只声称其评估分数的置信度为 95%，而且前三名之间的差距很小。尽管如此，GPT-4 Turbo Preview 似乎略胜一筹，获得了 1155 分，GPT-4o 以 1144 分位居第二，Gemini 1.5 Pro（Post I/O）获得了 1112 分。在多语言领域，GPT-4o 和 Gemini 1.5 Pro（Post I/O）并列第一，得分分别为 1139 分和 1129 分，GPT-4 Turbo 和 Gemini Pro 1.5（Pre I/O）紧随其后，并列第三。GPT-4o 在"指令跟踪"领域也名列前茅，获得 88.57 分，GPT-4 Turbo Preview 以 87.64 分名列第二。结果表明，Google在这一领域仍需努力，因为 OpenAI 最接近的竞争对手是 Meta Platforms 公司的开源 Llama 3 70b Instruct（得分 85.55）和 Mistral 公司的 Mistral Large Latest LLM（得分 85.34）。最后，Scale AI 测试了 LLM 的数学能力。事实证明，Anthropic 的 Claude 3 Opus 以 95.19 的高分拔得头筹，无可争议地获得了第一名，超过了 95.10 的 GPT-4 Turbo Preview 和 94.85 的 GPT-4o。这些比较很有意思，但似乎还不能说明全部问题，因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如，AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四项评估中都明显缺席，埃隆-马斯克（Elon Musk）的生成式人工智能初创公司xAI Corp.建立的Grok模型也是如此。好消息是，Scale AI 可能会解决LLM排行榜不完整的问题。该公司表示，它打算每年多次更新排行榜，以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外，它还计划在排行榜上添加新的领域，力争成为最值得信赖的大模型第三方评估机构。 ... PC版：手机版：

Reka_Core：和GPT_4性能不相上下的多模态语言模型_–_XiaoHu_AI学院.mp4

相关推荐

Google 推出原生多模态 AI 模型 Gemini，挑战GPT-4

OpenAI的模型在评估眼疾方面几乎与医生不相上下

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下

稳定币龙头 Tether 跨足 AI！成立新部门、开发多模态 AI 模型

一个关于多模态大语言模型资料收集的项目，包括数据集、多模态指令调整、多模态上下文学习、多模态思维链、LLM辅助视觉推理、基础模型

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名

相关推荐

Google 推出原生多模态 AI 模型 Gemini，挑战GPT-4

OpenAI的模型在评估眼疾方面几乎与医生不相上下

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下

稳定币龙头 Tether 跨足 AI！成立新部门、开发多模态 AI 模型

一个关于多模态大语言模型资料收集的项目，包括数据集、多模态指令调整、多模态上下文学习、多模态思维链、LLM辅助视觉推理、基础模型

Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名