Google DeepMind 用大模型解决尚未解决的数学问题

Google DeepMind 用大模型解决尚未解决的数学问题 Google DeepMind 的研究人员在《》期刊上发表论文，报告他们首次用大模型（LLM）发现了一个尚未解决的数学问题的解。Google DeepMind 的新工具被称为“”，研究人员将一组产生创造性解决方案的 LLM 和一个作为检查者以避免错误建议的评估程序结合起来。接着将一个多次迭代此过程的演化方法，作为输入来引导 LLM。结果表明，这种方法可以得到新的、可验证的正确结果。他们将“FunSearch”应用到了著名的上限集问题（数学中涉及计数和排列领域的一个中心问题），发现了超越最著名上限集的大上限集新构造。研究人员表示，“FunSearch”的成功关键是它会寻找那些描述怎样解决问题的程序，而非直接寻找解决办法。因为“FunSearch”的结果易于被解释和验证，这意味着这一方法有望激发科学家在该领域的进一步思考。来源，频道：@kejiqu 群组：@kejiquchat

在Telegram中查看

相关推荐

MAmmoTH：专门为解决通用数学问题而定制的开源大语言模型。

MAmmoTH：专门为解决通用数学问题而定制的开源大语言模型。 MAmmoTH模型结合了CoT和PoT两种思维方式，使其能够更全面地解决各种数学问题（从基础算术到高等数学）。在九个数学推理数据集上显著超越了现有的开源模型，平均准确率提高了13%到29%。 MAmmoTH在一个精心策划的指导调优数据集MathInstruct上进行训练，MathInstruct从13个带有中间理由的数学数据集中编译而来，其中六个是由作者新策划的。 MAmmoTH基于LLaMa 2和Code Llama训练的数学领域的开源LLM，有7B、13B、34B、70B四个版本。 MAmmoTH的工作原理是通过混合指导调优方法，结合两种不同的思维方式，训练模型来解决各种数学问题。这种方法确保了模型在各种数学领域都有很好的表现，并且在实际应用中也取得了显著的性能提升。 ||||

谷歌 DeepMind 利用大型语言模型解决了一个长期困扰人类的数学难题

谷歌 DeepMind 利用大型语言模型解决了一个长期困扰人类的数学难题谷歌 DeepMind 利用一大型语言模型成功破解了一项著名的未解数学难题。研究人员发表在《自然》杂志上的一篇中表示，这是首次使用大型语言模型发现长期科学难题的解决方案，产生了可验证且有价值的新信息，这些信息之前并不存在。“这不在训练数据中，甚至以前都不知道，”谷歌 DeepMind 研究副总裁 Pushmeet Kohli 说道。它结合了一个名为Codey的大型语言模型，这是Google的PaLM 2的一个版本，经过对计算机代码进行了精细调整，还与其他系统结合使用，拒绝不正确或荒谬的答案，并将正确的答案重新插入其中。经过数百万次建议和几十次总体过程的重复这花了几天的时间FunSearch能够提出代码，产生了一个正确且以前未知的解决方案，解决了cap set 问题，涉及找到某一类型集合的最大大小。

网站AI Math网站功能：AI 数学问题解答

网站AI Math 网站功能：AI 数学问题解答网站简介：一个由 AI 驱动的数学作业助手，专为解决数学作业和考试准备中遇到的问题而设计。它使用 AI 技术扫描数学问题的文本，以提供快速答案。该网站提供了最新和最精确的逐步解决方案、全面的解释和各种数学科目的宝贵提示。无需注册登录，免费使用。网站链接：点击打开频道群聊投稿商务

Google DeepMind 推出评估AI模型危险性的新框架

Google DeepMind 推出评估AI模型危险性的新框架访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器根据一份与 Semafor 独家分享的声明，DeepMind 将与其他公司、学术界和立法者合作，共同完善该框架。该公司计划在2025年前开始实施其审计工具。如今，评估功能强大的前沿人工智能模型更像是一个临时过程，随着研究人员开发新技术而不断演变。"红队"会花费数周或数月的时间对其进行测试，尝试可能绕过保障措施的不同提示。然后，公司会采用各种技术，从强化学习到特殊提示，使模型符合要求。这种方法对现在的模型很有效，因为它们还不够强大，不足以构成太大的威胁，但研究人员认为，随着模型能力的增强，需要一个更强大的过程。批评者担心，当人们意识到这种技术已经走得太远时，为时已晚。DeepMind 发布的"前沿安全框架"希望解决这个问题。这是包括 Meta、OpenAI 和微软在内的主要科技公司为减轻人们对人工智能的担忧而宣布的几种方法之一。该公司表示："尽管这些风险超出了现有模型的能力范围，但我们希望实施和改进该框架将有助于我们做好应对这些风险的准备。"DeepMind 开发人工智能模型"预警"系统已有一年多时间。它还发表了关于评估模型的新方法的论文，这些方法远远超出了目前大多数公司所使用的方法。前沿模型框架将这些进展纳入一套简洁的协议中，包括对模型的持续评估，以及研究人员在发现所谓"临界能力水平"时应采取的缓解方法。这可能是指模型能够通过操纵人类对其施加意志，在人工智能研究领域被称为"超常代理"，也可能是指模型具有编写复杂恶意软件的能力。DeepMind 为四个领域设定了具体的关键能力级别：自主、生物安全、网络安全和机器学习研发。该公司表示："在降低风险与促进获取和创新之间取得最佳平衡，对于负责任地发展人工智能至关重要。"DeepMind 将于下周在首尔举行的人工智能安全峰会上讨论该框架，届时其他行业领袖也将出席。令人鼓舞的是，DeepMind 的人工智能研究人员正在用更科学的方法确定人工智能模型内部发生了什么，尽管他们还有很长的路要走。研究人员在能力方面取得突破的同时，也在提高他们理解并最终控制这些软件的能力，这对人工智能安全也很有帮助。不过，今天发布的论文对如何进行这些评估的技术细节着墨不多。就目前而言，可以说我们还不知道目前的技术是否能让这个框架取得成功。这其中还有一个有趣的监管因素。由加州参议员斯科特-维纳（Scott Wiener）发起的一项新的人工智能综合法案将要求人工智能公司在训练模型之前对其危险性进行评估。这个框架是目前看到的第一个可能使遵守该法律成为可能的框架。但同样还不清楚技术上是否可行。还有一点：构建这些技术还有另一种用途：它可以帮助公司预测人工智能模型的能力在未来数月或数年内会发生怎样的变化。这些知识可以帮助产品团队更快地设计出新产品，从而为Google和其他有能力进行这些评估的公司带来优势。了解更多： ... PC版：手机版：

Google Brain 将与 DeepMind 合并为 Google DeepMind

Google Brain 将与 DeepMind 合并为 Google DeepMind 今天，谷歌了Google DeepMind，这是一个由DeepMind团队和Google Research的Google Brain团队组成的新部门。在一篇中，DeepMind联合创始人兼首席执行官Demis Hassabis表示，Google DeepMind将“密切合作......跨谷歌产品领域“，以”提供人工智能研究和产品”。来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Google的秘密AI模型未来很可能在难题数学领域打败人类

Google的秘密AI模型未来很可能在难题数学领域打败人类上周，双子座人工智能模型的最新技术报告公布了其最新数学成绩的详细信息。这份相当厚重的文件显示，Google打算模仿数学家接受的训练来解决复杂的问题，为了实现这一目标，该公司对其双子座人工智能模型进行了专门的变体训练。Gemini 1.5 Pro 的数学变体似乎经过了多项基准测试。根据其文件，Google依靠各种基准来评估其最新人工智能数学模型的输出。这些基准包括 MATH 基准、美国数学邀请考试 (American Invitational Mathematics Examination, AIME) 和Google内部的 HiddenMath 基准。根据Google的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现"与人类专家的表现相当"，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多，在其他基准测试中的得分也有所提高。Google还举例说明了 Gemini 1.5 Pro 所解决的问题。根据该文件，这些问题是"Gemini 1.5 Pro、GPT-4 Turbo 和以前所有 Gemini 型号都没有正确解决的问题"，最终提高了Google产品的性能标准。在它分享的三个示例中，两个是由数学专用的 Gemini 1.5 Pro 解决的，而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式，并依靠它们的分段和其他数学规则得出正确答案。除了问题之外，Google还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明，在所有五项基准测试成绩中，Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。据Google公司称，其数学专用变体能够"从单个样本中获得 80.6% 的 MATH 基准准确率，在对 256 个解决方案进行采样并选择一个候选答案时（rm@256），准确率达到91.1%"，这一成就使其与人类专家处于同等水平。事实上，根据Google深度思维首席科学家杰夫-迪恩（Jeff Dean）的说法，数学模型91.1%的得分大大高于三年前仅为6.9%的"SOTA"（最先进水平）得分。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人