Google的秘密AI模型未来很可能在难题数学领域打败人类
Google的秘密AI模型未来很可能在难题数学领域打败人类上周,双子座人工智能模型的最新技术报告公布了其最新数学成绩的详细信息。这份相当厚重的文件显示,Google打算模仿数学家接受的训练来解决复杂的问题,为了实现这一目标,该公司对其双子座人工智能模型进行了专门的变体训练。Gemini1.5Pro的数学变体似乎经过了多项基准测试。根据其文件,Google依靠各种基准来评估其最新人工智能数学模型的输出。这些基准包括MATH基准、美国数学邀请考试(AmericanInvitationalMathematicsExamination,AIME)和Google内部的HiddenMath基准。根据Google的数据,数学型Gemini1.5Pro在数学基准测试中的表现"与人类专家的表现相当",与标准的非数学型Gemini1.5Pro相比,数学型Gemini1.5Pro在AIME基准测试中解决的问题明显增多,在其他基准测试中的得分也有所提高。Google还举例说明了Gemini1.5Pro所解决的问题。根据该文件,这些问题是"Gemini1.5Pro、GPT-4Turbo和以前所有Gemini型号都没有正确解决的问题",最终提高了Google产品的性能标准。在它分享的三个示例中,两个是由数学专用的Gemini1.5Pro解决的,而一个是由标准的Gemini1.5Pro变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确答案。除了问题之外,Google还分享了Gemini1.5Pro基准测试的重要细节。这些数据表明,在所有五项基准测试成绩中,Gemini1.5Pro都领先于GPT-4Turbo和亚马逊的Claude。据Google公司称,其数学专用变体能够"从单个样本中获得80.6%的MATH基准准确率,在对256个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到91.1%",这一成就使其与人类专家处于同等水平。事实上,根据Google深度思维首席科学家杰夫-迪恩(JeffDean)的说法,数学模型91.1%的得分大大高于三年前仅为6.9%的"SOTA"(最先进水平)得分。...PC版:https://www.cnbeta.com.tw/articles/soft/1431652.htm手机版:https://m.cnbeta.com.tw/view/1431652.htm