人工智能在几乎所有性能基准测试中都超过了人类

人工智能在几乎所有性能基准测试中都超过了人类与前几期相比，本期内容更丰富，反映了人工智能的快速发展及其在我们日常生活中日益增长的重要性。从哪些行业使用人工智能最多，到哪个国家最担心人工智能会导致失业，报告都进行了研究。但报告中最突出的一点是人工智能在与人类竞争时的表现。对于没有关注人工智能的人来说，人工智能已经在许多重要的基准测试中击败了我们。2015 年，它在图像分类方面超过了我们，然后是基本阅读理解（2017 年）、视觉推理（2020 年）和自然语言推理（2021 年）。人工智能变得如此聪明，速度如此之快，以至于在此之前使用的许多基准现在都已过时。事实上，该领域的研究人员正在争分夺秒地开发新的、更具挑战性的基准。简单地说，人工智能通过测试的能力越来越强，以至于我们现在需要新的测试不是为了衡量能力，而是为了突出人类和人工智能仍有差异的领域，找到我们仍有优势的地方。值得注意的是，下面的结果反映的是使用这些旧的、可能已经过时的基准进行的测试。但总体趋势仍然非常明显：人工智能已经超越了人类的许多性能基准看看这些轨迹，尤其是最近的测试是如何用一条接近垂直的线来表示的，需要知道的是这些机器还只是蹒跚学步的婴儿。新的人工智能指数报告指出，到2023年，人工智能在高级数学问题解决和视觉常识推理等复杂的认知任务上仍将举步维艰。不过，这里的"挣扎"可能会引起误解；这当然并不意味着人工智能做得很差。MATH 是一个包含 12500 个具有挑战性的竞赛级数学问题的数据集，自推出以来的两年中，其性能得到了显著提高。2021 年，人工智能系统只能解决 6.9% 的问题。相比之下，在 2023 年，基于 GPT-4 的模型解决了 84.3% 的问题。人类的基线是 90%。我们这里说的不是普通人；我们说的是能解决这样的测试题的人：向人工智能提出的数学问题示例这就是 2024 年高等数学的发展状况，我们仍然处于人工智能时代的黎明期。然后是视觉常识推理（VCR）。除了简单的物体识别外，VCR 还能评估人工智能如何在视觉环境中利用常识性知识进行预测。例如，当看到桌子上有一只猫的图像时，具有 VCR 的人工智能应该预测猫可能会从桌子上跳下来，或者根据猫的重量，预测桌子足够结实，可以容纳猫。报告发现，在 2022 年至 2023 年期间，VCR 增加了 7.93%，达到 81.60，而人类的基线是 85。用于测试人工智能视觉常识推理的示例问题把思绪拉回到五年前。想象一下，即使你想给电脑看一张图片，并期望它能"理解"上下文，从而回答这个问题。如今，人工智能可以生成许多行业的书面内容。但是，尽管取得了巨大进步，大型语言模型（LLM）仍然容易产生'幻觉'。"幻觉"是OpenAI等公司推崇的一个非常柔和的术语，大致意思是"将虚假或误导性信息作为事实呈现"。去年，人工智能的"幻觉"倾向让纽约律师史蒂文-施瓦茨（Steven Schwartz）尴尬不已，他使用 ChatGPT 进行法律研究，却没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件，并对施瓦茨的粗心大意处以 5000 美元（7750 澳元）的罚款。他的故事成为了全球新闻。HaluEval被用作幻觉的基准。测试表明，对许多当地语言学习者来说，幻觉仍然是一个重要问题。真实性是生成式人工智能的另一个难点。在新的人工智能指数报告中，TruthfulQA被用作测试法律硕士真实性的基准。它的 817 个问题（涉及健康、法律、金融和政治等主题）旨在挑战我们人类常犯的错误观念。2024 年初发布的 GPT-4 在基准测试中取得了 0.59 的最高分，比 2021 年测试的基于 GPT-2 的模型高出近三倍。这样的进步表明，在给出真实答案方面，LLM 的性能正在逐步提高。人工智能生成的图像如何？要了解文本到图像生成的指数级改进，请查看 Midjourney 自 2022 年以来在绘制《哈利-波特》方面所做的努力：渐进式版本的 Midjourney 如何改进文本到图像的生成这相当于人工智能 22 个月的进步。你认为人类艺术家需要多长时间才能达到类似的水平？利用文本到图像模型整体评估（HEIM），对 LLM 的文本到图像生成能力进行了基准测试，测试涉及对图像的"实际部署"非常重要的 12 个关键方面。人类对生成的图像进行了评估，发现没有一个模型在所有标准中都表现出色。在图像与文本的对齐度或图像与输入文本的匹配度方面，OpenAI 的DALL-E 2得分最高。基于Stable Diffusion的梦幻般逼真模型在质量（照片的逼真程度）、美学（视觉吸引力）和原创性方面排名最高。明年的报告会更精彩您会注意到，这份人工智能指数报告的截止时间是 2023 年年底，这一年是人工智能加速发展的动荡之年，也是人工智能发展的地狱之年。事实上，唯一比 2023 年更疯狂的年份是 2024 年，在这一年里，我们看到了Suno、Sora、Google Genie、Claude 3、Channel 1 和Devin 等重大发展成果的发布。这些产品和其他一些产品都有可能彻底改变整个行业。而 GPT-5 这个神秘的幽灵正笼罩着它们，它有可能成为一个广泛而无所不包的模式，从而吞噬所有其他模式。人工智能不会消失，这是肯定的。从本报告中可以看出，整个 2023 年的技术发展速度非常快，这表明人工智能只会不断发展，不断缩小人类与技术之间的差距。我们知道这有很多东西需要消化，但还有更多。报告还探讨了人工智能发展的弊端，以及它如何影响全球公众对其安全性、可信度和道德的看法。敬请期待本系列报道的第二部分！访问斯坦福大学相关页面了解更多： ... PC版：手机版：

在Telegram中查看

相关推荐

《人工 X 智能》| 简介：人工 X 智能可能讲述了人工智能在发展过程中引发的一系列故事。也许是人工智能拥有了自主意识，与人类

《人工 X 智能》| 简介：人工 X 智能可能讲述了人工智能在发展过程中引发的一系列故事。也许是人工智能拥有了自主意识，与人类产生了情感纠葛或利益冲突；也可能是人类利用人工智能解决各种问题，但却面临着新的挑战和危机。影片围绕人工智能这一主题，探讨科技与人类的关系，以及科技发展对社会和人类生活的影响。| 文件大小 NG | 链接： |标签： #人工 X 智能 #人工智能 #科技人类 #社会影响

《人工 X 智能》简介：人工 X 智能可能讲述人类与人工智能之间的故事，或许人工智能产生了自我意识，与人类之间发生了情感纠葛、

《人工 X 智能》简介：人工 X 智能可能讲述人类与人工智能之间的故事，或许人工智能产生了自我意识，与人类之间发生了情感纠葛、利益冲突或合作探索。影片探讨人工智能对人类社会的影响以及人与人工智能的未来关系，充满科幻色彩文件大小 NG 标签：#人工 X 智能#科幻伦理电影#人工智能题材评论区查看资源

英伟达CEO黄仁勋：通用人工智能可能在五年内到来

英伟达CEO黄仁勋：通用人工智能可能在五年内到来美东时间 3 月 1 日，英伟达 CEO 黄仁勋在参加 2024 年斯坦福经济政策研究所峰会时表示，“按照某些定义，通用人工智能（AGI）可能在短短五年内到来。” 黄仁勋在活动中被问到“创造出能像人类一样思考的计算机需要多久”这一问题，他回答说，答案很大程度取决于“如何定义”。若对于上述计算机的定义是“能够通过人类测试”，那么通用人工智能将很快到来。就目前而言，人工智能可以通过诸如法律考试等测试，但在专业医学测试（如胃肠病学）上仍然存在困难。黄仁勋认为，五年后，AI 有望能通过“任何一项测试”。黄仁勋同时表示，“很难让 AI 成为一名工程师”，要实现更高要求的通用人工智能“可能仍会很难”，对此他给出的理由是科学家在“如何描述人类思维的工作方式”方面仍存分歧。通用人工智能（AGI）又称“强人工智能”，指的是人工智能可以像人类一样学习和推理，有可能解决复杂的问题并独立做出决策。但目前仍没有公认的人类智能定义，不同领域科学家对通用人工智能的定义和标准也各不相同。来源，频道：@kejiqu 群组：@kejiquchat

《人类心理3000年：从荷马史诗到人工智能》

《人类心理3000年：从荷马史诗到人工智能》简介：人类心理3000年：从荷马史诗到人工智能是一本围绕其核心主题展开的深刻探索之作，书中详细讨论了与其主题相关的各类观点与现实应用，带给读者全新的思考视角。这本书为那些想深入了解相关领域的读者提供了充实的内容，值得一读。更多详情请访问相关链接。标签： #人类心#人类心理3000年：从荷马史诗到人工智能#书籍文件大小：NG 链接：https://pan.quark.cn/s/6aab4575af50

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源，如书籍、文章、照片等，这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容，一个明显的问题出现了：当人工智能生成的内容在互联网上扩散时，人工智能模型开始对其进行训练。研究人员发现，“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布，得出结论：“从其他模型产生的数据中学习会导致模型崩溃这是一个退化的过程，并且随着时间的推移，模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快：模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移，表现越来越差，错误越来越多。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

斯坦福大学发布人工智能状况报告

斯坦福大学发布人工智能状况报告虽然现在人工智能发展之快，让任何与人工智能有关的报告一发布就面临过期的风险，但是我们仍然能从这份 386 页的中得到一些有用的信息： ·在过去的十年里，人工智能的发展已经从学术界主导翻转到了工业界主导，而且这没有改变的迹象。 ·在传统基准上测试模型正变得困难，这里可能需要一种新的模式。 ·人工智能训练和使用的能源占用正在变得相当大，但我们还没有看到它如何在其他地方增加效率。 ·与人工智能相关的技能和工作岗位正在增加，但没有你想象的那么快。 ·政策制定者们正在努力编写一个明确的人工智能法案，如果有的话，这是一个愚蠢的差事。 ·投资已经暂时停滞，但这是在过去十年的天文数字般的增长之后。 ·超过 70% 的中国、沙特和印度受访者认为人工智能的好处多于坏处。美国人呢？35%。来源，，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人