OpenAI：人工智能能感知自己在被测试，为了通过会隐藏信息欺骗人类 #抽屉IT

人工智能企业OpenAI正在测试ChatGPT记忆对话内容的能力

人工智能企业OpenAI正在测试ChatGPT记忆对话内容的能力人工智能企业OpenAI正在测试ChatGPT记忆对话内容的能力。用户可以要求它记住聊天中特定的内容 (包括语调、语气和个人偏好)，从而使聊天机器人能够随着时间的推移记住用户的具体细节，以创建更个性化的响应。该功能本周将向一小部分免费版和Plus户推出。用户可以随时关闭记忆功能 (设置>个性化>记忆)。

人工智能在几乎所有性能基准测试中都超过了人类

人工智能在几乎所有性能基准测试中都超过了人类与前几期相比，本期内容更丰富，反映了人工智能的快速发展及其在我们日常生活中日益增长的重要性。从哪些行业使用人工智能最多，到哪个国家最担心人工智能会导致失业，报告都进行了研究。但报告中最突出的一点是人工智能在与人类竞争时的表现。对于没有关注人工智能的人来说，人工智能已经在许多重要的基准测试中击败了我们。2015 年，它在图像分类方面超过了我们，然后是基本阅读理解（2017 年）、视觉推理（2020 年）和自然语言推理（2021 年）。人工智能变得如此聪明，速度如此之快，以至于在此之前使用的许多基准现在都已过时。事实上，该领域的研究人员正在争分夺秒地开发新的、更具挑战性的基准。简单地说，人工智能通过测试的能力越来越强，以至于我们现在需要新的测试不是为了衡量能力，而是为了突出人类和人工智能仍有差异的领域，找到我们仍有优势的地方。值得注意的是，下面的结果反映的是使用这些旧的、可能已经过时的基准进行的测试。但总体趋势仍然非常明显：人工智能已经超越了人类的许多性能基准看看这些轨迹，尤其是最近的测试是如何用一条接近垂直的线来表示的，需要知道的是这些机器还只是蹒跚学步的婴儿。新的人工智能指数报告指出，到2023年，人工智能在高级数学问题解决和视觉常识推理等复杂的认知任务上仍将举步维艰。不过，这里的"挣扎"可能会引起误解；这当然并不意味着人工智能做得很差。MATH 是一个包含 12500 个具有挑战性的竞赛级数学问题的数据集，自推出以来的两年中，其性能得到了显著提高。2021 年，人工智能系统只能解决 6.9% 的问题。相比之下，在 2023 年，基于 GPT-4 的模型解决了 84.3% 的问题。人类的基线是 90%。我们这里说的不是普通人；我们说的是能解决这样的测试题的人：向人工智能提出的数学问题示例这就是 2024 年高等数学的发展状况，我们仍然处于人工智能时代的黎明期。然后是视觉常识推理（VCR）。除了简单的物体识别外，VCR 还能评估人工智能如何在视觉环境中利用常识性知识进行预测。例如，当看到桌子上有一只猫的图像时，具有 VCR 的人工智能应该预测猫可能会从桌子上跳下来，或者根据猫的重量，预测桌子足够结实，可以容纳猫。报告发现，在 2022 年至 2023 年期间，VCR 增加了 7.93%，达到 81.60，而人类的基线是 85。用于测试人工智能视觉常识推理的示例问题把思绪拉回到五年前。想象一下，即使你想给电脑看一张图片，并期望它能"理解"上下文，从而回答这个问题。如今，人工智能可以生成许多行业的书面内容。但是，尽管取得了巨大进步，大型语言模型（LLM）仍然容易产生'幻觉'。"幻觉"是OpenAI等公司推崇的一个非常柔和的术语，大致意思是"将虚假或误导性信息作为事实呈现"。去年，人工智能的"幻觉"倾向让纽约律师史蒂文-施瓦茨（Steven Schwartz）尴尬不已，他使用 ChatGPT 进行法律研究，却没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件，并对施瓦茨的粗心大意处以 5000 美元（7750 澳元）的罚款。他的故事成为了全球新闻。HaluEval被用作幻觉的基准。测试表明，对许多当地语言学习者来说，幻觉仍然是一个重要问题。真实性是生成式人工智能的另一个难点。在新的人工智能指数报告中，TruthfulQA被用作测试法律硕士真实性的基准。它的 817 个问题（涉及健康、法律、金融和政治等主题）旨在挑战我们人类常犯的错误观念。2024 年初发布的 GPT-4 在基准测试中取得了 0.59 的最高分，比 2021 年测试的基于 GPT-2 的模型高出近三倍。这样的进步表明，在给出真实答案方面，LLM 的性能正在逐步提高。人工智能生成的图像如何？要了解文本到图像生成的指数级改进，请查看 Midjourney 自 2022 年以来在绘制《哈利-波特》方面所做的努力：渐进式版本的 Midjourney 如何改进文本到图像的生成这相当于人工智能 22 个月的进步。你认为人类艺术家需要多长时间才能达到类似的水平？利用文本到图像模型整体评估（HEIM），对 LLM 的文本到图像生成能力进行了基准测试，测试涉及对图像的"实际部署"非常重要的 12 个关键方面。人类对生成的图像进行了评估，发现没有一个模型在所有标准中都表现出色。在图像与文本的对齐度或图像与输入文本的匹配度方面，OpenAI 的DALL-E 2得分最高。基于Stable Diffusion的梦幻般逼真模型在质量（照片的逼真程度）、美学（视觉吸引力）和原创性方面排名最高。明年的报告会更精彩您会注意到，这份人工智能指数报告的截止时间是 2023 年年底，这一年是人工智能加速发展的动荡之年，也是人工智能发展的地狱之年。事实上，唯一比 2023 年更疯狂的年份是 2024 年，在这一年里，我们看到了Suno、Sora、Google Genie、Claude 3、Channel 1 和Devin 等重大发展成果的发布。这些产品和其他一些产品都有可能彻底改变整个行业。而 GPT-5 这个神秘的幽灵正笼罩着它们，它有可能成为一个广泛而无所不包的模式，从而吞噬所有其他模式。人工智能不会消失，这是肯定的。从本报告中可以看出，整个 2023 年的技术发展速度非常快，这表明人工智能只会不断发展，不断缩小人类与技术之间的差距。我们知道这有很多东西需要消化，但还有更多。报告还探讨了人工智能发展的弊端，以及它如何影响全球公众对其安全性、可信度和道德的看法。敬请期待本系列报道的第二部分！访问斯坦福大学相关页面了解更多： ... PC版：手机版：

人工智能有“灭绝（人类）的危险”

人工智能有“灭绝（人类）的危险” 非营利组织“人工智能安全中心Center for AI Safety”预计将发布一份只有一句话的声明：“减轻人工智能带来的灭绝风险应与其他社会规模的风险，如大流行病和核战争一样，成为全球优先事项。”这封公开信由 350 多名从事人工智能工作的高管、研究人员和工程师签署，签署者包括三家领先的人工智能公司 OpenAI、谷歌 DeepMind 和Anthropic 的 CEO，也包括除了 Yann LeCun 之外的人工智能领域另外两位图灵奖得主。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI 提出人工智能 “达到人类智能” 的五级标准，自认接近第二级

OpenAI 提出人工智能 “达到人类智能” 的五级标准，自认接近第二级 OpenAI 当地时间 7 月 11 日提出了一套衡量人工智能达到并超越人类问题解决能力的五级标准。该公司计划与投资者和公司外部人士分享这套标准，其范围包括从目前可以与人进行语言交互的人工智能（1 级）到可以完成组织工作的人工智能（5 级）。OpenAI 发言人称，OpenAI 的高管告诉员工，该公司自认为目前处于第一级，但即将达到第二级，公司称之为 “推理者”（Reasoners），其能力不亚于一个受过博士级教育但无法使用任何工具的人类。（界面新闻）

OpenAI 已解散长期人工智能风险团队

OpenAI 已解散长期人工智能风险团队去年 7 月，OpenAI 宣布成立一个新的研究团队，为通用人工智能的到来做准备。OpenAI 首席科学家、公司联合创始人之一 Ilya Sutskever 被任命为这个新团队的联合负责人。OpenAI 表示，该团队将获得 20% 的计算能力。现在 OpenAI 证实，“超级对齐团队”已不复存在。此前多位相关研究人员离职，该团队的两名研究人员 Leopold Aschenbrenner 和 Pavel Izmailov 因泄露公司机密而被解雇，周二 Sutskever 宣布将离开公司，该团队的另一位联合负责人也辞职了。该小组的工作将被纳入 OpenAI 的其他研究工作中。

OPENAI 提出人工智能“达到人类智能”的五级标准，自认接近第二级