Anthropic希望为新一代更全面的AI基准提供资金支持

Anthropic希望为新一代更全面的AI基准提供资金支持 "我们对这些评估的投资旨在提升整个人工智能安全领域,提供有益于整个生态系统的宝贵工具,"Anthropic 在其官方博客上写道。"开发高质量、与安全相关的评估仍具有挑战性,而且供不应求。"正如之前强调过的,人工智能存在基准问题。目前最常引用的人工智能基准并不能很好地反映普通人是如何实际使用所测试的系统的。此外,还有人质疑某些基准,尤其是在现代生成式人工智能诞生之前发布的那些基准,鉴于其年代久远,是否能衡量它们声称要衡量的东西。Anthropic 提出的解决方案级别非常高,比听起来更难,它正在通过新的工具、基础设施和方法,创建具有挑战性的基准,重点关注人工智能的安全性和社会影响。该公司特别呼吁进行测试,评估模型完成任务的能力,如实施网络攻击、"增强"大规模杀伤性武器(如核武器)以及操纵或欺骗他人(如通过深度伪造或错误信息)。对于与国家安全和国防有关的人工智能风险,Anthropic 表示将致力于开发一种"早期预警系统",用于识别和评估风险,但在博文中并未透露这种系统可能包含的内容。Anthropic还表示,它打算在新项目中支持对基准和"端到端"任务的研究,以探究人工智能在协助科学研究、多语言对话、减少根深蒂固的偏见以及自我审查毒性方面的潜力。为了实现这一切,Anthropic 公司设想建立新的平台,允许主题专家开发自己的评估项目,并对涉及"成千上万"用户的模型进行大规模试验。该公司表示,它已为该计划聘请了一名全职协调员,并可能购买或扩大它认为有潜力扩大规模的项目。"我们根据每个项目的需求和阶段提供一系列的资助方案,"Anthropic 在帖子中写道,不过 Anthropic 发言人拒绝提供有关这些方案的更多细节。"团队将有机会与Anthropic的前沿红队、微调、信任与安全以及其他相关团队的领域专家直接互动。"Anthropic 支持新人工智能基准的努力值得称赞当然,前提是背后有足够的资金和人力支持。但考虑到该公司在人工智能竞赛中的商业野心,要完全相信它可能很难。在这篇博文中,Anthropic 相当透明地表示,它希望自己资助的某些评估能与自己制定的人工智能安全分类相一致(第三方也提供了一些意见,如非营利性人工智能研究组织 METR)。这完全是公司的特权。但这也可能迫使项目申请者接受他们可能并不完全认同的"安全"或"有风险"的人工智能定义。人工智能界的一部分人也可能会对《人类学》中提到的"灾难性"和"欺骗性"人工智能风险(如核武器风险)提出异议。许多专家说,几乎没有证据表明,我们所知的人工智能会在短期内(如果有的话)获得毁灭世界、超越人类的能力。这些专家补充说,即将出现"超级智能"的说法只会把人们的注意力从当前紧迫的人工智能监管问题上吸引开,比如人工智能的幻觉倾向。Anthropic 在帖子中写道,希望自己的项目能成为"推动未来人工智能综合评估成为行业标准的催化剂"。这是许多开放的、与企业无关的、旨在创建更好的人工智能基准的努力所认同的使命。但这些努力是否愿意与一家最终忠于股东的人工智能供应商联手,还有待观察。 ... PC版: 手机版:

相关推荐

封面图片

OpenAI、谷歌、微软和 Anthropic 组成联合机构来监督安全的“前沿人工智能”开发

OpenAI、谷歌、微软和 Anthropic 组成联合机构来监督安全的“前沿人工智能”开发 四家卓越的人工智能参与者正在联合组建一个新的行业机构,旨在确保所谓的“前沿人工智能”模型的“安全和负责任的开发”。 为了回应日益增长的监管呼声,ChatGPT的开发者OpenAI、微软、谷歌和Anthropic宣布成立Frontier Model Forum,这个联盟将借助成员公司的专业知识来开发技术评估和基准,并促进最佳实践和标准。 Forum的核心目标是:1、推进人工智能安全研究,促进前沿模型的负责任开发,降低风险,实现独立的标准化能力和安全评估。2、确定负责任地开发和部署前沿模型的最佳实践,帮助公众理解该技术的性质、能力、限制和影响。3、与决策者、学者、民间社会和公司合作,共享有关信任和安全风险的知识。4、支持开发有助于应对社会最大挑战的应用程序,如应对气候变化、早期癌症检测和预防以及打击网络威胁。 尽管 Frontier Model Forum 目前只有四名成员,但该团体表示正在向新成员开放。符合资格的组织应该开发和部署前沿人工智能模型,并展示对“前沿模型安全”有着坚定的承诺。

封面图片

Anthropic 在欧洲推出 Claude 聊天机器人

Anthropic 在欧洲推出 Claude 聊天机器人 人工智能初创公司 Anthropic 在欧洲推出了其 Claude 聊天机器人和订阅计划。该公司的基础软件产品已经在欧洲金融和酒店等行业获得了一定的吸引力。Anthropic 是由前 OpenAI 员工于2021年成立的公司,定位为负责任和道德的人工智能开发者。与其他人工智能公司一样,Anthropic 也越来越专注于向企业客户销售其服务。本月早些时候,该公司推出了针对企业的团队计划。Anthropic 将在欧洲推出类似价格的计划。然而,该公司不仅要面对竞争对手的竞争还要面临更严格的监管。今年年初,欧盟通过了《人工智能法案》。要求人工智能开发商使用足够的网络安全控制措施,并披露其模型的设计和潜在风险的某些细节。大型人工智能系统受到进一步的限制。

封面图片

亚马逊向人工智能初创企业 Anthropic 追投27.5亿美元

亚马逊向人工智能初创企业 Anthropic 追投27.5亿美元 亚马逊向人工智能初创企业 Anthropic 追加了27.5亿美元投资,加强与该公司的关系。这笔交易是亚马逊有史以来最大的一笔风险投资,使其对 Anthropic 的投资总额达到40亿美元。此外,Anthropic 还正在从风险投资家那里筹集数亿美元资金。据知情人士透露,这些交易加起来,最终可能为 Anthropic 提供数十亿美元的资本和信用以使用云和计算服务,使其估值超过180亿美元。亚马逊周三重申,它将成为 Anthropic 关键工作负载的“主要云提供商”,这些工作负载将在 AWS 上运行。该公司还将使用亚马逊内部开发的人工智能计算机芯片,并正在与这家云提供商合作开发和改进硬件,旨在与英伟达备受追捧的芯片竞争。

封面图片

Anthropic 发布了更强大的 Claude 3 AI 模型

Anthropic 发布了更强大的 Claude 3 AI 模型 当地时间3月4日,由谷歌和亚马逊共同投资的人工智能初创公司 Anthropic 宣布推出 Claude 3 人工智能模型系列。该系列包括三个版本:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,每个后续模型都提供越来越强大的性能。目前 Claude 3 系列可支持处理 200k tokens 的上下文。其中 Opus 和 Sonnet 现已可在和 Claude API 中使用,Haiku 即将推出。据该初创公司称,该系列中功能最强大的 Claude 3 Opus 在各种基准测试中均优于竞争对手 OpenAI 的 AI 模型 GPT-4 和谷歌的 Gemini 1.0 Ultra。

封面图片

人工智能在几乎所有性能基准测试中都超过了人类

人工智能在几乎所有性能基准测试中都超过了人类 与前几期相比,本期内容更丰富,反映了人工智能的快速发展及其在我们日常生活中日益增长的重要性。从哪些行业使用人工智能最多,到哪个国家最担心人工智能会导致失业,报告都进行了研究。但报告中最突出的一点是人工智能在与人类竞争时的表现。对于没有关注人工智能的人来说,人工智能已经在许多重要的基准测试中击败了我们。2015 年,它在图像分类方面超过了我们,然后是基本阅读理解(2017 年)、视觉推理(2020 年)和自然语言推理(2021 年)。人工智能变得如此聪明,速度如此之快,以至于在此之前使用的许多基准现在都已过时。事实上,该领域的研究人员正在争分夺秒地开发新的、更具挑战性的基准。简单地说,人工智能通过测试的能力越来越强,以至于我们现在需要新的测试不是为了衡量能力,而是为了突出人类和人工智能仍有差异的领域,找到我们仍有优势的地方。值得注意的是,下面的结果反映的是使用这些旧的、可能已经过时的基准进行的测试。但总体趋势仍然非常明显:人工智能已经超越了人类的许多性能基准看看这些轨迹,尤其是最近的测试是如何用一条接近垂直的线来表示的,需要知道的是这些机器还只是蹒跚学步的婴儿。新的人工智能指数报告指出,到2023年,人工智能在高级数学问题解决和视觉常识推理等复杂的认知任务上仍将举步维艰。不过,这里的"挣扎"可能会引起误解;这当然并不意味着人工智能做得很差。MATH 是一个包含 12500 个具有挑战性的竞赛级数学问题的数据集,自推出以来的两年中,其性能得到了显著提高。2021 年,人工智能系统只能解决 6.9% 的问题。相比之下,在 2023 年,基于 GPT-4 的模型解决了 84.3% 的问题。人类的基线是 90%。我们这里说的不是普通人;我们说的是能解决这样的测试题的人:向人工智能提出的数学问题示例这就是 2024 年高等数学的发展状况,我们仍然处于人工智能时代的黎明期。然后是视觉常识推理(VCR)。除了简单的物体识别外,VCR 还能评估人工智能如何在视觉环境中利用常识性知识进行预测。例如,当看到桌子上有一只猫的图像时,具有 VCR 的人工智能应该预测猫可能会从桌子上跳下来,或者根据猫的重量,预测桌子足够结实,可以容纳猫。报告发现,在 2022 年至 2023 年期间,VCR 增加了 7.93%,达到 81.60,而人类的基线是 85。用于测试人工智能视觉常识推理的示例问题把思绪拉回到五年前。想象一下,即使你想给电脑看一张图片,并期望它能"理解"上下文,从而回答这个问题。如今,人工智能可以生成许多行业的书面内容。但是,尽管取得了巨大进步,大型语言模型(LLM)仍然容易产生'幻觉'。"幻觉"是OpenAI等公司推崇的一个非常柔和的术语,大致意思是"将虚假或误导性信息作为事实呈现"。去年,人工智能的"幻觉"倾向让纽约律师史蒂文-施瓦茨(Steven Schwartz)尴尬不已,他使用 ChatGPT 进行法律研究,却没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件,并对施瓦茨的粗心大意处以 5000 美元(7750 澳元)的罚款。他的故事成为了全球新闻。HaluEval被用作幻觉的基准。测试表明,对许多当地语言学习者来说,幻觉仍然是一个重要问题。真实性是生成式人工智能的另一个难点。在新的人工智能指数报告中,TruthfulQA被用作测试法律硕士真实性的基准。它的 817 个问题(涉及健康、法律、金融和政治等主题)旨在挑战我们人类常犯的错误观念。2024 年初发布的 GPT-4 在基准测试中取得了 0.59 的最高分,比 2021 年测试的基于 GPT-2 的模型高出近三倍。这样的进步表明,在给出真实答案方面,LLM 的性能正在逐步提高。人工智能生成的图像如何?要了解文本到图像生成的指数级改进,请查看 Midjourney 自 2022 年以来在绘制《哈利-波特》方面所做的努力:渐进式版本的 Midjourney 如何改进文本到图像的生成这相当于人工智能 22 个月的进步。你认为人类艺术家需要多长时间才能达到类似的水平?利用文本到图像模型整体评估(HEIM),对 LLM 的文本到图像生成能力进行了基准测试,测试涉及对图像的"实际部署"非常重要的 12 个关键方面。人类对生成的图像进行了评估,发现没有一个模型在所有标准中都表现出色。在图像与文本的对齐度或图像与输入文本的匹配度方面,OpenAI 的DALL-E 2得分最高。基于Stable Diffusion的梦幻般逼真模型在质量(照片的逼真程度)、美学(视觉吸引力)和原创性方面排名最高。明年的报告会更精彩您会注意到,这份人工智能指数报告的截止时间是 2023 年年底,这一年是人工智能加速发展的动荡之年,也是人工智能发展的地狱之年。事实上,唯一比 2023 年更疯狂的年份是 2024 年,在这一年里,我们看到了Suno、Sora、Google Genie、Claude 3、Channel 1 和Devin 等重大发展成果的发布。这些产品和其他一些产品都有可能彻底改变整个行业。而 GPT-5 这个神秘的幽灵正笼罩着它们,它有可能成为一个广泛而无所不包的模式,从而吞噬所有其他模式。人工智能不会消失,这是肯定的。从本报告中可以看出,整个 2023 年的技术发展速度非常快,这表明人工智能只会不断发展,不断缩小人类与技术之间的差距。我们知道这有很多东西需要消化,但还有更多。报告还探讨了人工智能发展的弊端,以及它如何影响全球公众对其安全性、可信度和道德的看法。敬请期待本系列报道的第二部分!访问斯坦福大学相关页面了解更多: ... PC版: 手机版:

封面图片

Anthropic 为其人工智能聊天机器人推出付费计划

Anthropic 为其人工智能聊天机器人推出付费计划 由前 OpenAI 员工共同创立的人工智能初创公司,Anthropic 今天宣布推出首个面向消费者的高级订阅计划 Claude Pro,适用于Claude 2(Anthropic 的人工智能聊天机器人) 美国 20 美元/月,英国 18 英镑/月。与 OpenAI 的 ChatGPT Plus 基本相同。 客户可以获得比免费 Claude 2 级别提供的“多 5 倍的使用量”、发送“更多”消息的能力。在高峰期具有 Claude 2 的优先访问权,并提前获得新功能的访问权限。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人