给炒作泼盆冷水:人工智能正在遭遇一道难以逾越的天花板

给炒作泼盆冷水:人工智能正在遭遇一道难以逾越的天花板 访问:Saily - 使用eSIM实现手机全球数据漫游 安全可靠 源自NordVPN 过去几个月,对人工智能的炒作已经到了疯狂的地步。什么特斯拉在一两年内就要实现全自动驾驶了,人工智能明年将会变得比人类更聪明了,到 2040 年会有十亿台人工智能机器人取代人类工人了,这些还只是埃隆·马斯克今年迄今为止对人工智能许下的海口之一。整个人工智能圈都充斥着这样的预测和承诺,给人感觉人工智能的发展已走上不可阻挡的指数轨迹曲线上,已经到了我们人类根本无法阻止的地步。但是事实并非如此。要我说,人工智能正开始触碰到收益递减的发展天花板,从而令这些夸张的承诺变成一张废纸。下面我会解释的。要想理解这个问题,我们得先了解一点人工智能的基本工作原理。现代人工智能运用的是深度学习算法与人工神经网络,借此来发现数据当中的趋势。然后,人工智能就可以根据这些数据推断或沿着同一趋势线生成新的数据。这首先需要“训练”人工智能,将大量数据喂给它进行分析,让它去发现这些趋势。之后,你就可以抛问题给人工智能来获得输出。这个基本概念为计算机视觉、自动驾驶汽车、聊天机器人以及生成式人工智能提供了动力。这个解释有点简化了,但现在我们只需要了解这些就够了。过去几年,人工智能的能力有了显著增强。这部分要归功于有了更好的编程和算法。但 90% 要归功于用了更大的数据集对人工智能进行训练。从而使得人工智能可以更准确地了解数据趋势,从而更准确地生成结果。但有个问题:我们正目睹相对于所需的数据和算力,训练人工智能带来的回报正在急剧递减。我们先从数据讲起。假设我们开发了一个简单的计算机视觉人工智能,它可以识别出狗和猫,我们已经用 100 只狗和猫的图像和视频对其进行了训练,它可以在 60% 的时间内正确识别这些动物。如果我们将训练的图像和视频数量增加一倍,达到 200 个,其识别率就会提高,但只能略微提高到 65% 左右。如果我们再次将训练图像和视频增加一倍,达到 400 个,那么其改进将更加微乎其微,只能达到 67.5% 左右。这其中的部分原因在于,如果你手头的数据集比较小时,相对于较大的数据集,往里面添加一张新的训练图像,所提供的新数据会更多。不过,这也是因为人工智能处理小的数据集可以迅速建立新的连接与趋势,因为它只需找到适用于几个示例的趋势即可。但随着数据集的增长,找到对整个数据集都适用的新趋势和连接变得越来越难。这些来自较更大数据集的新趋势和连接让人工智能变得更好、能力更强。因此,随着训练人工智能的收益递减,我们看到将人工智能改进到一定程度所需要的训练数据量急剧增加。但这里面还有一个问题。训练人工智能对算力的需求非常大。人工智能必须将每个单独的数据点与数据集所有其他数据点进行比较,这样才能找到它们的关联和趋势。这意味着,每往人工智能训练数据库添加一位数据,用这个数据库训练人工智能所需的计算工作量都会呈指数级增长。因此,就算你有能力获取到训练这些不断改进的人工智能所需的大量数据,它所需的物理计算能力和能源最终也会增长到难以为继的地步。可悲的是,有证据表明,我们现在正处在这样一个阶段:一方面训练数据集扩大带来的回报在递减,一方面用所述数据集所需的算力又呈指数级增长,这些都会给人工智能的发展制造刚性的上限。就拿 OpenAI 的旗舰人工智能产品 ChatGPT4 来说吧,但它相对于 ChatGPT3 的改进要小于 ChatGPT3 相对于 ChatGPT2 的改进,尽管它的准确率提高了,但仍然存在跟 ChatGPT3 一样的幻觉与缺乏理解的问题。虽说OpenAI 对自己的人工智能开发方式守口如瓶,但专家调查发现,ChatGPT3 使用的训练数据集比 ChatGPT2 大了 78 倍,而ChatGPT4 所用的数据集比 ChatGPT3 要大 571 倍!可是,尽管训练数据集的大小有了显著提升, 但ChatGPT4 仍然存在重大缺陷,大大限制了它的使用场景。比方说,还是不能信任它能写出任何以事实为基础的东西,因为它仍然在编造事实。有人估计 ChatGPT4 的原始训练数据集有 45 TB 的纯文本。这意味着,下一次迭代要想取得 ChatGPT4 相对于 ChatGPT3 那样的巨大进步,训练数据集需要达数万 TB 之巨 。即便采用OpenAI 存疑的方法,获取和准备如此大量的纯文本数据也很不切实际。然而,就算真用这个数据集来训练人工智能也可能要消耗大量能源,大到这种成本令人工智能变得完全不可行的地步,那怕你是一家非营利组织也不可行。这么说并不夸张。 OpenAI 首席执行官山姆·阿尔特曼 (Sam Altman) 九层公开表示,先进的人工智能要想变得可行,需要能源技术取得突破,比如核聚变。可悲的是,就算我们确实实现了核聚变,在本世纪乃至下世纪这种技术也不太可能比我们目前的能源便宜。事实上,任何形式的能源都不会比我们目前所拥有的能源便宜得多。因此,针对人工智能能源问题提出的解决方案具有很大的误导性。这个观点得到了一些非常严肃的研究的支持。马萨诸塞大学阿默斯特分校曾做过一项研究,他们分析了将图像识别人工智能性能提高到准确率达 95% 以上所需的计算和能源成本。研究发现,训练这样一个模型将需要花费 1000 亿美元,其所产生的碳排放量相当于纽约市一个月的碳排放量。请记住,这是针对仍有 5% 的时间会出现灾难性错误的人工智能而言的。该研究还强调,将准确率提高到 99% 需要的成本和碳排放还会成倍增加。这就是为什么特斯拉永远不会用当前的方式开发全自动驾驶汽车的原因所在。他们的Autopilot和FSD只能通过这种人工智能计算机视觉来感知周围的世界,而FSD要想实现全自动驾驶,其图像识别精度需要接近100%的准确度。正如那项研究所表明那样,要想让特斯拉的人工智能变得那么好,其所需要的资金也许远非特斯拉能负担得起。换句话说,除非人工智能行业能够找到一种更高效的方法来提高训练人工智能以及计算负载的效率,否则就无法突破这个限制,然后人工智能的发展就将完全停滞。目前可能的解决方案即将出现,比方说结合了模拟与量子技术的更高效的人工智能硬件,以及需要训练数据集个更小的新的人工智能架构。不过,这些概念仍处在起步阶段,距离应用到现实世界可能还需要几十年的时间。简而言之,大家得有个心理准备,未来几年人工智能的发展肯能会大幅低于预期。 ... PC版: 手机版:

相关推荐

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃 用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃 这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

OpenAI 签署协议以 Reddit 数据训练人工智能

OpenAI 签署协议以 Reddit 数据训练人工智能 人工智能公司 OpenAI 已与 Reddit 达成协议,使用该社交新闻网站的数据来训练人工智能模型。OpenAI 表示,与 Reddit 的合作将使其能够访问 Reddit 上的“实时、结构化和独特内容” (例如帖子和回复),从而使其工具和模型能够“更好地理解和展示”这些内容。Reddit 的内容将被整合到 OpenAI 流行的对话式人工智能 ChatGPT 中,双方将合作为 Reddit 用户和版主带来未具体说明的新“人工智能功能”。OpenAI 也将成为 Reddit 的广告合作伙伴。

封面图片

【研究:ChatGPT推出后人工智能相关的加密货币资产呈上涨趋势】

【研究:ChatGPT推出后人工智能相关的加密货币资产呈上涨趋势】 德国汉堡区块链研究实验室的研究人员一项研究表明,OpenAI 推出 ChatGPT后,人工智能相关的加密货币资产呈上涨趋势。据研究人员称:尽管整个加密货币市场处于看跌状态,但ChatGPT的推出对人工智能相关加密资产的表现产生了重大影响。使用综合差分法,我们发现在发布后的一个月内人工智能相关加密资产平均价格上涨至少10.7%。”

封面图片

ChatGPT 所有者 OpenAI 推出工具来检测人工智能生成的文本

ChatGPT 所有者 OpenAI 推出工具来检测人工智能生成的文本 ================== “在我们对英语文本的‘挑战集’的评估中,我们的分类器正确地将 26% 的人工智能写的文本(真阳性)识别为‘可能是人工智能写的’,而将人类写的文本错误地标记为人工智能写的占 9%(假阳性),”OpenAI 员工写道 ======= 对抗训练是吧

封面图片

美国新法案要求人工智能公司披露受版权保护的训练数据

美国新法案要求人工智能公司披露受版权保护的训练数据 美国新法案将迫使科技公司披露用于训练其人工智能模型的任何受版权保护的数据。美国众议员 Adam Schiff (D-CA) 提出的生成人工智能版权披露法案将要求任何为人工智能制作训练数据集的人向版权登记处提交有关其内容的报告。报告应包含数据集中受版权保护的材料的详细摘要以及数据集的 URL (如果可公开获取)。此要求将扩展到对数据集所做的任何更改。公司必须在使用训练数据集的人工智能模型向公众发布之前“不迟于30天”提交报告。该法案不会追溯到现有的人工智能平台,除非其成为法律后对其训练数据集进行更改。

封面图片

苹果公司寻求Photobucket数十亿张图片的授权以训练人工智能模型

苹果公司寻求Photobucket数十亿张图片的授权以训练人工智能模型 生成式人工智能的兴起刺激了对多样化数据集的需求,而像 Photobucket 这样的公司能够提供大量的视觉数据,训练人工智能根据文本提示生成内容。在 ChatGPT 于 2022 年底推出后不久,苹果公司就与 Shutterstock 达成了数百万张图片的授权协议,据信这笔交易的价值在 2500 万美元到 5000 万美元之间。追求"道德来源"和合法明确的数据,标志着苹果与早先随意采集网络数据的做法不同。据报道,苹果公司准备在 6 月份的 WWDC 大会上展示iOS 18及其他主要软件更新所带来的一系列人工智能功能。相关文章:Shutterstock授权苹果公司使用数百万张图片来训练其人工智能模型 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人