给炒作泼盆冷水:人工智能正在遭遇一道难以逾越的天花板

给炒作泼盆冷水:人工智能正在遭遇一道难以逾越的天花板 访问:Saily - 使用eSIM实现手机全球数据漫游 安全可靠 源自NordVPN 过去几个月,对人工智能的炒作已经到了疯狂的地步。什么特斯拉在一两年内就要实现全自动驾驶了,人工智能明年将会变得比人类更聪明了,到 2040 年会有十亿台人工智能机器人取代人类工人了,这些还只是埃隆·马斯克今年迄今为止对人工智能许下的海口之一。整个人工智能圈都充斥着这样的预测和承诺,给人感觉人工智能的发展已走上不可阻挡的指数轨迹曲线上,已经到了我们人类根本无法阻止的地步。但是事实并非如此。要我说,人工智能正开始触碰到收益递减的发展天花板,从而令这些夸张的承诺变成一张废纸。下面我会解释的。要想理解这个问题,我们得先了解一点人工智能的基本工作原理。现代人工智能运用的是深度学习算法与人工神经网络,借此来发现数据当中的趋势。然后,人工智能就可以根据这些数据推断或沿着同一趋势线生成新的数据。这首先需要“训练”人工智能,将大量数据喂给它进行分析,让它去发现这些趋势。之后,你就可以抛问题给人工智能来获得输出。这个基本概念为计算机视觉、自动驾驶汽车、聊天机器人以及生成式人工智能提供了动力。这个解释有点简化了,但现在我们只需要了解这些就够了。过去几年,人工智能的能力有了显著增强。这部分要归功于有了更好的编程和算法。但 90% 要归功于用了更大的数据集对人工智能进行训练。从而使得人工智能可以更准确地了解数据趋势,从而更准确地生成结果。但有个问题:我们正目睹相对于所需的数据和算力,训练人工智能带来的回报正在急剧递减。我们先从数据讲起。假设我们开发了一个简单的计算机视觉人工智能,它可以识别出狗和猫,我们已经用 100 只狗和猫的图像和视频对其进行了训练,它可以在 60% 的时间内正确识别这些动物。如果我们将训练的图像和视频数量增加一倍,达到 200 个,其识别率就会提高,但只能略微提高到 65% 左右。如果我们再次将训练图像和视频增加一倍,达到 400 个,那么其改进将更加微乎其微,只能达到 67.5% 左右。这其中的部分原因在于,如果你手头的数据集比较小时,相对于较大的数据集,往里面添加一张新的训练图像,所提供的新数据会更多。不过,这也是因为人工智能处理小的数据集可以迅速建立新的连接与趋势,因为它只需找到适用于几个示例的趋势即可。但随着数据集的增长,找到对整个数据集都适用的新趋势和连接变得越来越难。这些来自较更大数据集的新趋势和连接让人工智能变得更好、能力更强。因此,随着训练人工智能的收益递减,我们看到将人工智能改进到一定程度所需要的训练数据量急剧增加。但这里面还有一个问题。训练人工智能对算力的需求非常大。人工智能必须将每个单独的数据点与数据集所有其他数据点进行比较,这样才能找到它们的关联和趋势。这意味着,每往人工智能训练数据库添加一位数据,用这个数据库训练人工智能所需的计算工作量都会呈指数级增长。因此,就算你有能力获取到训练这些不断改进的人工智能所需的大量数据,它所需的物理计算能力和能源最终也会增长到难以为继的地步。可悲的是,有证据表明,我们现在正处在这样一个阶段:一方面训练数据集扩大带来的回报在递减,一方面用所述数据集所需的算力又呈指数级增长,这些都会给人工智能的发展制造刚性的上限。就拿 OpenAI 的旗舰人工智能产品 ChatGPT4 来说吧,但它相对于 ChatGPT3 的改进要小于 ChatGPT3 相对于 ChatGPT2 的改进,尽管它的准确率提高了,但仍然存在跟 ChatGPT3 一样的幻觉与缺乏理解的问题。虽说OpenAI 对自己的人工智能开发方式守口如瓶,但专家调查发现,ChatGPT3 使用的训练数据集比 ChatGPT2 大了 78 倍,而ChatGPT4 所用的数据集比 ChatGPT3 要大 571 倍!可是,尽管训练数据集的大小有了显著提升, 但ChatGPT4 仍然存在重大缺陷,大大限制了它的使用场景。比方说,还是不能信任它能写出任何以事实为基础的东西,因为它仍然在编造事实。有人估计 ChatGPT4 的原始训练数据集有 45 TB 的纯文本。这意味着,下一次迭代要想取得 ChatGPT4 相对于 ChatGPT3 那样的巨大进步,训练数据集需要达数万 TB 之巨 。即便采用OpenAI 存疑的方法,获取和准备如此大量的纯文本数据也很不切实际。然而,就算真用这个数据集来训练人工智能也可能要消耗大量能源,大到这种成本令人工智能变得完全不可行的地步,那怕你是一家非营利组织也不可行。这么说并不夸张。 OpenAI 首席执行官山姆·阿尔特曼 (Sam Altman) 九层公开表示,先进的人工智能要想变得可行,需要能源技术取得突破,比如核聚变。可悲的是,就算我们确实实现了核聚变,在本世纪乃至下世纪这种技术也不太可能比我们目前的能源便宜。事实上,任何形式的能源都不会比我们目前所拥有的能源便宜得多。因此,针对人工智能能源问题提出的解决方案具有很大的误导性。这个观点得到了一些非常严肃的研究的支持。马萨诸塞大学阿默斯特分校曾做过一项研究,他们分析了将图像识别人工智能性能提高到准确率达 95% 以上所需的计算和能源成本。研究发现,训练这样一个模型将需要花费 1000 亿美元,其所产生的碳排放量相当于纽约市一个月的碳排放量。请记住,这是针对仍有 5% 的时间会出现灾难性错误的人工智能而言的。该研究还强调,将准确率提高到 99% 需要的成本和碳排放还会成倍增加。这就是为什么特斯拉永远不会用当前的方式开发全自动驾驶汽车的原因所在。他们的Autopilot和FSD只能通过这种人工智能计算机视觉来感知周围的世界,而FSD要想实现全自动驾驶,其图像识别精度需要接近100%的准确度。正如那项研究所表明那样,要想让特斯拉的人工智能变得那么好,其所需要的资金也许远非特斯拉能负担得起。换句话说,除非人工智能行业能够找到一种更高效的方法来提高训练人工智能以及计算负载的效率,否则就无法突破这个限制,然后人工智能的发展就将完全停滞。目前可能的解决方案即将出现,比方说结合了模拟与量子技术的更高效的人工智能硬件,以及需要训练数据集个更小的新的人工智能架构。不过,这些概念仍处在起步阶段,距离应用到现实世界可能还需要几十年的时间。简而言之,大家得有个心理准备,未来几年人工智能的发展肯能会大幅低于预期。 ... PC版: 手机版:

相关推荐

封面图片

OpenAI 签署协议以 Reddit 数据训练人工智能

OpenAI 签署协议以 Reddit 数据训练人工智能 人工智能公司 OpenAI 已与 Reddit 达成协议,使用该社交新闻网站的数据来训练人工智能模型。OpenAI 表示,与 Reddit 的合作将使其能够访问 Reddit 上的“实时、结构化和独特内容” (例如帖子和回复),从而使其工具和模型能够“更好地理解和展示”这些内容。Reddit 的内容将被整合到 OpenAI 流行的对话式人工智能 ChatGPT 中,双方将合作为 Reddit 用户和版主带来未具体说明的新“人工智能功能”。OpenAI 也将成为 Reddit 的广告合作伙伴。

封面图片

美国新法案要求人工智能公司披露受版权保护的训练数据

美国新法案要求人工智能公司披露受版权保护的训练数据 美国新法案将迫使科技公司披露用于训练其人工智能模型的任何受版权保护的数据。美国众议员 Adam Schiff (D-CA) 提出的生成人工智能版权披露法案将要求任何为人工智能制作训练数据集的人向版权登记处提交有关其内容的报告。报告应包含数据集中受版权保护的材料的详细摘要以及数据集的 URL (如果可公开获取)。此要求将扩展到对数据集所做的任何更改。公司必须在使用训练数据集的人工智能模型向公众发布之前“不迟于30天”提交报告。该法案不会追溯到现有的人工智能平台,除非其成为法律后对其训练数据集进行更改。

封面图片

ChatGPT 所有者 OpenAI 推出工具来检测人工智能生成的文本

ChatGPT 所有者 OpenAI 推出工具来检测人工智能生成的文本 ================== “在我们对英语文本的‘挑战集’的评估中,我们的分类器正确地将 26% 的人工智能写的文本(真阳性)识别为‘可能是人工智能写的’,而将人类写的文本错误地标记为人工智能写的占 9%(假阳性),”OpenAI 员工写道 ======= 对抗训练是吧

封面图片

研究发现:用人工智能生成的图像训练出的人工智能产生了糟糕的结果。

研究发现:用人工智能生成的图像训练出的人工智能产生了糟糕的结果。 斯坦福大学和莱斯大学的研究人员发现,生成式人工智能模型需要“新鲜的真实数据”,否则输出的质量就会下降。 这对摄影师和其他创作者来说是个好消息,因为研究人员发现,训练数据集中的合成图像会放大人工痕迹,使人工智能画出的人类看起来越来越不像真人。 研究小组将这种状况命名为“模型自噬障碍”。如果自噬循环的每一代都没有足够的新鲜真实数据,未来的生成模型注定会逐渐降低其质量或多样性。 如果该研究论文是正确的,那么这意味着人工智能将无法开发出无穷无尽的数据源。人工智能仍然需要真实、高质量的图像来不断进步,而不是依赖自己的输出。这意味着生成式人工智能将需要摄影师。

封面图片

谷歌确认将使用你的数据来训练人工智能 Bard

谷歌确认将使用你的数据来训练人工智能 Bard 谷歌发言人 Christa Muldoon 表示:“我们的隐私政策长期以来一直是透明的,谷歌使用来自开放网络的公开信息来训练谷歌翻译等服务的语言模型。” “这个最新的更新只是澄清了像 Bard 这样的新服务也包括在内。我们根据我们的人工智能原则,将隐私原则和保障措施纳入人工智能技术的开发中。”

封面图片

ChatGPT公司一直在努力让更多新闻机构签署许可协议以训练人工智能模型。

ChatGPT公司一直在努力让更多新闻机构签署许可协议以训练人工智能模型。 据The Information报道,OpenAI每年提供100万至500万美元的版权新闻文章授权,以训练其人工智能模型。这是人工智能公司计划为授权材料支付多少费用的首批迹象之一。与此同时,最近的一份报告称,苹果正在寻求与媒体公司合作,将内容用于人工智能培训,并在多年期间提供至少5000万美元的数据。The Verge联系了OpenAI,请其对这些数字发表评论。 这些数字似乎与早期的一些非人工智能授权交易大致相似。当Meta推出Facebook新闻标签时后来在欧洲停用了据称它每年提供高达300万美元的新闻报道、头条和预览许可。但目前尚不清楚,总支付额是否会达到我们所看到的一些更大的数字。例如,谷歌在2020年宣布,将投资10亿美元与新闻机构合作。在一项新法律的压力下,谷歌最近还同意每年向加拿大出版商支付总计1亿美元,以换取对其文章的链接。 就我们所知,今天的大型语言模型的训练数据主要是来自互联网的信息。虽然一些人工智能模型没有透露它们是如何获得训练数据的,但通常可以获得有关使用了哪些数据集或网络爬虫的信息。训练数据集的定价因提供者、大小和数据集的内容而异。一些数据提供程序,如LAION,是开源的,完全免费的,被Stable Diffusion等模型使用。人工智能开发人员还经常设置网络爬虫,从互联网上获取数据,以帮助训练他们的模型。(人工智能开发人员仍然需要雇人来审查、标记,有时还要清理培训数据,这大大增加了运营成本。) 但这种做法现在面临着重大挑战。首先,OpenAI的GPT爬虫已经被一些公司阻止访问数据,包括《纽约时报》和The Verge的母公司Vox Media。另一方面,一些组织认为对他们的数据进行培训构成侵犯版权。《纽约时报》(New York Times)等媒体起诉OpenAI和微软侵犯版权,称ChatGPT和微软的Copilot可以生成几乎与其工作内容一字不差的输出。 标签: #OpenAI #ChatGPT #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人