给炒作泼盆冷水:人工智能正在遭遇一道难以逾越的天花板

给炒作泼盆冷水:人工智能正在遭遇一道难以逾越的天花板访问:Saily-使用eSIM实现手机全球数据漫游安全可靠源自NordVPN过去几个月,对人工智能的炒作已经到了疯狂的地步。什么特斯拉在一两年内就要实现全自动驾驶了,人工智能明年将会变得比人类更聪明了,到2040年会有十亿台人工智能机器人取代人类工人了,这些还只是埃隆·马斯克今年迄今为止对人工智能许下的海口之一。整个人工智能圈都充斥着这样的预测和承诺,给人感觉人工智能的发展已走上不可阻挡的指数轨迹曲线上,已经到了我们人类根本无法阻止的地步。但是事实并非如此。要我说,人工智能正开始触碰到收益递减的发展天花板,从而令这些夸张的承诺变成一张废纸。下面我会解释的。要想理解这个问题,我们得先了解一点人工智能的基本工作原理。现代人工智能运用的是深度学习算法与人工神经网络,借此来发现数据当中的趋势。然后,人工智能就可以根据这些数据推断或沿着同一趋势线生成新的数据。这首先需要“训练”人工智能,将大量数据喂给它进行分析,让它去发现这些趋势。之后,你就可以抛问题给人工智能来获得输出。这个基本概念为计算机视觉、自动驾驶汽车、聊天机器人以及生成式人工智能提供了动力。这个解释有点简化了,但现在我们只需要了解这些就够了。过去几年,人工智能的能力有了显著增强。这部分要归功于有了更好的编程和算法。但90%要归功于用了更大的数据集对人工智能进行训练。从而使得人工智能可以更准确地了解数据趋势,从而更准确地生成结果。但有个问题:我们正目睹相对于所需的数据和算力,训练人工智能带来的回报正在急剧递减。我们先从数据讲起。假设我们开发了一个简单的计算机视觉人工智能,它可以识别出狗和猫,我们已经用100只狗和猫的图像和视频对其进行了训练,它可以在60%的时间内正确识别这些动物。如果我们将训练的图像和视频数量增加一倍,达到200个,其识别率就会提高,但只能略微提高到65%左右。如果我们再次将训练图像和视频增加一倍,达到400个,那么其改进将更加微乎其微,只能达到67.5%左右。这其中的部分原因在于,如果你手头的数据集比较小时,相对于较大的数据集,往里面添加一张新的训练图像,所提供的新数据会更多。不过,这也是因为人工智能处理小的数据集可以迅速建立新的连接与趋势,因为它只需找到适用于几个示例的趋势即可。但随着数据集的增长,找到对整个数据集都适用的新趋势和连接变得越来越难。这些来自较更大数据集的新趋势和连接让人工智能变得更好、能力更强。因此,随着训练人工智能的收益递减,我们看到将人工智能改进到一定程度所需要的训练数据量急剧增加。但这里面还有一个问题。训练人工智能对算力的需求非常大。人工智能必须将每个单独的数据点与数据集所有其他数据点进行比较,这样才能找到它们的关联和趋势。这意味着,每往人工智能训练数据库添加一位数据,用这个数据库训练人工智能所需的计算工作量都会呈指数级增长。因此,就算你有能力获取到训练这些不断改进的人工智能所需的大量数据,它所需的物理计算能力和能源最终也会增长到难以为继的地步。可悲的是,有证据表明,我们现在正处在这样一个阶段:一方面训练数据集扩大带来的回报在递减,一方面用所述数据集所需的算力又呈指数级增长,这些都会给人工智能的发展制造刚性的上限。就拿OpenAI的旗舰人工智能产品ChatGPT4来说吧,但它相对于ChatGPT3的改进要小于ChatGPT3相对于ChatGPT2的改进,尽管它的准确率提高了,但仍然存在跟ChatGPT3一样的幻觉与缺乏理解的问题。虽说OpenAI对自己的人工智能开发方式守口如瓶,但专家调查发现,ChatGPT3使用的训练数据集比ChatGPT2大了78倍,而ChatGPT4所用的数据集比ChatGPT3要大571倍!可是,尽管训练数据集的大小有了显著提升,但ChatGPT4仍然存在重大缺陷,大大限制了它的使用场景。比方说,还是不能信任它能写出任何以事实为基础的东西,因为它仍然在编造事实。有人估计ChatGPT4的原始训练数据集有45TB的纯文本。这意味着,下一次迭代要想取得ChatGPT4相对于ChatGPT3那样的巨大进步,训练数据集需要达数万TB之巨。即便采用OpenAI存疑的方法,获取和准备如此大量的纯文本数据也很不切实际。然而,就算真用这个数据集来训练人工智能也可能要消耗大量能源,大到这种成本令人工智能变得完全不可行的地步,那怕你是一家非营利组织也不可行。这么说并不夸张。OpenAI首席执行官山姆·阿尔特曼(SamAltman)九层公开表示,先进的人工智能要想变得可行,需要能源技术取得突破,比如核聚变。可悲的是,就算我们确实实现了核聚变,在本世纪乃至下世纪这种技术也不太可能比我们目前的能源便宜。事实上,任何形式的能源都不会比我们目前所拥有的能源便宜得多。因此,针对人工智能能源问题提出的解决方案具有很大的误导性。这个观点得到了一些非常严肃的研究的支持。马萨诸塞大学阿默斯特分校曾做过一项研究,他们分析了将图像识别人工智能性能提高到准确率达95%以上所需的计算和能源成本。研究发现,训练这样一个模型将需要花费1000亿美元,其所产生的碳排放量相当于纽约市一个月的碳排放量。请记住,这是针对仍有5%的时间会出现灾难性错误的人工智能而言的。该研究还强调,将准确率提高到99%需要的成本和碳排放还会成倍增加。这就是为什么特斯拉永远不会用当前的方式开发全自动驾驶汽车的原因所在。他们的Autopilot和FSD只能通过这种人工智能计算机视觉来感知周围的世界,而FSD要想实现全自动驾驶,其图像识别精度需要接近100%的准确度。正如那项研究所表明那样,要想让特斯拉的人工智能变得那么好,其所需要的资金也许远非特斯拉能负担得起。换句话说,除非人工智能行业能够找到一种更高效的方法来提高训练人工智能以及计算负载的效率,否则就无法突破这个限制,然后人工智能的发展就将完全停滞。目前可能的解决方案即将出现,比方说结合了模拟与量子技术的更高效的人工智能硬件,以及需要训练数据集个更小的新的人工智能架构。不过,这些概念仍处在起步阶段,距离应用到现实世界可能还需要几十年的时间。简而言之,大家得有个心理准备,未来几年人工智能的发展肯能会大幅低于预期。...PC版:https://www.cnbeta.com.tw/articles/soft/1430185.htm手机版:https://m.cnbeta.com.tw/view/1430185.htm

相关推荐

封面图片

美国新法案要求人工智能公司披露受版权保护的训练数据

美国新法案要求人工智能公司披露受版权保护的训练数据美国新法案将迫使科技公司披露用于训练其人工智能模型的任何受版权保护的数据。美国众议员AdamSchiff(D-CA)提出的生成人工智能版权披露法案将要求任何为人工智能制作训练数据集的人向版权登记处提交有关其内容的报告。报告应包含数据集中受版权保护的材料的详细摘要以及数据集的URL(如果可公开获取)。此要求将扩展到对数据集所做的任何更改。公司必须在使用训练数据集的人工智能模型向公众发布之前“不迟于30天”提交报告。该法案不会追溯到现有的人工智能平台,除非其成为法律后对其训练数据集进行更改。——

封面图片

ChatGPT 所有者 OpenAI 推出工具来检测人工智能生成的文本

ChatGPT所有者OpenAI推出工具来检测人工智能生成的文本==================“在我们对英语文本的‘挑战集’的评估中,我们的分类器正确地将26%的人工智能写的文本(真阳性)识别为‘可能是人工智能写的’,而将人类写的文本错误地标记为人工智能写的占9%(假阳性),”OpenAI员工写道=======对抗训练是吧https://finance.sina.com.cn/tech/mobile/n/n/2023-02-01/doc-imyectwx0070034.shtml

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

【研究:ChatGPT推出后人工智能相关的加密货币资产呈上涨趋势】

【研究:ChatGPT推出后人工智能相关的加密货币资产呈上涨趋势】2023年06月06日05点05分老不正经报道,德国汉堡区块链研究实验室的研究人员一项研究表明,OpenAI推出ChatGPT后,人工智能相关的加密货币资产呈上涨趋势。据研究人员称:尽管整个加密货币市场处于看跌状态,但ChatGPT的推出对人工智能相关加密资产的表现产生了重大影响。使用综合差分法,我们发现在发布后的一个月内人工智能相关加密资产平均价格上涨至少10.7%。”

封面图片

OpenAI希望与机构合作建立新的人工智能训练数据集

OpenAI希望与机构合作建立新的人工智能训练数据集模型会以有害的方式放大这些缺陷。现在,OpenAI表示希望通过与外部机构合作创建新的数据集来消除这些缺陷,并希望这些数据集能够得到改进。OpenAI今天宣布了"数据伙伴关系"(DataPartnerships)计划,该计划旨在与第三方机构合作,建立用于人工智能模型训练的公共和私有数据集。OpenAI在一篇博文中表示,数据合作伙伴关系旨在"让更多组织能够帮助引导人工智能的未来",并"从更有用的模型中获益"。"为了最终制造出安全且有益于全人类的[人工智能],我们希望人工智能模型能够深入理解所有主题、行业、文化和语言,这就需要尽可能广泛的训练数据集,"OpenAI写道。"将您的内容纳入其中可以增加人工智能模型对您所在领域的理解,从而对您更有帮助。"OpenAI表示,作为数据合作伙伴计划的一部分,它将收集"反映全人类社会"的"大规模"数据集,这些数据集目前还不容易在网上获取。该公司计划在包括图像、音频和视频在内的各种模式下开展工作,但它特别希望收集能"表达人类意图"的数据(如长篇写作或对话),这些数据将跨越不同的语言、主题和格式。OpenAI表示,如有必要,它将与企业合作,使用光学字符识别和自动语音识别工具对训练数据进行数字化处理,并在必要时删除敏感或个人信息。一开始,OpenAI希望创建两种类型的数据集:一种是公开的开源数据集,任何人都可以在人工智能模型训练中使用;另一种是私有数据集,用于训练专有的人工智能模型。OpenAI表示,私有数据集的对象是那些希望数据保密,但又希望OpenAI的模型能够更好地理解其领域的组织;到目前为止,OpenAI已经与冰岛政府和Miðeindehf合作,提高了GPT-4的冰岛语能力,并与自由法律项目合作,提高了模型对法律文件的理解能力。"总之,我们正在寻求合作伙伴,帮助我们教会人工智能理解我们的世界,以便最大限度地帮助每个人,"OpenAI写道。那么,OpenAI能比之前的许多数据集构建工作做得更好吗?暂时还不太确定--最大限度地减少数据集的偏差是困扰世界上许多专家的难题。至少,希望该公司能对整个过程保持透明--以及在创建这些数据集时不可避免地遇到的挑战。尽管这篇博文用词华丽,但其中似乎也有明显的商业动机,那就是以牺牲他人利益为代价来提高OpenAI模型的性能,而且还不给数据所有者任何补偿。这完全符合OpenAI的权利。但考虑到一些创作者的公开信和诉讼,称OpenAI在未经他们许可或支付报酬的情况下,用他们的作品训练了许多模型,这似乎有点听不进去。...PC版:https://www.cnbeta.com.tw/articles/soft/1395783.htm手机版:https://m.cnbeta.com.tw/view/1395783.htm

封面图片

机构认为过度炒作的生成式AI领域预计将遭遇“冷水浴”

机构认为过度炒作的生成式AI领域预计将遭遇“冷水浴”CCSInsight对2024年科技行业的预测综述(来自CNBC)包括对生成式AI的警告:明年可能会暴露出这样一个事实:该技术的现实并不如宣传的那样完善。CCSInsight首席分析师BenWood表示:“最重要的是,现在每个人都在谈论生成人工智能,Google、亚马逊、高通、Meta。但围绕2023年生成式人工智能的炒作是如此巨大,以至于我们认为它被过度炒作了,并且需要克服许多障碍才能将其推向市场。”CCSInsight提到的问题之一是部署和维护生成式人工智能工具所需的巨额成本;ChatGPT制造商OpenAI估计每天花费70万美元来维持其著名的聊天机器人的正常运行。虽然这对于大型公司来说可能不是一个大问题,但伍德认为,对于许多组织和开发人员来说,它的使用将变得过于昂贵。还有一个事实是,英伟达昂贵的人工智能GPU目前需求旺盛。占据1500亿美元人工智能市场70%以上的TeamGreen表示,计划明年将产品产量增加两倍,以满足这一增长,但这并没有阻止OpenAI和微软正在寻求构建自己的芯片来满足这一增长的报道。减少对第三方的依赖,更多公司将效仿。人工智能监管也即将到来。到目前为止,人工智能公司已同意自我监管和管理其技术带来的风险,但政府呼吁加强监管。欧盟正在制定的人工智能法案可能会禁止面部识别,并迫使人工智能工具的开发人员在全面发布之前将其提交审查。CCSInsight还预测,至少一家互联网搜索公司将开始在明年为任何由人工智能制造的材料添加标签,并且将追求那些使用该技术冒充他人的人。...PC版:https://www.cnbeta.com.tw/articles/soft/1389337.htm手机版:https://m.cnbeta.com.tw/view/1389337.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人