美国媒体揭开大模型阴暗面：训练用的数据可能有点脏

美国媒体揭开大模型阴暗面：训练用的数据可能有点脏互联网上蕴含着大量有用、有益的经验和知识，但数字时代的网民们也不得不承认，在烟波浩渺的互联网信息丛林中，也蕴含着大量偏见、歧视、有害，以及侵犯名誉和隐私的内容。种种迹象显示，这些“人类的禁忌知识”也被大模型照单全收了。当地时间周三，《华盛顿邮报》发表了与艾伦人工智能研究院合作进行的调查结果，他们拆解了谷歌的C4数据集，这也是许多知名英语AI大模型的训练材料，例如谷歌的T5和Facebook的LLaMA。中国投资者更关注的OpenAI并没有公布训练ChatGPT所用的数据集，所以这也是目前窥得AI数据黑箱的最便利解决方案。AI数据集黑箱揭秘值得一提的是，调查人员使用了SimilarWeb的网站分类数据，由于C4数据集中有三分之一的网站已经不存在这个世界上了，所以实际统计的数据大约为1000万个网站。根据研究，囊括全球专利信息的谷歌专利网、维基百科和订阅制数字图书馆scribd的资料权重位列整个数据集前三。但随着列表往下翻，一系列意想不到的名字开始出现。已经被美国司法部查封的盗版电子书网站b-ok.org高居第190位，类似这样因为侵犯版权被美国查封的网站还在数据集中出现至少27次。（b-ok.org现在是这个样子的）此外，《魔兽世界》玩家论坛wowhead也高居第181位，《赫芬顿邮报》创始人阿里安娜·赫芬顿办的行为转变课程网站thriveglobal也位居175位。令人意外的是，有两个美国投票人数据库网站也位列前100位。虽然投票人的数据本身是公开的，但大模型可能会把这些个人数据用在哪里，又有谁能说清楚呢？接下来的数据则显示，AI大模型潜在的侵权问题，可能要比想象中更加严重。商业和行业网站是数据集中比重最大的分类，创意产品众筹网站kickstarter（25位）也出现在榜单里非常高的位置。这里就引出了一个新的问题，AI向用户提供的许多创意和市场营销答案，很有可能本身就是现成的作品。研究人员也发现，超过50万的个人博客被收录进C4训练集中，这些作者显然没有因此得到过任何报酬。作为AI训练的“富矿”，每天都大量生产经过审校内容的媒体也是训练集的最爱，纽约时报、洛杉矶时报、卫报、福布斯和赫芬顿邮报均挤进数据库比重前十。与许多艺术家一样，不少媒体目前也在向AI产业声索维权。由于美国媒体行业的复杂性，所以训练集中也能找到以极右翼、白人至上主义内容为主基调的网站。事实上，谷歌在构建数据库的时候，已经意识到网络信息污染的问题，所以除了删除毫无意义和重复的语句外，特意用开源的“脏话过滤器”筛过一遍，但似乎有数量非常庞大的漏网之鱼钻了过去。研究人员就在训练集中找到至少7.2万个德国纳粹的标志性符号。更令人担忧的是，训练集中也能找到宣扬种族主义、极右翼阴谋论（QAnon）的网页，而以组织网络暴力闻名的4Chan匿名聊天网站也出现在训练集中。比起数据脏处理数据的态度更迷离虽然C4训练集的数据已经非常庞大，但用于训练OpenAIGPT-3的网络爬虫数据集，从一开始就要比C4大40倍，背后的问题自然也会被同步放大。但在GPT-3的论文中，OpenAI也公开讨论了一个细节：在防止测试数据被放进训练数据导致污染的过程中发现了一个BUG，但由于重新训练模型太贵、公司又没钱，所这个问题就放着不去管它了。一些业内人士也透露，许多科技公司在内部都不会记录训练数据的来源，因为担心会发现个人信息数据，以及未经授权的材料或其他数据。...PC版：https://www.cnbeta.com.tw/articles/soft/1355761.htm手机版：https://m.cnbeta.com.tw/view/1355761.htm

在Telegram中查看

相关推荐

各大AI模型训练成本大比拼：谷歌Gemini Ultra高达1.9亿美元

各大AI模型训练成本大比拼：谷歌GeminiUltra高达1.9亿美元训练成本是如何确定的？斯坦福大学与研究公司EpochAI合作，根据云计算租金估算了AI模型的训练成本。双方所分析的关键因素包括模型的训练时长、硬件的利用率和训练硬件的价值。尽管许多人猜测，训练AI模型的成本变得越来越高，但缺乏全面的数据来支持这些说法。而斯坦福大学发布的《2024年AI指数报告》正是支持这些说法的罕见来源之一。不断膨胀的训练成本下表展示了自2017年以来，经通胀调整后的主要AI模型的培训成本：去年，OpenAI的GPT-4培训成本估计为7840万美元，远高于谷歌PaLM（540B）的训练成本。谷歌PaLM较GPT-4仅早一年推出，但训练成本为1240万美元。相比之下，2017年开发的早期AI模型Transformer的训练成本为930美元。该模型在塑造当前所使用的许多大型语言模型的体系结构方面起着基础性作用。谷歌的AI模型GeminiUltra的训练成更高，达到了惊人的1.91亿美元。截至2024年初，该模型在几个指标上都超过了GPT-4，最引人注目的是在“大规模多任务语言理解”（MMLU）基准测试中胜出。这一基准是衡量大型语言模型能力的重要标尺。例如，它以评估57个学科领域的知识和解决问题的熟练程度而闻名。训练未来的AI模型鉴于这些挑战，AI公司正在寻找新的解决方案来训练语言模型，以应对不断上涨的成本。其中的方法有多种，比如创建用于执行特定任务的较小模型，而其他一些公司正在试验创建自家的合成数据来“投喂”AI系统。但到目前为止，这方面还没有取得明确的突破。例如，使用合成数据的AI模型有时会“胡言乱语”，引发所谓的“模型崩溃”。...PC版：https://www.cnbeta.com.tw/articles/soft/1433692.htm手机版：https://m.cnbeta.com.tw/view/1433692.htm

一项新法案将强制科技公司披露用于训练其 AI 模型的所有版权材料

来自亚当·希夫（AdamSchiff）代表（民主党-加州）的《》要求任何制作人工智能训练数据集的人必须向版权登记处提交关于其内容的报告。报告应包括数据集中受版权保护材料的详细摘要，如果数据集是公开可用的，还应包括数据集的网址。这一要求将扩展到对数据集所做的任何更改。公司必须在使用训练数据集的人工智能模型对外发布前“不迟于30天”提交报告。除非在该法案成为法律后对其训练数据集进行了更改，否则该法案不会追溯至现有的人工智能平台。该法案将涉及艺术家、作者和其他创作者自生成式AI兴起以来一直在抱怨的一个问题：AI模型通常在未经许可的情况下使用受版权保护的材料进行训练。版权和人工智能一直是难以驾驭的领域，特别是关于人工智能模型改变或模仿受保护内容的程度的问题尚未解决。艺术家和作者已经转向诉讼来维护他们的权利。标签:#AI#版权频道:@GodlyNews1投稿:@GodlyNewsBot

OpenAI 首席科学家称今天的 AI 模型可能有些许意识

OpenAI首席科学家称今天的AI模型可能有些许意识IlyaSutskever在接受麻省理工科技评论采访时表示，今天的神经网络可能具有一定意识，神经网络基于生物大脑的机制设计，两者都接收数据，聚合来自该数据的信号，然后基于一些简单的过程(神经网络中的数学、大脑中的化学物质和生物电)来传播或不传播它们。这是一个巨大的简化，但原则是成立的。如果你有一个非常大的人工神经网络，它应该做很多事情。特别是，如果人脑可以做某事，那么大型人工神经网络也可以做类似的事情。投稿：@ZaiHuaBot频道：@TestFlightCN

Adobe 使用 Midjourney 数据，训练文生图模型

据彭博社报道，Adobe正在使用Midjourney的图片，训练其文生图模型Firefly。消息人士透露，关于使用Midjourney的AI生成图片来训练Firefly模型在Adobe内部一直存在非常大的分歧。即使在Firefly开发的早期阶段，一些员工也不同意Adobe将AI生成的图像纳入到Firefly训练数据中。在用于训练Firefly的AdobeStock数据库中，有5700万条数据被标记为AI生成的，这约占数据库中图像总数的14%。而此前Adobe发言人指出，用于训练Firefly的图像中只有5%来自其他平台创建的AI图像。标签:#Adobe#AI频道:@GodlyNews1投稿:@Godlynewsbot

【Elon Musk：xAI将与微软、谷歌、OpenAI竞争；将使用公共数据进行AI模型训练】

【ElonMusk：xAI将与微软、谷歌、OpenAI竞争；将使用公共数据进行AI模型训练】2023年07月16日09点30分老不正经报道，，ElonMusk表示，他的新公司肯定会与OpenAI竞争，在AGI领域提供比微软、谷歌、OpenAI产品更有竞争力的替代方案。xAI仍处于萌芽阶段（embryonic），要赶上OpenAI和谷歌还需要时间。同时，在AI模型训练方面，他们会使用公共数据而非私人数据。xAI计划构建一个超级智能人工智能，帮助解决复杂的科学和数学问题，并“理解”宇宙。OpenAI最初的目标是开源和非营利，但因为“命运喜欢讽刺”，OpenAI是闭源的，“对利润很贪婪”。就AI算力方面，他们同样需要算力支持，但或许会略少于其他公司。

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI

训练ChatGPT等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI华尔街日报报道，AI技术的发展已经引发了新闻出版业的不满，他们认为自己的内容被大型科技公司用于训练AI模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向OpenAI、微软和谷歌等公司提起诉讼，要求赔偿其内容在ChatGPT、Bard等AI工具中被用来使用的费用。当前这是一个复杂而模糊的法律问题，涉及到AI公司是否有权从互联网上抓取内容，并将其输入到训练模型中。一些批评者认为，这是一种工业规模的知识产权盗窃行为。出版商担心，AI工具可能会影响他们网站的流量和广告收入。事实上，AI版权问题并非始于ChatGPT。在图像和代码方面，已经有多起诉讼案件涉及到AI模型训练使用受版权保护的数据。例如，Midjourney、StabilityAI、微软、GitHub以及OpenAI都曾卷入相关纠纷。目前，对于AI创作是否受版权保护还没有形成固定的准则。法律人士认为，所有针对生成式AI的案件可能需要数年时间才能结案。科技公司与内容出版商进行协商寻求使用许可，或许是最好的解决办法。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人