人工智能研究人员发现使用流行数据集的道德和法律风险

人工智能研究人员发现使用流行数据集的道德和法律风险尽管这些数据集可免费获取，但根据一项对广泛使用的数据集进行检查的最广泛的研究项目显示，这些数据集充斥着未经授权的数据。在一群机器学习工程师和法律专家的组织下，"数据出处倡议"（DataProvenanceInitiative）研究了用于教授人工智能模型擅长特定任务的专业数据，这一过程被称为"微调"。他们审核了HuggingFace、GitHub和PapersWithCode（2019年加入FacebookAI）等网站上的1800多个微调数据集，发现约70%的数据集没有说明应使用何种许可，或者被错误地标注了比其创建者意图更宽松的准则。能够回答问题和模仿人类说话的聊天机器人的出现，掀起了一场建立更大更好的生成式人工智能模型的竞赛。这也引发了有关版权和合理使用互联网文本的问题，而互联网文本是训练大型人工智能系统所需的海量数据的关键组成部分。但是，如果没有适当的授权，开发人员就会对潜在的版权限制、商业使用限制或数据集创建者的信用要求一无所知。该倡议报告的共同作者、研究实验室CohereforAI的负责人萨拉-胡克（SaraHooker）说："即使人们想做正确的事，他们也做不到。"麻省理工学院媒体实验室研究大型语言模型的博士生ShayneLongpre领导了这次审计，他说，托管网站允许用户在上传数据集时识别许可证，不应该因为错误或遗漏而受到指责。朗普雷说，缺乏适当的文档是一个源于现代机器学习实践的全社会问题。数据档案经常被多次合并、重新打包和重新授权。他说，试图跟上新版本发布步伐的研究人员可能会跳过记录数据来源等步骤，或者故意模糊信息，以此作为"数据洗钱"的一种形式。通过互动网站，用户可以探索审计中分析的数据集内容，其中一些数据集已被下载数十万次。HuggingFace的机器学习和社会团队负责人亚辛-杰尼特（YacineJernite）说，HuggingFace发现，数据集在开放、持续使用和共享的情况下，会有更好的文档记录。这家开源公司已将改进文档的工作列为优先事项，例如自动建议元数据。杰尼特说，即使注释不完善，公开可访问的数据集也是提高该领域透明度的有意义的第一步。一些最常用的微调数据集最初是由OpenAI和Google等公司创建的数据集。越来越多的数据集是利用OpenAI模型创建的机器数据集。包括OpenAI在内的领先人工智能实验室禁止使用其工具的输出结果开发竞争性人工智能模型，但允许某些非商业用途。人工智能公司对用于训练和完善流行人工智能模型的数据越来越保密。这项新研究的目标是让工程师、政策制定者和律师了解助长人工智能淘金热的不可见处的数据生态系统。这项倡议的提出正值硅谷与数据所有者之间的紧张关系濒临临界点之际。各大人工智能公司正面临着来自图书作者、艺术家和编码员的大量版权诉讼。与此同时，出版商和社交媒体论坛在闭门谈判中威胁要扣留数据。该倡议的探索工具指出，审计并不构成法律建议。Longpre说，这些工具旨在帮助人们了解信息，而不是规定哪种许可是合适的，也不是倡导某种特定的政策或立场。作为分析的一部分，研究人员还跟踪了各数据集的模式，包括数据的收集年份和数据集创建者的地理位置。约70%的数据集创建者来自学术界，约1%的数据集创建者来自Meta等公司的行业实验室。最常见的数据来源之一是维基百科，其次是Reddit和Twitter（现在称为X）。《华盛顿邮报》对GoogleC4数据集的分析发现，在1500万个域名中，维基百科是排名第二的网站。据《邮报》上周报道，Reddit最近威胁说，如果领先的人工智能公司不付费使用其数据来训练模型，就会阻止Google和必应的搜索爬虫，从而面临搜索流量损失的风险。与英语国家和西欧国家相比，南半球国家的口语几乎没有代表性，数据出处小组的分析为常用数据集的局限性提供了新的见解。但该小组还发现，即使全球南部有语言代表，数据集"几乎总是来自北美或欧洲的创作者和网络来源"，该小组的论文如是说。胡克说，她希望该项目的工具能够揭示未来研究的主要领域。她说："数据集的创建通常是研究周期中最不光彩的部分，应该得到应有的归属，因为这需要大量的工作。我喜欢这篇论文，因为它脾气暴够躁，但也提出了解决方案。我们必须从某个地方开始"。...PC版：https://www.cnbeta.com.tw/articles/soft/1392459.htm手机版：https://m.cnbeta.com.tw/view/1392459.htm

在Telegram中查看

相关推荐

研究人员使用人工智能对1560万个流行密码进行破解 ——

研究人员使用人工智能对1560万个流行密码进行破解——来自Homesecurityheroes的研究人员决定调查使用人工智能的密码破解速度。他们使用了1560万个流行密码的集合进行测试。结果显示，PassGAN人工智能可以做到：-51%的密码集合在1分钟内被破解；-在1小时内破解集合中65%的密码；-在24小时内破解集合中71%的密码；-1个月内从集合中破解81%的密码。“人工智能根据它所学到的一切，预测最可能的下一个数字。它没有寻求外部知识，而是依靠它通过学习形成的模式”，研究人员说。当然，算力始终是挑战。越复杂越长的密码需要的破解时间就越多，对AI来说也一样。您可以在这里查看AI在2023年破解您选择的密码需要多长时间:https://www.homesecurityheroes.com/ai-password-cracking/#Security#Passwords#Privacy#AI

苹果研究人员探索放弃“Siri”短语，改用人工智能聆听

苹果研究人员探索放弃“Siri”短语，改用人工智能聆听据周五(3月22日)发表的一篇论文称，苹果公司的研究人员正在研究是否有可能利用AI来检测用户何时在对iPhone等设备说话，从而消除对“Siri”等触发短语的技术需求。在一项上传到Arxiv且未经同行评审的研究中，研究人员使用智能手机捕获的语音以及来背景噪声的声学数据来训练一个大型语言模型，以寻找可能表明用户何时需要设备帮助的模式。论文中研究人员写道：“该模型部分基于OpenAI的GPT-2版本构建，因为它相对轻量级，可以在智能手机等设备上运行。”论文描述了用于训练模型的超过129小时的数据和额外的文本数据，但没有说明训练集的录音来源。据领英个人资料，七位作者中有六位列出他们的隶属关系为苹果公司，其中三人在该公司的Siri团队工作。论文称，结果令人鼓舞。该模型能够比纯音频或纯文本模型做出更准确的预测，并且随着模型规模的扩大而进一步改进。——、

Google在巴黎建立人工智能中心容纳大约300名研究人员和工程师

Google在巴黎建立人工智能中心容纳大约300名研究人员和工程师但如果你密切关注Google在巴黎的行踪，你可能会认为Google早在2018年就已经在巴黎启动了人工智能研究中心。事实上，公司并不打算为这个新中心创建一个新的人工智能团队。这里有一些新的办公空间，但将在新中心工作的由300名研究人员和工程师组成的团队已经在为Google研究院和DeepMind工作，同时也在为YouTube和Chrome工作。然而，几位知名的政府成员，如经济部长布鲁诺-勒梅尔（BrunoLeMaire）和法兰西岛大区主席瓦莱里-佩克雷塞（ValériePécresse），都到场欢迎桑达尔-皮查伊（SundarPichai），并祝贺Google宣布这一消息。通过这次宣布的定位，Google希望在吸引人工智能人才方面继续名列前茅。而Google认为它能在巴黎吸引人工智能人才也是有原因的。过去几年中，多家科技巨头在巴黎建立了人工智能研究实验室。除了Google，Facebook（现为Meta）早在2015年就创建了巴黎研究实验室，由YannLeCun负责人工智能计划--这个研究小组被称为FAIR，即Facebook人工智能研究。从那时起，许多研究人员和工程师离开了大型科技公司的工作岗位，创建了初创公司。MistralAI可以说是最典型的例子，这家年轻的初创公司已经筹集了数亿美元，用于开发新的基础模型。不过，巴黎的人工智能初创企业生态系统也在蓬勃发展。例如，Nabla、Dust、Gladia和Giskard。短短几年后，如果这些初创公司的一些员工想寻找一些与众不同的工作，他们也可以选择为Google工作。与此同时，这也再次表明Google对人工智能缺乏安全感。考虑到这栋大楼不仅将容纳从事人工智能研究项目的团队，还将容纳从事YouTube和Chrome浏览器等消费类产品研发的团队，Google完全可以简单地将其称为"Google中心"。但该公司决定，这是一个人工智能中心。他们想大声而清晰地表明自己是一家人工智能公司。当然，这家科技巨头刚刚推出了GeminiUltra，这是迄今为止最强大的大型语言模型。但说到人工智能助手，大多数人还是会想到ChatGPT。一年前，在巴黎举行的一次新闻发布会上，Google推出了其人工智能聊天机器人助手Bard，也就是现在的Gemini。这是一次急于追赶ChatGPT的努力。但这既是为了发布产品，也是为了树立一面旗帜，表明公司有能力发布基于LLM的聊天机器人然后进行迭代。可以认为，今天的新人工智能中心是定期发布人工智能公告这一战略的延续。Google并不是唯一一家在人工智能投资方面做出宏伟姿态的科技巨头。除了对ChatGPT的母公司OpenAI做出资金承诺之外，微软今天也宣布将在未来两年内投资32亿欧元（约合34亿美元）用于德国的人工智能基础设施建设。同样，这笔投资并不完全集中在人工智能领域。微软计划在德国为其Azure云平台建立数据中心。Azure的部分产品专注于人工智能，但它是一家规模更大的云服务提供商，其客户与人工智能行业无关。因此，这不仅仅是Google一家的事情。...PC版：https://www.cnbeta.com.tw/articles/soft/1418379.htm手机版：https://m.cnbeta.com.tw/view/1418379.htm

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源，如书籍、文章、照片等，这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容，一个明显的问题出现了：当人工智能生成的内容在互联网上扩散时，人工智能模型开始对其进行训练。研究人员发现，“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布，得出结论：“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程，并且随着时间的推移，模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快：模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移，表现越来越差，错误越来越多。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

英国安全研究所发布人工智能模型安全性测试工具

英国安全研究所发布人工智能模型安全性测试工具在周五宣布这一消息的新闻稿中，安全研究所声称，Inspect标志着"由国家支持的机构主导的人工智能安全测试平台首次被广泛使用"。安全研究所主席伊恩-霍加斯（IanHogarth）在一份声明中说："人工智能安全测试方面的成功合作意味着要有一个共享的、可访问的评估方法，我们希望Inspect能够成为一个基石。我们希望看到全球人工智能社区利用Inspect不仅开展自己的模型安全性测试，而且帮助调整和构建开源平台，以便我们能够全面开展高质量的评估。"众所周知，人工智能基准很难制定--其中最重要的原因是，当今最复杂的人工智能模型几乎都是黑盒，其基础设施、训练数据和其他关键细节都被创建这些模型的公司保密。那么，Inspect如何应对这一挑战呢？主要是通过可扩展的新测试技术。Inspect由三个基本部分组成：数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器负责评估求解器的工作，并将测试得分汇总为指标。可以通过用Python编写的第三方软件包来增强Inspect的内置组件。Mozilla研究员、著名人工智能伦理学家德博拉-拉吉（DeborahRaj）在X上发表了一篇文章，称Inspect"证明了对人工智能问责开源工具的公共投资的力量"。人工智能初创公司HuggingFace的首席执行官克莱门特-德朗格（ClémentDelangue）提出了将Inspect与HuggingFace的模型库整合在一起，或利用工具集的评估结果创建一个公共排行榜的想法。Inspect发布之前，美国政府机构--国家标准与技术研究院（NIST）启动了NISTGenAI，该计划旨在评估各种生成式人工智能技术，包括文本和图像生成人工智能。NISTGenAI计划发布基准，帮助创建内容真实性检测系统，并鼓励开发能识别虚假或误导性人工智能生成信息的软件。今年4月，美国和英国宣布建立合作伙伴关系，共同开发先进的人工智能模型测试，这是继去年11月英国在布莱切利公园举行的人工智能安全峰会上宣布承诺之后的又一合作。作为合作的一部分，美国打算成立自己的人工智能安全研究所，广泛负责评估人工智能和生成式人工智能的风险。...PC版：https://www.cnbeta.com.tw/articles/soft/1430544.htm手机版：https://m.cnbeta.com.tw/view/1430544.htm

研究发现：用人工智能生成的图像训练出的人工智能产生了糟糕的结果。

研究发现：用人工智能生成的图像训练出的人工智能产生了糟糕的结果。斯坦福大学和莱斯大学的研究人员发现，生成式人工智能模型需要“新鲜的真实数据”，否则输出的质量就会下降。这对摄影师和其他创作者来说是个好消息，因为研究人员发现，训练数据集中的合成图像会放大人工痕迹，使人工智能画出的人类看起来越来越不像真人。研究小组将这种状况命名为“模型自噬障碍”。如果自噬循环的每一代都没有足够的新鲜真实数据，未来的生成模型注定会逐渐降低其质量或多样性。如果该研究论文是正确的，那么这意味着人工智能将无法开发出无穷无尽的数据源。人工智能仍然需要真实、高质量的图像来不断进步，而不是依赖自己的输出。这意味着生成式人工智能将需要摄影师。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人