Tumblr 母公司正在与 OpenAI 和 Midjourney 就人工智能训练数据达成协议

Tumblr 母公司正在与 OpenAI 和 Midjourney 就人工智能训练数据达成协议 据了解这些交易内部情况以及涉及这些内部交易文档的消息人士透露,WordPress.com 和 Tumblr 正准备将用户数据出售给 Midjourney 和 OpenAI 用于人工智能训练,交易即将进行。

相关推荐

封面图片

OpenAI 签署协议以 Reddit 数据训练人工智能

OpenAI 签署协议以 Reddit 数据训练人工智能 人工智能公司 OpenAI 已与 Reddit 达成协议,使用该社交新闻网站的数据来训练人工智能模型。OpenAI 表示,与 Reddit 的合作将使其能够访问 Reddit 上的“实时、结构化和独特内容” (例如帖子和回复),从而使其工具和模型能够“更好地理解和展示”这些内容。Reddit 的内容将被整合到 OpenAI 流行的对话式人工智能 ChatGPT 中,双方将合作为 Reddit 用户和版主带来未具体说明的新“人工智能功能”。OpenAI 也将成为 Reddit 的广告合作伙伴。

封面图片

OpenAI 正在探索制造自己的人工智能芯片

OpenAI 正在探索制造自己的人工智能芯片 据路透社报道,随着训练人工智能模型的芯片短缺情况日益恶化,公司内部关于人工智能芯片战略的讨论至少从去年开始就一直在进行。据报道,OpenAI 正在考虑采取多种策略来推进其芯片雄心,包括收购一家 AI 芯片制造商或加大内部设计芯片的力度。 据路透社报道,OpenAI 首席执行官 Sam Altman 已将收购更多人工智能芯片作为公司的首要任务。 目前,OpenAI 与大多数竞争对手一样,依靠基于 GPU 的硬件来开发ChatGPT、GPT-4和DALL-E 3等模型。GPU 并行执行多项计算的能力使其非常适合训练当今最强大的人工智能。 但生成式人工智能的蓬勃发展对于 Nvidia 等 GPU 制造商来说是一笔意外之财却给 GPU 供应链带来了巨大压力。微软正在与 AMD 合作开发一款名为 Athena 的内部 AI 芯片,据说 OpenAI 正在测试该芯片。OpenAI 在研发方面的大力投资处于有利地位。该公司已筹集超过 110 亿美元的风险投资,年收入接近 10 亿美元。

封面图片

OpenAI 表示已开始训练新的旗舰人工智能模型

OpenAI 表示已开始训练新的旗舰人工智能模型 OpenAI 周二表示,它已开始训练一种新的旗舰人工智能模型,该模型将取代驱动其流行在线聊天机器人 ChatGPT 的 GPT-4 技术。 OpenAI 在一篇博客文章中表示,希望新模型能够带来“更高水平的能力”,因为该公司致力于打造“通用人工智能”,即能够做任何人类大脑能做的事情的机器。新模型将成为人工智能产品的引擎,包括聊天机器人、类似于苹果 Siri 的数字助理、搜索引擎和图像生成器。 ,

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃 用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃 这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

WordPress和Tumblr的母公司Automattic计划出售用户照片给AI公司训练

WordPress和Tumblr的母公司Automattic计划出售用户照片给AI公司训练 这一决定哪怕是在 Automattic 内部都引起了轩然大波,以至于其产品经理都从自己的汤不热上删除照片避免照片被出售。目前交易细节还不清楚,不过消息源称 Automattic 将为用户提供退出的选项,但如果用户没有选择退出该计划的话,那么自己发布的图片包括照片就会被出售。Automattic 计划从本周三开始为用户提供一项新设置,该设置用于主动选择退出训练人工智能,然而大多数用户显然不会看到这则消息以及不会主动选择退出,因此实际上绝大部分内容都会被出售。对于 OPENAI 和 MidJourney 这类 AI 公司来说,获取足够多的图片数据是有必要的,这些图片可以被用来训练人工智能,以便更好地通过文本生成图片或视频。Automattic 也在博客中公布了这些消息,该公司称相信自由开放的网络以及尊重用户个人选择,同时该公司指出不存在任何法律要求网络爬虫遵循这类偏好。言外之意就是用户在公共平台发布的这些照片哪怕是包含私人信息的照片,也都可能会被各种爬虫抓取,本身不具有隐私性,既然如此那被拿出去出售以及都为用户提供退出选项了,很合理吧? ... PC版: 手机版:

封面图片

[评论]OpenAI的漏洞提醒人们 人工智能公司是黑客的宝库

[评论]OpenAI的漏洞提醒人们 人工智能公司是黑客的宝库 OpenAI 前员工利奥波德-阿申布伦纳(Leopold Aschenbrenner)最近在播客中暗示了这次黑客攻击,《纽约时报》随后对此进行了更详细的报道。他称这是一起"重大安全事件",但不愿透露姓名的公司消息人士告诉《纽约时报》,黑客只进入了一个员工讨论区。任何安全漏洞都不应该被视为小事,窃听 OpenAI 内部开发谈话当然有其价值。但这与黑客获取内部系统、进行中模型、秘密路线图等权限相去甚远。一个简单的事实是,这些人工智能公司已经成为大量非常有价值数据的守门人。让我们来谈谈 OpenAI 以及其他一些人工智能公司创建或获取的三种数据:高质量训练数据、大量用户交互数据和客户数据。目前还不清楚他们到底掌握了哪些培训数据,因为这些公司对他们所掌握的数据保密得令人难以置信。但如果认为它们只是一大堆网络数据,那就大错特错了。是的,他们确实使用了网络采集工具或像"堆"这样的数据集,但要将这些原始数据转化为可用于训练 GPT-4o 这样的模型的数据,却是一项艰巨的任务。要做到这一点,需要耗费大量的人力只能实现部分自动化。一些机器学习工程师推测,在创建大型语言模型(或任何基于转换器的系统)的所有因素中,最重要的一个因素就是数据集的质量。这就是为什么一个在 Twitter 和 Reddit 上训练出来的模型永远比不上一个在上个世纪所有出版作品上训练出来的模型雄辩的原因。(据报道,OpenAI 在训练数据中使用了版权书籍等有问题的合法来源,而他们声称已经放弃了这种做法)。因此,OpenAI建立的训练数据集对竞争对手,从其他公司到敌对国家,再到美国国内的监管机构,都具有巨大的价值。难道美国联邦贸易委员会或法院不想知道到底使用了哪些数据,以及OpenAI是否如实披露了这些数据吗?但也许更有价值的是 OpenAI 巨大的用户数据宝库与 ChatGPT 就数十万个话题进行的数十亿次对话。就像搜索数据曾经是了解网络集体心理的关键一样,ChatGPT 也掌握着一个群体的脉搏,这个群体可能没有Google用户那么广泛,但却更有深度。(如果您不知道,除非您选择退出,否则您的对话将被用作训练数据)。就Google而言,"空调"搜索量的上升说明市场正在升温。但是,这些用户并没有就他们想要什么、愿意花多少钱、他们的家是什么样的、他们想要避免的制造商等问题展开讨论。要知道,这一点很有价值,因为Google本身就在试图通过人工智能交互来代替搜索,从而转化用户提供这些信息!想想看,人们与 ChatGPT 进行了多少对话,这些信息有多有用,不仅对人工智能开发人员有用,对营销团队、顾问、分析师......这简直就是一座金矿。最后一类数据可能是公开市场上价值最高的数据:客户如何实际使用人工智能,以及他们自己提供给模型的数据。数以百计的大公司和无数的小公司都在使用 OpenAI 和 Anthropic 的 API 等工具来完成各种各样的任务。为了让语言模型对它们有用,通常必须在它们自己的内部数据库上进行微调,或以其他方式让它们访问自己的内部数据库。这可能是旧的预算表或人事记录(例如,为了使它们更容易被搜索到)这样平淡无奇的东西,也可能是未发布软件的代码这样有价值的东西。他们如何使用人工智能的功能(以及这些功能是否真的有用)是他们自己的事,但一个简单的事实是,人工智能提供商拥有特权访问权,就像任何其他 SaaS 产品一样。这些都是行业机密,而人工智能公司突然成为其中的核心。由于人工智能流程尚未标准化,也未被完全理解,因此这个行业的新领域具有特殊的风险。与任何 SaaS 提供商一样,人工智能公司完全有能力提供行业标准级别的安全、隐私、内部部署选项,并以负责任的态度提供服务。毫无疑问,OpenAI 的财富 500 强客户的私有数据库和 API 调用都被严密封锁!他们肯定也意识到或更清楚在人工智能背景下处理机密数据所固有的风险。(事实上,OpenAI 没有报告这次攻击是他们的选择,但这并不能激发人们对这家迫切需要信任的公司的信任)。但是,良好的安全实践并不能改变它们所要保护的东西的价值,也不能改变恶意行为者和各种对手正张牙舞爪地想要进入的事实。安全不仅仅是选择正确的设置或保持软件更新,当然这些基本要素也很重要。这是一场永无休止的猫捉老鼠游戏 ,具有讽刺意味的是,人工智能本身正在为这场游戏注入新的活力:代理和攻击自动程序正在探查这些公司攻击面的每一个角落和缝隙。我们没有理由恐慌能够访问大量个人数据或有商业价值数据的公司多年来一直面临并管理着类似的风险。但是,与普通的配置不佳的企业服务器或不负责任的数据经纪人相比,人工智能公司是一个更新、更年轻、更潜在的目标。即使像上述报道的黑客攻击事件,据我们所知并没有严重的数据外泄,也应该让任何与人工智能公司有业务往来的人感到担忧。他们已经成为众矢之的。当任何人,或者说每个人都中招时,不要感到惊讶。相关文章:黑客窃取了OpenAI的人工智能技术细节 但公司对此守口如瓶 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人