给AI当“奶妈”,是天涯们的生路吗?
给AI当“奶妈”,是天涯们的生路吗?
再听到天涯的消息,是在今年2月底,全国企业破产重整案件信息网上公开一条“天涯社区网络科技股份有限公司被申请破产审查”的信息。尽管天涯方面否认即将破产的传闻,但天涯重见天日的可能性,到底是更加渺茫了。在美国,一家式微的老牌内容平台,却依靠AI的浪潮找到了副业,吃下了热钱第三方图片托管平台Photobucket,一度拥有7000万用户,占据美国在线照片市场的近一半份额。如今,Photobucket辉煌不再,只有约200万人还在使用它。正所谓“瘦死的骆驼比马大”,已经被大部分人遗忘的Photobucket有之前多年的积累,依然坐拥上百亿照片和视频。而这,正是患上“数据饥渴症”的AI公司最需要的。在AI热潮下,不断有公司找上门来。以正在进行的谈判来粗略估计,Photobucket手里掌握的内容可能价值数十亿美元。有钱但缺数据的AI公司,遇上没钱但积累了海量内容的老牌社区,不交易一下才奇怪。Photobucket正在与AI公司谈交易的消息,是由路透社曝出的。有意思的是,报道中有一句话在后续编辑中被删除:“公司预计,其第一季度营业陆润将增长10倍,达到近49亿美元。”49亿美元是什么概念?Photobucket作为一家图片托管网站,刚开始是免费的。在千禧年前后,互联网用户激增,人们或为了记录生活,或为了分享,乐于将照片上传到一个专门的网站。而且,在Photobucket上传了图片后,人们还可以在其他网站如MySpace直接嵌入,省得反复上传。一些卖家也会在eBay或亚马逊使用Photobucket托管的图片。用这种方式,巅峰时期的Photobucket一度占据了美国互联网流量的2%。由免费转向付费,似乎是Photobucket的必经之路。不过,Photobucket有点太心急了。2017年时,Photobucket突然将第三方显示变为每年399美元的付费订阅服务。此举并没有提前的充分预警,很多用户发现自己在其他网站嵌入的Photobucket图片都无法展示,变成了“付费以解锁”的提示。要知道,Photobucket当时已经有1亿注册用户,有约6000万第三方网站的图片在此次“升级”下无法正常显示。在争议之下,Photobucket次年将年订阅模式改为可月付的模式,并沿用至今。Photobucket也就此走上下坡路。后续几年,Photpbucket又经历了服务中心断电导致服务中断、隐私泄露等“意外”,渐渐从备受欢迎的图片网站变成了互联网边角料产品。公司规模也从鼎盛时期的120名员工缩水到了40人。目前Photobucket网站提供的付费计划中,最贵的每月收取8美元。以最新报道透露的200万用户在使用Photobucket计算,哪怕他们全部月付8美元,每年也仅能贡献1.9亿美元。而且这对Photobucket来说只是收入,没有剔除存储、维护、运营等的各项成本。虽然Photobucket在过去二十年损失了不少用户,但除非用户注销,它一直保留着用户的图片。即便是在不再支持免费账户的情况下,Photobucket也明确通知用户:你的照片还在,只需要现在开始付费,就能重新看到它们。不断有已经弃用Photobucket的用户在社交媒体上吐槽,称自己频繁收到Photobucket“求复合”的邮件,已经不堪其扰。既然图片都在,海量的内容还存储在服务器上,为什么不用它们赚上一笔?将平台内容授权给AI公司,获得49亿美元,对Photobucket来说可以算是一笔巨款了。为什么AI公司会找上“明日黄花”Photobucket?答案很简单,太缺数据了。以OpenAI的GPT系列模型为例,GPT-3使用了3000亿的token,GPT-4使用了12万亿的token。而已经在路上的GPT-5所需的token量在60万亿到100万亿。“规模即一切”成为AI的战斗口号。霍普金斯大学卢纶物理学家贾里德·卡普兰(Jared Kaplan)在2020年发表了一篇关于AI的开创性论文,其表明训练数据越多,大型语言模型的表现越好,就像学生通过阅读更多书籍来学习更多知识一样。互联网上公开可用的数据在大模型面前并不是取之不尽的。据人工智能研究机构Epoch估计,2026年所有高质量可用数据就有可能被耗尽,互联网生产数据的速度有可能比不上不断膨胀的大模型的消耗速度。“数据饥渴”的AI公司获取数据的路径,总结起来就是:免费的,直接用;自家的,直接用且不给别人用;可以付费的,付费;付费也买不到的,必要时想想办法弄到手。近日,《纽约时报》报道OpenAI曾在训练GPT-4时利用了Google旗下YouTube的内容。直接取用肯定不行,Google不让啊。于是OpenAI计上心头,创建了一个名为Whisper的语音识别工具,将超过100万小时的YouTube视频转录,然后再喂给模型。此前,尚未开放给大众的文本到视频工具Sora也引起了外界怀疑。在一次采访中,OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)没有正面回应“是否使用YouTube、Instagram、Facebook等平台的内容训练Sora”这一问题,她听到该问题时复杂的表情甚至成为了互联网梗图。YouTube首席执行官尼尔·莫汉(Neal Mohan)在4月5日对此表态,称目前没有证据表明OpenAI用了YouTube视频训练Sora,但如果OpenAI果真这么做了,那“明显违反”了YouTube平台的使用条款。要是以为YouTube是在努力保护用户(或说创作者),可能有点天真。莫汉在采访中也提到,Google确实用了YouTube上的一些内容训练了旗下大模型Gemini。另一边,巨头Meta的马克·扎克伯格(Mark Zuckerberg)也将平台数据视为自己的竞争优势。扎克伯格曾直言:“我们战术的下一个关键部分是从独特的数据中学习。”“在Facebook和Instagram上,有数千亿张公开分享的图片和数百亿段公开视频。”在去年怒喷微软,威胁要起诉其使用X的数据训练AI的埃隆·马斯克(Elon Musk),也悄悄更新了X的隐私政策,表示会使用社交媒体数据来训练机器学习和AI模型。在网友的追问下,马斯克干脆承认:“只会用公开信息(训练),不会用私信和任何私人数据。”有海量UGC(用户生成内容)且自己也做AI的公司,数据是不卖的,只给自己用。其他AI公司要么就铤而走险偷偷用,要么就要去找那些有内容但愿意出售的公司。ShutterStock和Reddit都是活跃在数据交易场上的“大卖家”。图片网站ShutterStock几乎和所有叫得上名字的AI大公司都合作了个遍,包括但不限于OpenAI、Meta、Google、亚马逊,达成使用其图片训练AI的协议。每笔交易的最初价格从2000万美元到5000万美元不等,而且后续还扩大了交易规模。随着AI浪潮翻涌,“美国贴吧”Reddit意识到自己的数据对AI公司至关重要,且非常宝贵。去年开始,Reddit开始与一系列AIGC领军企业展开谈判,商议数据付费使用的问题。说白了就是,不付费要授权,休想用这一头部美国贴吧的内容喂AI了。谈判陆续有了进展,如今年2月,Reddit就与Google达成协议,授权数据给其训练AI,合同价值约每年6000万美元。在这样的态势下,Photobucket这样的老牌社区被盯上只是时间问题。Photobucket的首席执行官泰德·伦纳德(Ted Leonard)表示,他正在和多家科技公司谈判,涉及130亿个内容(照片和视频)的授权。每张照片的授权价格在5美分到1美元,视频则为1美元以上。一位买家告诉伦纳德,他们想要超过10亿个视频,比Photobucket拥有的还多。以现在的谈判来看,Photobucket坐拥数十亿美元的内容。机智的Photoshop在去年10月更新了其用户条款,授予平台“不受限制的权利”,可以出售任何上传的内容,用于培训AI系统。伦纳德甚至表示,有望用数据授权替代公司的广告销售业务。繁忙的数据交易市场,也许给式微甚至已经死亡的UGC平台提供了一个“副业”。天涯究竟积累了多少内容不可知,几个数据可以从侧面一窥其规模。巅峰时期,天涯的日访问量曾达到200...
PC版:
手机版: