AI外包正转向欧美地区 寻找各类专业人才训练大模型

AI外包正转向欧美地区 寻找各类专业人才训练大模型 杰伊(Jay)高中时爱上了数学,他的物理老师向他展示了复杂微积分的乐趣。大学时期,杰伊专攻物理和数学,梦想有朝一日能将自己的知识传授给下一代。这个机会出现在2022年10月,当时25岁的杰伊加入了一个在线平台,以数学专家的身份为方程式打分。但他的工作不同于传统教师,他的工作重心将聚焦于训练一个人工智能系统,而这恰恰可能使他的专业知识变得不再那么重要。为了保护自己的隐私,杰伊选择了使用化名。他透露,他当时帮助培训的系统由OpenAI开发,他的工作是为该公司的大语言模型(LLM)提供专家指导。这一机器学习系统具备聊天机器人的会话能力,并试图提升其在数学领域的解题能力。在葡萄牙的家中,杰伊负责评估人工智能模型在解决数学问题时的步骤是否正确,通过添加点赞或不满的表情符号来提供反馈,甚至在必要时解释模型出错的原因。杰伊知道,他是在为萨姆·奥特曼(Sam Altman)领导的OpenAI训练算法,因为他被邀请加入OpenAI的Slack工作频道。在与《连线》分享的截图显示,杰伊是名为“数学培训师”的小组成员,该小组是由OpenAI研究员尤里·布尔达(Yuri Burda)建立的。但杰伊并非直接为OpenAI工作,他的雇主是全球最大的数据劳动平台之一Remotasks。这家公司是美国初创公司ScaleAI的子公司,2021年的估值已超70亿美元,其客户涵盖了OpenAI、Meta、微软和美国陆军等。Scale AI与客户密切合作,提供和管理他们需要的训练数据,以建立自动驾驶汽车或大语言模型背后的人工智能模型。通常情况下,这些宝贵的数据往往来源于与Scale AI紧密合作的Remotasks签约员工。自2017年成立以来,这家数据巨头已与全球数十万名员工建立合作关系,尤其是在劳动力成本相对较低的国家,如菲律宾。Remotasks表示,菲律宾员工主要致力于自动驾驶汽车的计算机视觉训练,帮助车辆精准识别周围环境。然而,在过去的一年里,Scale AI的重点已转向美国和欧洲。他们正积极招募白领和语言专家,为日益兴起的大语言模型提供训练数据。这一转变无疑加剧了人们对未来职业的担忧,这些白领和语言专家正在训练将来可能取代他们职业的人工智能竞争对手。杰伊对自己在未来工作中充当的角色进行了深入反思。他承认自己在传递知识给人工智能,但他坚信,人工智能模型难以复制人类在解决复杂数学问题时的独特能力。他期望自己参与的工作能够创造出与他水平相当的聊天机器人,共同探索数学的奥秘,而非取代他的人工智能。他说:“当我开始训练这些模型时,这正是我所期待的。”面对人工智能系统的崛起,Scale AI负责数据运营的副总裁威洛·普里马克(Willow Primack)强调,随着AI系统开始生成知识和内容,Remotasks等公司正寻求不同领域的专家帮助,以确保人工智能应用的准确性和可靠性。随着生成式人工智能在科技行业的广泛应用,数据提供商急需一批能够进行“专家事实核查”的新承包商。杰伊的时薪高达60美元,他在OpenAI推出ChatGPT之前的一个月加入了Remotasks。自那时起,该公司加速招聘专业“数据标注工”。据《连线》杂志报道,2024年1月,Remotasks发布了招聘广告,寻找能够掌握20多种欧洲语言的人才,以及美国的创意作家、体育记者、化学专家和核物理学家。普里马克说:“如果让生成性人工智能完全依赖自身,它们可能会产生幻觉。即便它们提供的答案是事实,也有办法改进,使其更加全面。专家的参与至关重要,他们提供的数据能够真正提升人工智能的能力。”普里马克表示,尽管Scale AI在菲律宾拥有庞大的运营规模,但该公司正逐步将重心转向美国和以英语为母语的欧洲地区,寻求更多专业承包商的加入。普里马克不太愿意透露到底是什么促使了这种转变,是特定的Scale AI客户要求更多的专家数据,还是该公司试图预测下一代AI需要什么?她称两者兼而有之,并解释说,专业承包商正为众多客户培训数据,而不仅仅是为单一客户服务。对于这一转变的影响,行业研究人员给出了自己的解释。德国魏森鲍姆研究所的数据、算法系统和伦理研究小组负责人米拉格罗斯·米塞利(Milagros Miceli)指出,过去大多数人工智能技术都是在大型、多样化的数据集上进行训练的。然而,随着版权问题的日益突出,许多知名出版商开始禁止数据收集,这使得数据收集变得更加困难。因此,付钱给专业承包商成为了一种可行的解决方案。“去年,很多公司都在创建新的数据,以避免版权投诉。”米塞利解释道,“如果你雇佣一名作家专门为训练你的模型而写故事,并支付他们薪水,那么你就拥有了这些文本的所有权,也就解决了版权问题。”自ChatGPT等生成式人工智能技术亮相以来,越来越多的研究预测,在美国和欧洲,那些通常由受过大学教育的人占据的职业将面临颠覆性的变革,而这些人以前通常被认为不会受到技术变革的影响。尽管存在这些担忧,但专业承包商提供的高薪工作仍然极具吸引力,可能让一些人难以放弃可能导致他们失业的培训工作。目前,专业职位的薪酬因专业知识而异。根据最新的招聘信息,传染病专家在远程培训任务上的时薪最高可达40美元,而历史学家的时薪为32美元。然而,受雇于特定语言训练算法的人往往得到的报酬更少。例如,一份招聘保加利亚作家的广告给出的时薪为5.64美元,而会说芬兰语的专家的时薪几乎是保加利亚作家的五倍,达到23美元。最近刚大学毕业的安娜(Ana)住在西班牙,她认为Remotasks为像她这样的作家提供17美元时薪“非常高”。这项工作包括监督名为Catalan的聊天机器人,然后对其回答进行排序或纠正。安娜说:“我们必须纠正拼写错误,还要看看答案是否过于美国化。”当提示与色情或暴力有关时,由安娜来确保机器人拒绝回答。她还被要求确保人工智能不能回答诸如“我应该把毕生的积蓄投资在哪里?”之类的问题。对安娜来说,这份工作很划算。因为地处偏远,她可以在妈妈靠近海滩的房子里工作。“我度过了最美好的夏天,”她说,并解释了她在2023年5月、6月和7月为远程任务采用的灵活时间表。“在20个小时内,我赚的钱比以前工作40个小时还多。”她被告知要工作六个月左右。但到了8月焚灭,仅仅三个半月后,任务开始减少。最终,她的经理也不再回复她的信息。安娜的经历表明,虽然白领“数据标注工”的薪资可能高于东南亚同行,但他们仍然面临着不确定性。杰伊和安娜都说,Remotasks突然切断了他们的联系,他们觉得自己被抛弃了,而原因他们并不完全了解。工作了一年之后,杰伊说他突然无法再领取平台上的任务了。普里马克也称,当被问及项目为何突然终止时,Remotasks的解释是,他们有时会暂停一个项目,以评估数据集的质量。但普里马克承认,这种情况相当罕见。那年夏天,安娜的朋友们围绕她的新职业展开了深入的讨论,担忧这一趋势是否预示着人工智能将逐渐取代他们的工作。但今天,她认为这只是人类进步的又一个篇章,一个她也可以利用的篇章。对她而言,人工智能不是威胁,而是助力,是她可以积极利用的工具。她说:“假设你不想在烈日下在土豆地里工作9个小时。你要想出一种技术,让它变得更容易。”安娜现在把这些反思运用到自己的工作中,成为一名文案,利用人工智能来为她出谋划策。(小小) ... PC版: 手机版:

相关推荐

封面图片

人工智能公司正在转向“小型”语言模型以获利

人工智能公司正在转向“小型”语言模型以获利 投入数十亿美元构建所谓的大型语言模型以推动生成式人工智能产品的人工智能公司,现在正寄望于一种新的收入增长方式:小型语言模型。苹果、微软、Meta 和谷歌最近都发布了新的人工智能模型,这些模型的“参数”较少,但功能仍然强大。 通常来说,参数的数量越多,人工智能软件的性能就越好,能处理的任务也就越复杂和微妙。本周公布的 OpenAI 的最新模型 GPT-4o 和谷歌的 Gemini 1.5 Pro,据估计都拥有超过1万亿个参数。而 Meta 正在训练其开源 Llama 模型的4000亿参数版本。 除了努力说服一些企业客户支付运行生成式人工智能产品所需的大额费用外,对数据和版权责任的担忧也阻碍了其广泛应用。这促使像 Meta 和谷歌这样的科技集团推出只有几十亿参数的小型语言模型,作为更经济、更节能、可定制的替代方案,这些模型在训练和运行时所需的电力更少,同时还能保护敏感数据。

封面图片

【国家发改委:支持开展通用人工智能大模型和垂直领域人工智能大模型训练】

【国家发改委:支持开展通用人工智能大模型和垂直领域人工智能大模型训练】 12 月 15 日,国家发改委就《“数据要素 ×”三年行动计划(2024-2026 年)(征求意见稿)》向社会公开征求意见。意见稿提出,以科学数据支持大模型开发,深入挖掘包含科技文献在内的各类科学数据,通过细粒度的知识抽取,构建科学知识资源底座,建设高质量语料库和基础科学数据集,支持开展通用人工智能大模型和垂直领域人工智能大模型训练。探索科研新范式,面向新范式需求迫切的重点科研领域,充分依托各类数据库与知识库,推进跨机构、跨学科、跨领域协同创新,发现新规律,创造新知识,加速科学研究范式变革。 快讯/广告 联系 @xingkong888885

封面图片

《极客时间 彭靖田AI大模型微调训练营 》

《极客时间 彭靖田AI大模型微调训练营 》 简介:极客时间 彭靖田AI大模型微调训练营 是一门深入探讨人工智能技术的课程,涵盖机器学习、深度学习、自然语言处理等核心技术。课程结合实际案例和编程实战,帮助学员掌握AI应用开发能力,适合对人工智能感兴趣的开发者和技术人员。 标签: #人工智能#机器学习#AI开发 文件大小:NG 链接:

封面图片

微软、OpenAI等公司已使用合成数据来训练AI模型

微软、OpenAI等公司已使用合成数据来训练AI模型 金十数据7月20日讯,人工智能初创公司Cohere首席执行官AidenGomez表示,由于Reddit、推特等公司的数据采集要价太高,微软、OpenAI和Cohere等公司,已使用合成数据来训练AI模型。Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。 来源:https://flash.jin10.com/detail/20230720104640322100 via 匿名 标签: #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

苹果公司寻求Photobucket数十亿张图片的授权以训练人工智能模型

苹果公司寻求Photobucket数十亿张图片的授权以训练人工智能模型 生成式人工智能的兴起刺激了对多样化数据集的需求,而像 Photobucket 这样的公司能够提供大量的视觉数据,训练人工智能根据文本提示生成内容。在 ChatGPT 于 2022 年底推出后不久,苹果公司就与 Shutterstock 达成了数百万张图片的授权协议,据信这笔交易的价值在 2500 万美元到 5000 万美元之间。追求"道德来源"和合法明确的数据,标志着苹果与早先随意采集网络数据的做法不同。据报道,苹果公司准备在 6 月份的 WWDC 大会上展示iOS 18及其他主要软件更新所带来的一系列人工智能功能。相关文章:Shutterstock授权苹果公司使用数百万张图片来训练其人工智能模型 ... PC版: 手机版:

封面图片

Meta因使用个人数据训练AI模型收到欧盟11起投诉

Meta因使用个人数据训练AI模型收到欧盟11起投诉 NOYB已经就涉嫌违反欧盟《通用数据保护条例》(GDPR)对Meta和其他大型科技公司提出了几项投诉,该条例可能会对违规行为处以高达公司全球总营业额4%的罚款。对此,Meta引用了使用用户数据来训练和开发其生成式人工智能模型和其他人工智能工具的合法利益,这些模型和工具可以与第三方共享。NOYB创始人Max Schrems在一份声明中表示,欧洲最高法院已于2021年就这一问题作出了裁决。他表示:“欧洲法院(CJEU)已经明确表示,在广告方面,Meta没有‘合法利益’凌驾于用户的数据保护权利之上。”“然而,该公司正试图用同样的理由来训练未定义的‘人工智能技术’。Meta似乎又一次公然无视欧盟法院的判决,”Schrems表示,并补充道,用户选择不参与的程序非常复杂。“把责任推给用户是完全荒谬的。法律要求Meta获得选择参与的同意,而不是提供一个隐藏的、误导性的选择退出表格,”Schrems补充道,“如果Meta想使用你的数据,他们必须征得你的许可。相反,他们让用户请求被排除在外。”由于Meta即将进行的修改,NOYB要求奥地利、比利时、法国、德国、希腊、意大利、爱尔兰、荷兰、挪威、波兰和西班牙的数据保护当局启动紧急程序。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人