配音演员新出路？ElevenLabs 现在可以在语音库中分享自己的声音模型，并获得收益。

配音演员新出路？ ElevenLabs 现在可以在语音库中分享自己的声音模型，并获得收益。只需要 30 分钟的音频用于训练。工作原理如下：前往 VoiceLab 并上传 30 分钟以上的音频命名并描述你的声音设置价格和使用参数添加付款详细信息

在Telegram中查看

相关推荐

游戏配音演员因 AI 声音考虑罢工

游戏配音演员因 AI 声音考虑罢工好莱坞正准备迎接另一场演员罢工，这次针对的是游戏业。代表逾十万演员的工会组织 SAG-AFTRA 表示正与主要游戏公司谈论，核心问题是 AI。部分游戏工作室已经为节省资金开始用 AI 生成声音。配音演员们都对此感到担忧。生成式 AI 可以在三秒内高效克隆声音。配音演员们的罢工可能会影响微软旗下的动视暴雪、迪士尼、EA、 Epic Games 和华纳兄弟等主要游戏发行商。去年 SAG-AFTRA 针对好莱坞电影公司进行了 118 天的罢工，达成新的合同。来源，频道：@kejiqu 群组：@kejiquchat

被AI偷走声音！美国两位配音演员正式提起诉讼

被AI偷走声音！美国两位配音演员正式提起诉讼访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器就在美东时间周四，Lehrman连同另一位配音演员Linnea Sage在纽约联邦法院对人工智能(AI)初创公司Lovo提起了诉讼，指控该公司在其AI配音技术中非法复制和使用他们的声音。他们声称，Lovo欺骗他们提供声音样本后，未经许可销售他们声音的AI版本。这两位演员还试图联合其他声音被窃取的人，然后发起集体诉讼。最近，创意人员、作家和艺术家对多家科技公司提起了一系列法律诉讼，这些人士表示，他们的作品在未经他们许可的情况下被用于训练最终可能与他们竞争的AI系统，配音演员的诉讼只是其中最新的一起。这类诉讼加剧了人们对AI模型训练的担忧，因为这需要大量数据，可能会违反版权和知识产权法。Lovo宣传称，AI生成的语音技术将用于营销、教育和产品演示。诉状中提到，Lovo公司向客户提供的服务中隐含了一个条件，即每位配音演员都已经同意了Lovo的客户可以访问并使用该演员的声音。但是，对于Lehrman和Sage以及其他没有同意Lovo公司条款的人来说，继续未经授权地使用原告的声音，就构成了服务的盗窃和不当使用。’Lehrman指出，2020年5月，他收到了一个名为“User25199087”的账户在零工网站上要求提供旁白叙述服务的请求。诉状称，当他询问语音样本的用途时，对方告诉他，语音样本将“仅限用于学术研究目的，不会用于其他用途”。Lehrman在那次服务中获得了1200美元的报酬。后来，Lehrman在YouTube上看到了一段视频，听起来像是在用他的声音进行解说，尽管他从未参与过视频的创作。他还听到自己的声音被用在一个描述AI技术危险的播客上。同样，根据诉状，Sage在2019年获得了一份制作“广告测试脚本”的工作，她被告知相关测试内容不会对外公开，她得到了400美元的报酬。后来，她在YouTube上发现了一段Lovo投资者展示其技术的录音，而声音正是Sage本人的。Lehrman和Sage声称，当初联系他们的人是Lovo的员工，然后该公司谎称他们的声音样本将被用于研究或测试目的，后来却被这家AI公司用于违规途径。“需要明确的是，客户从Lovo购买的产品是被盗的财产，并由该公司以虚假的借口进行了营销。”这些配音演员正在寻求500多万美元的损失赔偿，并要求法院下令阻止Lovo继续使用他们的声音。 ... PC版：手机版：

两名配音演员在纽约起诉人工智能配音公司

两名配音演员在纽约起诉人工智能配音公司当地时间16日，两名配音演员在曼哈顿联邦法院起诉人工智能初创公司 Lovo，指控该公司非法复制他们的声音，并在未经许可的情况下在其 AI 配音技术中使用它们。保罗·斯凯·莱尔曼 (Paul Skye Lehrman) 和林尼亚·塞奇 (Linnea Sage) 表示，总部位于旧金山的 Lovo 在诱骗他们向该公司提供语音样本后，未经许可出售了他们声音的 AI 版本。演员们要求集体赔偿至少500万美元，并指控 Lovo 存在欺诈、虚假广告和侵犯他们的公开权。

OpenAI展示语音克隆人工智能模型只需15秒样本即可工作

OpenAI展示语音克隆人工智能模型只需15秒样本即可工作可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。在 OpenAI 发布的这些样本中，你可以听到Age of Learning利用该技术生成预制画外音内容，以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。首先是英文参考音频：下面是人工智能根据该样本生成的三个音频片段：OpenAI 表示，它于 2022 年底开始开发语音引擎，该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯（Jeff Harris）在接受TechCrunch 采访时表示，该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物，该模型将只向大约 10 名开发者开放。人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音，但专注于语音生成的人较少，部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs，它们提供人工智能语音克隆技术和工具。与此同时，美国政府也在努力遏制不道德地使用人工智能语音技术。上个月，美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话，因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。据 OpenAI 称，其合作伙伴同意遵守其使用政策，即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意"，不建立个人用户创建自己声音的方法，并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印，以追踪其来源，并积极监控音频的使用情况。OpenAI 提出了几项措施，认为这些措施可以限制类似工具的风险，包括逐步淘汰访问银行账户的语音认证，制定政策保护人工智能中对人声的使用，加强人工智能深度伪造方面的教育，以及开发人工智能内容跟踪系统。了解更多： ... PC版：手机版：

Google全新大模型突然发布：百万上下文仅靠提示学会新语言

Google全新大模型突然发布：百万上下文仅靠提示学会新语言现在仅仅中杯1.5 Pro版就能越级打平上一代大杯1.0 Ultra版，更是在27项测试中超越平级的1.0 Pro。支持100万token上下文窗口，迄今为止大模型中最长，直接甩开对手一个量级。这还只是对外发布的版本，Google更是透露了内部研究版本已经能直冲1000万。现在Gemini能处理的内容，可换算成超过70万单词，或1小时视频、11小时音频、超过3万行代码。没错，这些数据模态Gemini 1.5都已经内建支持。从今天起，开发者和客户就可以在Vertex API或AI Studio申请试用。刚刚收到消息还在震惊中的网友们 be like：还有人直接@了OpenAI的奥特曼，这你们不跟进一波？上下文理解能力拉满目前Google已放出三个不同任务的演示视频，只能说Gemini 1.5是个抽象派（doge）。在第一段演示视频中，展示的是Gemini 1.5处理长视频的能力。使用的视频是巴斯特·基顿（Buster Keaton）的44分钟电影，共696161 token。演示中直接上传了电影，并给了模型这样的提示词：找到从人的口袋中取出一张纸的那一刻，并告诉我一些关于它的关键信息以及时间码。随后，模型立刻处理，输入框旁边带有一个“计时器”实时记录所耗时间：不到一分钟，模型做出了回应，指出12:01的时候有个人从兜里掏出了一张纸，内容是高盛典当经纪公司的一张当票，并且还给出了当票上的时间、成本等详细信息。随后经查证，确认模型给出的12:01这个时间点准确无误：除了纯文字prompt，还有更多玩法。直接给模型一张抽象“场景图”，询问“发生这种情况时的时间码是多少？”。同样不到一分钟，模型准确给出了的电影对应的时间点15:34。在第二段演示视频中，Google展示了Gemini 1.5分析和理解复杂代码库的能力。用到的是Three.js，这是一个3D Javascript库，包含约100000行代码、示例、文档等。演示中他们将所有内容放到了一个txt文件中，共816767 token，输入给模型并要求它“找到三个示例来学习角色动画”。结果模型查看了数百个示例后筛选出了三个关于混合骨骼动画、姿势、面部动画的示例。这只是开胃小菜。接下来只用文字询问模型“动画Little Tokyo的demo是由什么控制？”模型不仅找到了这个demo，并且解释了动画嵌入在gLTF模型中。并且还能实现“定制代码”。让模型“给一些代码，添加一个滑块来控制动画的速度。使用其它演示所具有的那种GUI”。Gemini 1.5分分钟给出了可以成功运行的代码，动画右上角出现了一个可控速的滑块：当然也可以做“代码定位”。仅靠一张demo的图片，Gemini 1.5就能在代码库中从数百个demo中，找到该图对应动画的代码：还能修改代码，让地形变得平坦，并解释其中的工作原理：修改代码这一块，对文本几何体的修改也不在话下：第三个演示视频展示的是Gemini 1.5的文档处理能力。选用的是阿波罗11号登月任务的402页PDF记录，共326658 token。要求Gemini 1.5“找到三个搞笑时刻，并列出文字记录以及表情符号引述”：30秒，模型给出了回应，其一是迈克尔·柯林斯的这句话“我敢打赌你一定要喝一杯咖啡”，经查询文档中的确有记录：更抽象一点，绘制一个靴子的图片，询问模型“这是什么时刻”。模型正确地将其识别为这是Neil在月球上的第一步：最后同样可以询问模型快速定位这一时刻在文档中对应的时间位置：差不多的抽象风同样适用于1382页、732000 token的《悲惨世界》，一张图定位小说位置。仅从提示词中学会一门新语言对于Gemini 1.5的技术细节，Google遵循了OpenAI开的好头，只发布技术报告而非论文。其中透露Gemini 1.5使用了MoE架构，但没有更多细节。与上代1.0 Pro相比，1.5 Pro在数学、科学、推理、多语言、视频理解上进步最大，并达到1.0 Ultra层次。为验证长上下文窗口的性能，使用了开源社区通行的大海捞针测试，也就是在长文本中准确找到可以藏起来的一处关键事实。结果50万token之前的表现非常完美，一直到千万token，Gemini 1.5也只失误了5次。此外还将测试扩展到多模态版本，如在视频画面的某一帧中藏一句话，给的例子是在阿尔法狗的纪录片中藏了“The secret word is ‘needle’”字样。结果在视频、音频测试中都实现了100%的召回率。特别是音频中，对比GPT-4+Whisper的结果，差距非常明显。此外GoogleDeepMind团队还测试了一项高难任务，仅通过长提示词让模型学会全新的技能。输入一整本语法书，Gemini 1.5 Pro就能在翻译全球不到200人使用的Kalamang上达到人类水平。相比之下，GPT-4 Turbo和Claude 2.1一次只能看完半本书，想获得这个技能就必须要微调或者使用外部工具了。也难怪有网友看过后惊呼，“哥们这是要把RAG玩死啊”。One More ThingGoogle还公布了一波已在业务中采用Gemini大模型的客户。其中有三星手机这样的大厂，也有像Jasper这种靠GPT起家的创业公司，甚至OpenAI董事Adam D‘Angelo旗下的Quora。与OpenAI形成了直接竞争关系。对此，一位网友道出了大家的心声：真希望这能促使OpenAI发布他们的下一代大模型。参考链接：[1]... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人