Valle 的AI生成人声效果，已经有 @elevenlabsio 这家公司实现并且商用，支持任意5s音频作为 prompt 进

Valle 的AI生成人声效果，已经有 @elevenlabsio 这家公司实现并且商用，支持任意5s音频作为 prompt 进行合成。这是他们用了很多名人的声音所做的 demo ，自己感受下吧（目前声纹不具有版权，很容易被滥用） : 如果你想了解 AI 生成人声已经发展到什么地步了可以在这里试听最新的 Valle 的 demo 只需要3秒的人声输入作为 Prompt 就可以生成同样的人声而且不光是人声，连背景噪音都能生成

在Telegram中查看

相关推荐

Valle 的AI生成人声效果，已经有 @elevenlabsio这家公司实现并且商用，支持任意5s音频作为 prompt 进行

Valle 的AI生成人声效果，已经有 @elevenlabsio这家公司实现并且商用，支持任意5s音频作为 prompt 进行合成。这是他们用了很多名人的声音所做的 demo ，自己感受下吧（目前声纹不具有版权，很容易被滥用）

Stability AI 发布用于生成声音和歌曲的开放式AI模型

Stability AI 发布用于生成声音和歌曲的开放式AI模型该模型使用来自免费音乐库 FreeSound 和免费音乐档案馆的约 486,000 个样本进行训练。Stability AI 公司称，该模型可用于为视频、电影和电视节目创建鼓点、乐器旋律、环境噪音和"制作元素"，也可用于"编辑"现有歌曲或将一首歌的风格（如流畅爵士乐）应用到另一首歌中。Stability AI公司在其公司博客上发表的一篇文章中写道："此次开源发布的一个主要好处是，用户可以根据自己的自定义音频数据对模型进行微调。例如，鼓手可以在自己的鼓声录音样本上进行微调，生成新的节拍。"不过，Stable Audio Open 也有其局限性。它不能生成完整的歌曲、旋律或人声，至少不能生成好的歌曲、旋律或人声。Stability AI 表示，它并没有为此进行优化，并建议希望获得这些功能的用户选择该公司的高级 Stable Audio 服务。Stable Audio Open 也不能用于商业用途，其服务条款禁止这样做。此外，它在不同音乐风格和文化或英语以外的语言描述中的表现也不尽相同，Stability AI 将这些偏差归咎于训练数据。"数据源可能缺乏多样性，所有文化在数据集中都不具有同等代表性，"Stability AI 公司在对模型的描述中写道。"模型生成的样本将反映训练数据的偏差"。稳定人工智能公司（Stability AI）长期以来一直在努力扭转业务颓势，最近，该公司负责生成音频的副总裁埃德-牛顿-雷克斯（Ed Newton-Rex）因不同意该公司关于在受版权保护的作品上训练生成人工智能模型构成"合理使用"的立场而辞职，从而引发争议。Stable Audio Open 似乎试图扭转这种说法，同时不着痕迹地宣传 Stability AI 的付费产品。随着包括 Stability 音乐生成器在内的音乐生成器越来越受欢迎，版权以及一些生成器创建者可能滥用版权的方式正成为人们关注的焦点。5 月，代表比利-乔尔（Billy Joel）、Doja Cat 和 Lil Nas X 等艺术家的索尼音乐公司致函700 家人工智能公司，警告不要"未经授权使用"其内容来训练音频生成器。今年 3 月，美国田纳西州签署了第一部旨在遏制人工智能在音乐领域滥用的法律。 ... PC版：手机版：

免费GPT-4o来袭音频视觉文本实现“大一统”

免费GPT-4o来袭音频视觉文本实现“大一统” 此前，有传言称 OpenAI 将推出 AI 搜索引擎，旨在与Google明天举办的 I/O 开发者大会一较高下，一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X（原Twitter）上表示，要展示的并非 GPT-5 或搜索引擎，而是一些令人期待的创新成果，他本人对此充满期待，认为其像魔法一样神奇。那么，GPT-4o 是否真的如 Sam Altman 所说，是 OpenAI 带来的“新魔法”呢？1多模态实时语音助手更快更全更有情感登台后，Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI，紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上，Mira Murati 与团队成员 Mark Chen、Barret Zoph一起，重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现，尤其展现了其语音能力。若用关键词加以总结，搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时，用户不必等 ChatGPT 说完，可以随时插话；模型能够实时响应，不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后，ChatGPT 还会提醒需要冷静情绪，识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事，它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力，用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是，打开摄像头后写下一道数学题，ChatGPT 还会一步步引导该如何解下一步，其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑，OpenAI 团队还在现场展示了一波英语和意大利语的实时互译，中间实现零延迟。更有意思的是，ChatGPT 在对话中还会使用语气词，甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后，ChatGPT 甚至会在发出撒娇的声音后，再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中，Barret 让 ChatGPT 猜测自己的情绪，在他开始露出笑脸后，ChatGPT 直接语音回复“你看起来很开心，笑容灿烂，还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手（如 Siri ）的困境，即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段：语音识别（ASR），将音频转换为文本，例如 Whisper；大语言模型（LLM）规划接下来的话语，将第一阶段的文本转换为新的文本；语音合成（TTS），将新文本转换回音频，如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行，就会产生巨大的延迟，特别是当每一步都需要等待几秒时，用户体验就会急剧下降，哪怕合成的音频听起来非常真实，也会让用户格外“出戏”，就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此，依赖三个独立模型工作，平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)，语音助手也总会出现信息丢失，既不能判断语调、多个说话者或背景噪音，也不能输出笑声、唱歌或表达情感。而现在，GPT-4o 的音频输入响应时间最短为232毫秒，平均响应时间为320毫秒，与人类在对话中的反应时间极为相似。作为一个全新的单一模型，GPT-4o 能端到端地跨文本、视觉和音频，所有输入和输出都由同一个神经网络处理，直接一步到位，在用户输入后（文本、语音、图像、视频均可）直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示，GPT-4o 最棒的地方在于，它将 GPT-4 的智能提供给每个人，包括免费用户，将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni，在拉丁语词根中是“全”的意思，是涵盖了文字、语音、图片、视频的多模态模型，接受任何模态的组合作为输入，并能生成任何模态的组合输出。据 OpenAI 官网，GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平，而且在 API 调用上速度更快，价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是，GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面，GPT-4o 的语音识别（ASR）也比 OpenAI 的语音识别模型 Whisper 性能更佳（越低越好）。与 Meta、Google的语音转写模型相比，GPT-4o 同样领先（越高越好）。若落实到实际生活的使用中，GPT-4o 究竟能给普罗大众带来什么变化呢？OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如，在输入人物图片、海报元素以及想要的风格后，GPT-4o 就能给用户生成一张电影海报。或者，根据输入的诗歌文本，GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后，GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天，有 1 亿人使用 ChatGPT 来创作、工作、学习，以前这些高级工具只对付费用户可用，但现在，有了 GPT-4o 的效率，我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外，OpenAI 研究员 William Fedus 透露，此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”，就是本次登场的 GPT-4o 。截至2024年3月，OpenAI 在不到十年的运营时间内，已经完成了10轮的融资，累计筹集资金超过了140亿美元，其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值，OpenAI 的技术版图已经横跨了多个 AI 的关键领域，形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务，并通过对话、量化、分析、微调等高级功能，为开发者提供技术支持；ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域，OpenAI 也有一定的技术积累，比如经过训练的深度神经网络 MuseNet，可预测并生成 MIDI 音乐文件中的后续音符，以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora，更是让网友们感叹“现实，不存在了。”毋庸置疑，OpenAI 是大模型这场擂台赛中当之无愧的擂主，其技术与产品的迭代更是整个行业的风向标，不少大模型创业者都遇过“OpenAI 不做，没人投；OpenAI 一做，人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”，不少 AI 行业从业者开始对 OpenAI 祛魅，认为“大模型护城河很浅，一年就赶上了。”现在看来，OpenAI 果然还是 OpenAI。 ... PC版：手机版：

AI开始对音乐人下手了

AI开始对音乐人下手了 "我和团队已经在想办法改行了。"音乐人Ferry对第一财经记者开了个玩笑。Ferry毕业于伯克利音乐学院，此前是香港交响乐团作曲家，现在是上海音乐工作室的音乐总监，主要工作内容是音乐制作和游戏配乐。他说，自己做了15年音乐，经历了很多不同风格的洗礼，有了很多经验。但对Suno而言，只是几秒钟的事情。如果换算一下，Suno写十首Demo的时间只需5分钟，换音乐人可能要一个月。他预计，"AI音乐对音乐制作人是毁灭性的（打击），发展成熟后，在音乐制作这一块会取代90%的音乐人，也会有大量音乐人失业。"但AI并非全能。音乐的精髓远超过技术的堆砌和算法的编织，它是情感的表达和创造力的展现。这种源于内心深处的情感和独特的创造力，是人工智能目前难以触及和全然复制的。第一财经记者采访的多名音乐人也认为，目前AI仍然是一个需要人类引导的工具，代替不了10%的顶尖音乐人。记者实测：几十秒至1分钟内生成流畅歌曲Suno水平到底如何？记者在Suno AI网站进行了实测。记者输入的歌曲描述为："创作一首关于旅行的歌曲，曲风明快，由吉他、钢琴、小提琴、鼓演奏。表达旅行的轻松愉快，以及对人生的感悟"。几十秒后Suno就生成了歌曲并可播放，该歌曲标注的关键词是"piano（钢琴）、violin（小提琴）、folk（民间音乐）、joyful（快乐的）、guitar（吉他）、drums（鼓）"。该歌曲使用钢琴和鼓伴奏，但记者并未听到小提琴的声音，歌词则出现了钢琴、小提琴、吉他、鼓点的字眼。歌曲时长1分40秒，由两段主歌和一段副歌组成，女声歌唱，流行乐风格，十分流畅，但歌词还是有些许生硬。记者随后让通义千问生成一段关于"失恋后自己旅行并表述旅行感受和人生思考"的歌词，将歌词输入Suno，音乐风格输入"粤语，流行，哀伤"，大约一分钟生成歌曲并可播放。此次生成的歌曲曲风依然流畅，但仍是用普通话演唱。记者将提示词改为英语，并输入《再别康桥》作为歌词，这次AI终于在前几句用粤语歌唱，但马上又变成了普通话演唱。第一财经记者实测Suno这三次Suno生成的歌曲都很流畅，可以发现它对流行、摇滚风格的把握也比较精准，但记者可以感受到Suno对于中文的理解不如英语，Suno对提示词的理解也有限，要生成方言歌曲不太顺利。Suno自己生成的歌词有些许生硬，结合其他大语言模型生成歌词效果会更好。在Suno的"每日推荐"榜单中，有更多生成效果更好的歌曲，歌词包含各国语言。记者点进去试听，发现排名前列的歌曲人声都非常清晰，歌曲流畅且风格鲜明，歌曲自成一体。中文歌曲中，儿歌《让我们荡起双桨》被"改"成重金属风格，《春天在哪里》"改"成爵士蓝调曲风，《蜀道难》变成摇滚风，宋词《声声慢·寻寻觅觅》则以古风呈现。还有网友做了AI工具"全家桶"，用OpenAI创作歌词，Midjourney生图、Runway让其动起来，最后再让Suno配乐。不过近日，在运营成本压力之下，Suno调整了价格体系。记者看到，目前在Suno AI网站上，注册新账号每天可获50个积分，共可用于10次生成歌曲（50 credits renew daily /10 songs），随后要继续使用就要充值，1个月内生成500首歌曲需要8美元，每个月内生成2000首歌需要24美元。Suno AI渗透音乐圈Roro 去年刚毕业，目前在一家唱片公司当练习生，她向记者感慨，最近Suno太火了，身边好多音乐人朋友都在用这个软件。"刚接触这个软件时觉得‘哇’太吓人了，因为大家只要在这个软件点点我们想要的要求，作词、作曲、编曲就能马上出来，而这些我们创作人是需要花很漫长的时间去学习、累积练习才能做出来。""这个地球上任何的风格Suno都能实现, 在这个意义上，现实中被认为天花板的音乐人，也会比不过Suno。"在Suno半年前开始公测的时候，Ferry就已经开始体验和使用, 在强大的生成能力背后，他认为，Suno或许学习了几十亿首曲子这样的数据库。作为伯克利音乐学院的学生，王钰初次接触到AI音乐生成工具则是在2024年初受同学推荐。"一开始大家觉得比较好玩，但其实也不是非常新奇，人工智能在图像生成领域之前就有一些软件出来，我们之前也预测，AI用于音乐创作是迟早的事。用了几次之后发现，对我们日常编曲和创作灵感的激发都有帮助，所以一直在使用来协助创作。"王钰告诉记者，虽然他所在专业的教授禁止学生用AI做作业，但允许利用AI进行辅助作曲。除Suno外，记者了解到，AI对于音乐领域的其他工具也正在渗透，音乐创作者越来越难以忽视AI带来的改变。王钰告诉记者，现在有很多编曲混音软件正向半AI模式发展。"比如一些做音乐母带的软件，你可以直接告诉软件需要什么风格和场景，软件会自动帮你做参数，本来这是混音师的工作，但现在看下来，人工智能生成的效果确实不错。""此外，AI音乐制作软件更大的作用在于可以生成音乐最终的样本，比如当作者写完某段音乐，希望做一个预混，模拟一下做完所有后期之后的录音室效果。这个时候就可以套一个AI插件，让AI帮助模拟各种风格效果，就类似修图软件可以套滤镜一样。"王钰称。AI此前在美术领域，已替代了部分人类画师，在音乐领域会不会重现这一过程？不少音乐界人士对第一财经表示，目前AI音乐工具可以取代简单的音乐创作。听到Suno AI创作的音乐后，就匠音乐创始人张昭轶对第一财经记者评价，"完成度很高，质量也很好。"他认为，那些功能性音乐和快餐类音乐，可以被AI低成本量产。他提到，国内做同质化歌曲的人不少，尤其是一些所谓资本加持下的音乐工作室，甚至"抄袭"量产再赛跑，这些"简单算法"的词曲，很容易被AI取代，因为AI厉害之处在于词曲能够根据诉求，大量提供水准不低的作品。熟悉娱乐经纪和音乐版权领域的袁原告诉记者，据她所知，Suno的上一个版本在行业里已经有人用于商业场景如发布会上的使用。她对记者解释道，因为版权原因，过去行业做垫乐、配乐的价格不比做音乐便宜，还有各种情绪上的要求，但又没有足够的商业价值，很难有优秀的音乐人专门为此创作。"Suno3.0版本我听到的片段，用在场景音乐上已经完全没有问题。"袁原还透露，围绕Suno3.0的商业化，业内已经有音乐公司考虑利用AI创作、真人演唱的方式来进行音乐直播了。音乐制作人、钢琴老师余亮（化名）最近也在与同行交流AI工具的影响。"很多独立音乐人认为低端编曲作曲已经没有生存空间了。Suno创作的作品虽然音质不怎么样，但只要向Suno投入的数据量足够多，创意还是不错的，可以满足低层次编曲作曲的需要。音乐人只要参考Suno的创意，再加入一些自己的想法，重新编曲混音，就可以完成部分低水平商业作品创作。"余亮解释，低端作曲编曲的范围包括为作词爱好者提供编曲服务、为企业团建合唱编曲、为学校创作校歌、为大中小学艺术节比赛编曲等。在电商和社交平台上，这种编曲单很多，一单的价格可低至100元左右，这是编曲者的收入来源之一。Roro认为，AI对于一部分音乐人会有一定威胁。如果作品不够好，AI完全可以取代。"你写的东西AI也能写，那作为客户，一样的作品我为什么要花更多钱让你写？"Roro觉得市场会淘汰一些粗制滥造的音乐人和音乐作品，但会留下能写出好的作品的音乐人。王钰则表示，类似Suno的AI音乐制作软件可以替代一些需求下的人工音乐创作，"比如广告配乐，游戏配乐，还有像抖音配乐，网红热曲等商业性、功能性较强的音乐在未来都有可能利用AI直接生成。"与音乐相关的影视界... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

Valle 的AI生成人声效果，已经有 @elevenlabsio这家公司实现并且商用，支持任意5s音频作为 prompt 进行

Stability AI 发布用于生成声音和歌曲的开放式AI模型

免费GPT-4o来袭 音频视觉文本实现“大一统”

AI开始对音乐人下手了

免费GPT-4o来袭音频视觉文本实现“大一统”