文字生成音乐AI模型Suno发布重大更新支持中文等50种语言输入文字提示即可生成带歌词音乐

文字生成音乐AI模型Suno发布重大更新支持中文等50种语言输入文字提示即可生成带歌词音乐新版Chirpv1已在Discord上线！与v0相比，v1带来了一系列新功能和改进，文本到音乐AI迎来Midjourne时刻：现在支持包括中文在内50多种语言增强了音频质量可以选择您的音乐风格/流派使用[verse]和[chorus]等标签可控制歌曲结构更快的生成速度

在Telegram中查看

相关推荐

Bark是由Suno创建的文本提示生成音频模型。Bark可以生成高度逼真的多语言语音以及其他音频 - 包括音乐，背景噪音和简单

Bark是由Suno创建的文本提示生成音频模型。Bark可以生成高度逼真的多语言语音以及其他音频-包括音乐，背景噪音和简单的音效。该模型还可以产生非语言交流，如笑、叹息和哭泣。Bark已经过测试，可以在CPU和GPU上运行（CUDA11.7和CUDA12.0）。pytorch2.0+，可用于商业用途。链接：https://github.com/suno-ai/bark标签：#AI#语音合成群聊：@appmiu

potify 推出AI 播放列表功能输入提示即可自动生成播放列表

Spotify推出AI播放列表功能输入提示即可自动生成播放列表你可以通过提供具体的提示，如心情、场合、流派、年代等，来生成个性化的播放列表。还可以输入更有创意的内容，比如“为我的猫咪演奏的歌曲”或“对抗僵尸末日的节拍”。只需在聊天中输入独特的提示，如“给我大脑一个温暖的拥抱的独立民谣播放列表”、“过敏季节的放松音乐”或“让我感觉像主角的播放列表”，就可以创建新的播放列表。你还可以通过进一步的文本提示（如“更多悲伤的音乐”）来调整和优化播放列表，以确保最终的播放列表完全符合你的期望。

SUNO V3 有点像 Midjourney 的 V3，GPT 的 3.0 版本，给音乐产业带来了很多变化的可能：

SUNOV3有点像Midjourney的V3，GPT的3.0版本，给音乐产业带来了很多变化的可能：1）UGC音乐平台：音乐是创作者头部效应最明显的产业之一，在pre-AI时代，普通人拍的视频可能是具备被消费价值的，因为拍摄的对象可能很有意思，但是普通人创作的音乐或者翻唱的歌是完全达不到及格线的。所以之前做音乐UGC平台的公司基本都没有起来，音乐版权拥有者赚钱很容易，天下苦三大久已。但现在SUNO为代表的AI作曲工具，有点像摄影的发展从一开始要用胶片拍摄和冲洗，变成了数码相机，再变成了手机摄像头。当大量的人突然可以按照自己的想法和歌词生成达到及格线的音乐时，这里面就可能会诞生新的音乐家和大作。于此同时，SUNO也是AIGC应用里面难得的可以形成「内容生产者+消费者闭环」的平台。妙鸭和Midjourney的问题都在于AI产生的内容在本平台上的再消费价值不大。一个人用MJ生成的图片一般来说只对这个生产者本人有价值，但用SUNO生成的音乐不一定。我发现我很自然地就在SUNO上开始听推荐的音乐了，有的还真的有点意思：例子：https://app.suno.ai/song/5c16c93d-0c60-4be1-a65f-c0fafe001a1b这个应该是用了自定义歌词，但听起来真挺可以的。2）个性化音乐：70分的音乐单独听可能价值不大，因为我总可以去听95分的佳作，实际上只有音乐存在「单曲循环」的场景，我们会不断的听最好的歌。但70分的音乐配合合适的场景可能是有用的，尤其是可以随时生成个性化歌词音乐的时候。例子：https://www.bilibili.com/video/BV1Xu4y1n7Jd用AI产生自定义音乐点评电影。3）背景音乐生成器：有一些场景是70分音乐也OK的场景，并且感觉器乐会更容易，因为音乐底层和数学其实是很像的？想起小时候有个假乐队叫班得瑞，就是台湾一个乐队公司把很多风格类似的器乐包装在一起出专辑，而SUNO现在生成的钢琴曲质量已经不错了，感觉凑合可以作为很多咖啡厅的背景声。例子：https://app.suno.ai/song/a0f12ca5-0833-49ce-97f1-cd6094510f2c4）音乐人的Copilot：就跟我们不能现在要求Chatgpt直接写出一部小说一样，对SUNO的要求也不应该是直接生成一首完整的歌，而是作为再创作的起点。SUNO可以首先作为音乐创作者的Copilot。这个地方看起来难点是如何生成专业创作者需要的工程文件（和3D生成遇到的问题类似），分轨的原始音乐素材也是现在最难获得的训练数据。

微软 Copilot 再添新功能，只需文字描述就能生成完整歌曲

微软Copilot再添新功能，只需文字描述就能生成完整歌曲微软Copilot近日与AI音乐创作平台达成合作，推出了一项新功能：只需输入简短的文字描述，Copilot就可以自动生成包含器乐、歌词和演唱的歌曲片段。微软表示，用户无需任何音乐制作经验，只需脑中有灵感即可轻松创作。目前，这项功能仅限于在微软Edge浏览器中使用。用户需要先打开Edge，然后访问Copilot网站，登录并点击右上角的“插件”选项卡，确保Suno插件处于激活状态。接下来，在Copilot中输入文字描述，并耐心等待AI完成创作。Suno插件已经开始推出，将在未来几周内逐步覆盖所有用户。目前尚不清楚微软是否有计划将这项功能扩展到其他浏览器。来源，频道：@kejiqu群组：@kejiquchat

大型音乐公司环球、索尼等向生成式 AI 初创公司提起新诉讼

大型音乐公司环球、索尼等向生成式AI初创公司提起新诉讼据报道，大型音乐公司正在起诉两家允许用户使用文字提示创作新曲目的生成式人工智能初创公司，指控它们在开发这些工具时侵犯了艺术家和唱片公司的版权。包括环球音乐集团、索尼和华纳音乐三家唱片公司在内的原告指称，Suno和Udio使用从互联网上获取的版权作品来训练支撑其产品的模型。据行业组织美国唱片业协会提起的诉讼称，上述两家公司允许用户生成包括TheTemptations乐团的“MyGirl”、GreenDay的“AmericanIdiot”、MariahCarey的“AllIWantforChristmas”以及ChuckBerry和JamesBrown的唱片类似的声音。相关案件要求法院宣布两家公司侵犯了录音制品的版权，禁止他们今后使用这些素材，并要求他们赔偿每个侵权作品最高15万美元的损失。

Google研发的AI模型可以从文本甚至图像中生成高保真音乐

Google研发的AI模型可以从文本甚至图像中生成高保真音乐Choi解释了一下这些模型各自的工作原理：MuLan是一个文本-音乐联合嵌入模型，支持对比性训练和来自YouTube的44M音乐音频-文本描述对。AudioLM使用一个来自语音预训练模型的中间层来获取语义信息。w2v-BERT是一个来自Transformers的双向编码器表表达法，这是一个最初用于语音的深度学习工具，这次用于音频。SoundStream是一个神经音频编解码器。Google将所有这些结合起来，产生了从文本中生成音乐的AI模型，以下是研究人员对MusicLM的解释。MusicLM是一个从文本描述中生成高保真音乐的模型，如"平静的小提琴旋律伴着扭曲的吉他旋律"。MusicLM将有条件的音乐生成过程作为一个层次化的序列到序列的建模任务，它生成的音乐频率为24KHz，时长可以达到几分钟。实验表明，MusicLM在音频质量和对文本描述的遵守方面都优于以前的系统。此外，还可以证明MusicLM可以以文本和旋律为条件，因为它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究，我们公开发布了MusicCaps，这是一个由5500首音乐-文本对组成的数据集，其中有人类专家提供的丰富文本描述。相对而言，想想ChatGPT能够完成的事情就很有意思。艰难的考试，分析复杂的代码，为国会写决议，甚至创造诗歌、音乐歌词等。在这种情况下，MusicLM更是超越了前者，把文字意图、一个故事甚至一幅绘画转化为歌曲。看到萨尔瓦多-达利的《记忆的持久性》被转化为旋律，这很吸引人。不幸的是，该公司并不打算向公众发布这种模型，但您仍然可以在这里看看-和听听-这个人工智能模型如何从文本中生成音乐：https://google-research.github.io/seanet/musiclm/examples/...PC版：https://www.cnbeta.com.tw/articles/soft/1341263.htm手机版：https://m.cnbeta.com.tw/view/1341263.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人