GoogleMusicLM从文本/图像生成音乐的AI模型样本演示:https://google-research.github.io/seanet/musiclm/examples/投稿：@ZaiHuabot频道：@TestFlightCN

谷歌的研究人员宣布了一种名为MusicLM的新型生成式AI模型，该模型可以根据文本描述创建音乐音频https://google-research.github.io/seanet/musiclm/examples/投稿：@ZaiHuabot频道：@TestFlightCN

Google研发的AI模型可以从文本甚至图像中生成高保真音乐

Google研发的AI模型可以从文本甚至图像中生成高保真音乐Choi解释了一下这些模型各自的工作原理：MuLan是一个文本-音乐联合嵌入模型，支持对比性训练和来自YouTube的44M音乐音频-文本描述对。AudioLM使用一个来自语音预训练模型的中间层来获取语义信息。w2v-BERT是一个来自Transformers的双向编码器表表达法，这是一个最初用于语音的深度学习工具，这次用于音频。SoundStream是一个神经音频编解码器。Google将所有这些结合起来，产生了从文本中生成音乐的AI模型，以下是研究人员对MusicLM的解释。MusicLM是一个从文本描述中生成高保真音乐的模型，如"平静的小提琴旋律伴着扭曲的吉他旋律"。MusicLM将有条件的音乐生成过程作为一个层次化的序列到序列的建模任务，它生成的音乐频率为24KHz，时长可以达到几分钟。实验表明，MusicLM在音频质量和对文本描述的遵守方面都优于以前的系统。此外，还可以证明MusicLM可以以文本和旋律为条件，因为它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究，我们公开发布了MusicCaps，这是一个由5500首音乐-文本对组成的数据集，其中有人类专家提供的丰富文本描述。相对而言，想想ChatGPT能够完成的事情就很有意思。艰难的考试，分析复杂的代码，为国会写决议，甚至创造诗歌、音乐歌词等。在这种情况下，MusicLM更是超越了前者，把文字意图、一个故事甚至一幅绘画转化为歌曲。看到萨尔瓦多-达利的《记忆的持久性》被转化为旋律，这很吸引人。不幸的是，该公司并不打算向公众发布这种模型，但您仍然可以在这里看看-和听听-这个人工智能模型如何从文本中生成音乐：https://google-research.github.io/seanet/musiclm/examples/...PC版：https://www.cnbeta.com.tw/articles/soft/1341263.htm手机版：https://m.cnbeta.com.tw/view/1341263.htm

Google发布了文本生成音乐的大模型MusicLM可以根据文字生成音乐，可以指定乐器、节奏、风格、播放场景。今年我们也许能看到几款AI原创音乐的播放软件了。https://google-research.github.io/seanet/musiclm/examples/

：用于训练、微调和生成模型推理的框架，包括文本到图像生成、可控图像合成、图像编辑等多种功能

Google的文本到图像的人工智能模型Imagen有限公开亮相

Google的文本到图像的人工智能模型Imagen有限公开亮相AITestKitchen是在今年早些时候推出的，是Google对各种AI系统进行测试的一种方式。目前，该应用程序提供了一些不同的方式与Google的文本模型LAMDA（是的，就是那个工程师认为有知觉的模型，然后他被开除了）进行互动，该公司很快将增加类似的限制性Imagen请求，作为其所谓的应用程序"第二季"更新的一部分。简而言之，将有两种方式与Imagen互动，Google在今天的公告前演示了这一点。演示项目分别是："城市梦想家"和"摇摆不定"。在"城市梦想家"中，用户可以要求模型生成围绕他们选择的主题设计的城市元素--例如，南瓜、牛仔布或黑颜色。Imagen创建了样本建筑和地块（城市广场、公寓楼、机场等等），所有的设计都以类似于《模拟城市》中看到的等距模型出现。城市梦想家"任务让用户要求以等距设计为主题的城市建筑与其他文本到图像的模式相比，这些互动是非常受限制的，用户不能随便要求他们喜欢的东西。不过，这也是Google有意为之。正如Google产品管理高级总监乔希-伍德沃德（JoshWoodward）向TheVerge解释的那样，AITestKitchen的全部意义在于：a）获得公众对这些AI系统的反馈；b）找出更多关于人们将如何打破它们的信息。伍德沃德不愿意讨论任何关于AITestKitchen用户如何破坏其LaMDA功能的具体例子，但他指出，当模型被要求描述具体地点时，就出现了一个弱点。伍德沃德说："在历史上的不同时期，一个地点对不同的人意味着不同的东西，所以我们看到了一些相当有创意的方式，人们试图把某个地方放到系统中，看看它产生了什么，"。当被问及哪些地方可能产生有争议的描述时，伍德沃德举了俄克拉荷马州塔尔萨的例子。"20世纪20年代，塔尔萨发生了一系列种族骚乱，"他说。"如果有人输入'塔尔萨'，模型甚至可能不参考这个......你可以想象世界各地的复杂情况。""摇摆"功能让用户设计一个怪物并让它跳舞想象一下，如果你要求一个人工智能模型描述德国中世纪的达豪镇。你是否希望模型的答案提及建在那里的纳粹集中营？你怎么知道用户是否在寻找这些信息？在任何情况下省略它都是可以接受的吗？在许多方面，设计具有文本界面的人工智能模型的问题与微调搜索的挑战相似：需要以一种让用户满意的方式解释用户的请求。Google不会分享关于有多少人在实际使用AITestKitchen的数据（"我们并没有打算把它变成一个10亿用户的Google应用，"伍德沃德说），但他说它得到的反馈是非常宝贵的。"参与度远远高于我们的预期。并且这是一个非常活跃、有主见的用户群体。"他指出，该应用程序在接触"某些类型的人--研究人员、政策制定者"方面非常有用，他们可以用它来更好地了解最先进的人工智能模型的局限性和能力。不过，最大的问题是，Google是否会想把这些模型推向更广泛的公众，如果是这样，会采取什么形式？目前，该公司的竞争对手OpenAI和StabilityAI正急于将文本-图像模型商业化。Google是否会觉得自己的系统足够安全，可以走出人工智能测试阶段，从而直接提供给用户？...PC版：https://www.cnbeta.com.tw/articles/soft/1331649.htm手机版：https://m.cnbeta.com.tw/view/1331649.htm

ImageBind+StableDiffusion相结合，能从任意内容生成图像的工具。利用统一潜空间和StableDiffusion技术实现图像生成，无需进行训练。可与Diffusers集成，并提供在线演示和HuggingfaceGradio的演示。支持的任务包括从音频、音频+文本、音频+图像、图像和文本生成图像#工具

相关推荐

谷歌的研究人员宣布了一种名为MusicLM的新型生成式AI模型，该模型可以根据文本描述创建音乐音频https://google-research.github.io/seanet/musiclm/examples/投稿：@ZaiHuabot频道：@TestFlightCN

Google研发的AI模型可以从文本甚至图像中生成高保真音乐

Google发布了文本生成音乐的大模型MusicLM可以根据文字生成音乐，可以指定乐器、节奏、风格、播放场景。今年我们也许能看到几款AI原创音乐的播放软件了。https://google-research.github.io/seanet/musiclm/examples/

：用于训练、微调和生成模型推理的框架，包括文本到图像生成、可控图像合成、图像编辑等多种功能

Google的文本到图像的人工智能模型Imagen有限公开亮相