Stability AI 推出音乐/声音生成人工智能 Stable Audio

StabilityAI推出音乐/声音生成人工智能StableAudioStableAudio是一个扩散模型,用户只需描述关键词即可创建自己想要的音乐,每个账户每个月可以免费生成20首音频。StableAudio由音乐商AudioSparx提供的超80万音频文件训练而来(包含音乐、音效、单乐器主干和对应文本)。该模型在英伟达A100显卡上可以以44.1kHz采样率在不到一秒的时间内渲染95秒的音频。stableaudio.com投稿:@ZaiHuaBot频道:@TestFlightCN

相关推荐

封面图片

Stability AI 推出 Stable Audio,基于文本生成最长 90 秒音频

StabilityAI推出StableAudio,基于文本生成最长90秒音频StabilityAI公司近日推出StableAudio,可以基于用户输入的文本内容,自动生成音乐或者音频。免费版StableAudio可以生成最长20秒的音乐片段,而用户在购买Pro订阅之后,可以生成最长90秒的音频内容。StabilityAI公司首席执行官表示:“我们希望音乐爱好者和创意专业人士使用StableAudio工具,帮助生成新的内容,并期待能够激发无限的创造力”。https://stability.ai/blog/stable-audio-using-ai-to-generate-music——

封面图片

Stable Audio Open 开源 AI 模型发布

StableAudioOpen开源AI模型发布StabilityAI立足StableDiffusion文生图模型,进一步向音频领域拓展,推出了,可以基于用户输入的提示词,生成高质量音频样本。StableAudioOpen最长可以创建47秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于transforms扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。StableAudioOpen目前已经开源,感兴趣的用户可以在上试用。据说它使用了来自FreeSound和FreeMusicArchive等音乐库的486000多种采样进行训练。StabilityAI公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。StableAudioOpen和StableAudio2.0不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长3分钟的完整音频。来源,频道:@kejiqu群组:@kejiquchat

封面图片

Stability AI试图通过新的图像生成人工智能模型保持领先地位

StabilityAI试图通过新的图像生成人工智能模型保持领先地位StableCascade可以生成照片,并对所创建的图片进行修改,或尝试提高现有图片的分辨率。其他文本到图片的编辑功能还包括内画和外画(模型只对图片的特定部分进行填充编辑),以及可视边缘(用户可利用现有图片的边缘制作新照片)。根据提示"一张拟人企鹅坐在咖啡馆里看书喝咖啡的电影照片"生成的StableCascade图像。新模型可在GitHub上供研究人员使用,但不能用于商业用途。在Google甚至苹果等公司发布自己的图像生成模型时,新模型也带来了更多选择。与Stability的旗舰产品StableDiffusion模型不同,StableCascade并不是一个大型语言模型,而是三个不同的模型,它们都依赖于Würstchen架构。StableCascade与其他模型的推理时间比较将请求分解成更小的比特后,请求所需的内存更少(在那些很难找到的GPU上训练的时间也更少),运行速度更快,同时在"提示对齐和美学质量"方面表现更佳。创建一幅图像大约需要10秒,而目前使用的SDXL模型需要22秒。StabilityAI公司帮助普及了StableDiffusion方法,同时也成为了几起诉讼的对象,这些诉讼指控StableDiffusion公司在未经权利人许可的情况下对受版权保护的数据进行了训练-Getty图片公司对StabilityAI公司的诉讼将于12月开庭审理。该公司于12月开始通过订阅的方式提供商业许可,并表示这是帮助其研究获得资金所必需的。...PC版:https://www.cnbeta.com.tw/articles/soft/1418229.htm手机版:https://m.cnbeta.com.tw/view/1418229.htm

封面图片

Stability AI 发布用于生成声音和歌曲的开放式AI模型

StabilityAI发布用于生成声音和歌曲的开放式AI模型该模型使用来自免费音乐库FreeSound和免费音乐档案馆的约486,000个样本进行训练。StabilityAI公司称,该模型可用于为视频、电影和电视节目创建鼓点、乐器旋律、环境噪音和"制作元素",也可用于"编辑"现有歌曲或将一首歌的风格(如流畅爵士乐)应用到另一首歌中。StabilityAI公司在其公司博客上发表的一篇文章中写道:"此次开源发布的一个主要好处是,用户可以根据自己的自定义音频数据对模型进行微调。例如,鼓手可以在自己的鼓声录音样本上进行微调,生成新的节拍。"不过,StableAudioOpen也有其局限性。它不能生成完整的歌曲、旋律或人声,至少不能生成好的歌曲、旋律或人声。StabilityAI表示,它并没有为此进行优化,并建议希望获得这些功能的用户选择该公司的高级StableAudio服务。StableAudioOpen也不能用于商业用途,其服务条款禁止这样做。此外,它在不同音乐风格和文化或英语以外的语言描述中的表现也不尽相同,StabilityAI将这些偏差归咎于训练数据。"数据源可能缺乏多样性,所有文化在数据集中都不具有同等代表性,"StabilityAI公司在对模型的描述中写道。"模型生成的样本将反映训练数据的偏差"。稳定人工智能公司(StabilityAI)长期以来一直在努力扭转业务颓势,最近,该公司负责生成音频的副总裁埃德-牛顿-雷克斯(EdNewton-Rex)因不同意该公司关于在受版权保护的作品上训练生成人工智能模型构成"合理使用"的立场而辞职,从而引发争议。StableAudioOpen似乎试图扭转这种说法,同时不着痕迹地宣传StabilityAI的付费产品。随着包括Stability音乐生成器在内的音乐生成器越来越受欢迎,版权--以及一些生成器创建者可能滥用版权的方式--正成为人们关注的焦点。5月,代表比利-乔尔(BillyJoel)、DojaCat和LilNasX等艺术家的索尼音乐公司致函700家人工智能公司,警告不要"未经授权使用"其内容来训练音频生成器。今年3月,美国田纳西州签署了第一部旨在遏制人工智能在音乐领域滥用的法律。...PC版:https://www.cnbeta.com.tw/articles/soft/1433768.htm手机版:https://m.cnbeta.com.tw/view/1433768.htm

封面图片

Stability AI 推出 Stable Video Diffusion 模型,可根据图片生成视频

StabilityAI推出StableVideoDiffusion模型,可根据图片生成视频StableVideoDiffusion这款模型能够通过现有图片生成视频,是基于之前发布的StableDiffusion文本转图片模型的延伸,也是目前为止市面上少有的能够生成视频的AI模型之一。不过,这款模型目前并不是对所有人开放的。StableVideoDiffusion目前处于StabilityAI所谓的“研究预览”阶段。想要使用这款模型的人必须同意一些使用条款,其中规定了StableVideoDiffusion的预期应用场景(例如“教育或创意工具”、“设计和其他艺术过程”等)和非预期的场景(例如“对人或事件的事实或真实的表达”)()投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

Stability AI发布免费音频生成工具 可创作AI歌曲

StabilityAI发布免费音频生成工具可创作AI歌曲而StableAudio2.0提供了完整的三分钟音频片段,这个长度的歌曲大多数适合电台播放,而所有上传的音频必须是无版权的。据了解,与OpenAI的音频生成模型VoiceEngine只向一小部分用户开放不同,StabilityAI通过其网站免费向公众提供StableAudio,未来将很快提供API接口。StabilityAI表示,StableAudio2.0与其早期版本的一个主要区别在于,它能够创建与真实歌曲相似的歌曲结构,包括有序幕、进展和尾声。不过,已经试玩StableAudio2.0的媒体表示,这个水平的AI歌曲距离帮助用户用音乐表达想法,差距依然比较大。例如,有用户用“带有美国风格的民谣流行歌曲”(美国乡村音乐)作为提示,StableAudio生成的歌曲在某些部分听起来有山谷清晨的氛围,并且疑似加入了人声。理论上,StableAudio2.0的新功能允许用户调整生成的AI音频作品,使作品更符合用户的听歌风格。例如可以调整遵循提示程度,或设置转换所上传音频的哪一部分,用户还可以添加像人群的吼声或键盘敲击等音效。然而,这种AI歌曲最大的问题在于,让人感觉毫无灵魂。但这并不令人感到惊讶,因为这和其他大厂的AI音频问题一样。例如,如Meta和Google也一直在尝试AI音频生成,但两家公司都没有公开发布他们的模型,因为他们仍在收集开发者的反馈,来解决AI歌曲无灵魂的问题。StabilityAI在一份新闻稿中说,StableAudio是在AudioSparx的数据上训练的,后者拥有超过800,000个音频文件的库。不过,这些音频可能出现版权纠纷。StabilityAI表示,作品被纳入AudioSparx的艺术家可以选择退出,以避免他们的作品用于训练模型。其实,使用版权音频训练模型是StabilityAI的前音频副总裁EdNewton-Rex在StableAudio发布后不久就离开公司的原因之一。对于2.0版本,StabilityAI说它与AudibleMagic合作,使用其内容识别技术来追踪和阻止版权音频进入平台。总之,StableAudio2.0的确让AI歌曲比之前更像真正的歌曲,但还是没有完全达到这个目标。媒体表示,如果StableAudio2.0模型坚持添加某种人声,也许下一个版本的AI音频作品会出现更能令人分辨的语言。...PC版:https://www.cnbeta.com.tw/articles/soft/1426117.htm手机版:https://m.cnbeta.com.tw/view/1426117.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人