Stability AI 发布用于生成声音和歌曲的开放式AI模型

StabilityAI发布用于生成声音和歌曲的开放式AI模型该模型使用来自免费音乐库FreeSound和免费音乐档案馆的约486,000个样本进行训练。StabilityAI公司称,该模型可用于为视频、电影和电视节目创建鼓点、乐器旋律、环境噪音和"制作元素",也可用于"编辑"现有歌曲或将一首歌的风格(如流畅爵士乐)应用到另一首歌中。StabilityAI公司在其公司博客上发表的一篇文章中写道:"此次开源发布的一个主要好处是,用户可以根据自己的自定义音频数据对模型进行微调。例如,鼓手可以在自己的鼓声录音样本上进行微调,生成新的节拍。"不过,StableAudioOpen也有其局限性。它不能生成完整的歌曲、旋律或人声,至少不能生成好的歌曲、旋律或人声。StabilityAI表示,它并没有为此进行优化,并建议希望获得这些功能的用户选择该公司的高级StableAudio服务。StableAudioOpen也不能用于商业用途,其服务条款禁止这样做。此外,它在不同音乐风格和文化或英语以外的语言描述中的表现也不尽相同,StabilityAI将这些偏差归咎于训练数据。"数据源可能缺乏多样性,所有文化在数据集中都不具有同等代表性,"StabilityAI公司在对模型的描述中写道。"模型生成的样本将反映训练数据的偏差"。稳定人工智能公司(StabilityAI)长期以来一直在努力扭转业务颓势,最近,该公司负责生成音频的副总裁埃德-牛顿-雷克斯(EdNewton-Rex)因不同意该公司关于在受版权保护的作品上训练生成人工智能模型构成"合理使用"的立场而辞职,从而引发争议。StableAudioOpen似乎试图扭转这种说法,同时不着痕迹地宣传StabilityAI的付费产品。随着包括Stability音乐生成器在内的音乐生成器越来越受欢迎,版权--以及一些生成器创建者可能滥用版权的方式--正成为人们关注的焦点。5月,代表比利-乔尔(BillyJoel)、DojaCat和LilNasX等艺术家的索尼音乐公司致函700家人工智能公司,警告不要"未经授权使用"其内容来训练音频生成器。今年3月,美国田纳西州签署了第一部旨在遏制人工智能在音乐领域滥用的法律。...PC版:https://www.cnbeta.com.tw/articles/soft/1433768.htm手机版:https://m.cnbeta.com.tw/view/1433768.htm

相关推荐

封面图片

Stability AI发布免费音频生成工具 可创作AI歌曲

StabilityAI发布免费音频生成工具可创作AI歌曲而StableAudio2.0提供了完整的三分钟音频片段,这个长度的歌曲大多数适合电台播放,而所有上传的音频必须是无版权的。据了解,与OpenAI的音频生成模型VoiceEngine只向一小部分用户开放不同,StabilityAI通过其网站免费向公众提供StableAudio,未来将很快提供API接口。StabilityAI表示,StableAudio2.0与其早期版本的一个主要区别在于,它能够创建与真实歌曲相似的歌曲结构,包括有序幕、进展和尾声。不过,已经试玩StableAudio2.0的媒体表示,这个水平的AI歌曲距离帮助用户用音乐表达想法,差距依然比较大。例如,有用户用“带有美国风格的民谣流行歌曲”(美国乡村音乐)作为提示,StableAudio生成的歌曲在某些部分听起来有山谷清晨的氛围,并且疑似加入了人声。理论上,StableAudio2.0的新功能允许用户调整生成的AI音频作品,使作品更符合用户的听歌风格。例如可以调整遵循提示程度,或设置转换所上传音频的哪一部分,用户还可以添加像人群的吼声或键盘敲击等音效。然而,这种AI歌曲最大的问题在于,让人感觉毫无灵魂。但这并不令人感到惊讶,因为这和其他大厂的AI音频问题一样。例如,如Meta和Google也一直在尝试AI音频生成,但两家公司都没有公开发布他们的模型,因为他们仍在收集开发者的反馈,来解决AI歌曲无灵魂的问题。StabilityAI在一份新闻稿中说,StableAudio是在AudioSparx的数据上训练的,后者拥有超过800,000个音频文件的库。不过,这些音频可能出现版权纠纷。StabilityAI表示,作品被纳入AudioSparx的艺术家可以选择退出,以避免他们的作品用于训练模型。其实,使用版权音频训练模型是StabilityAI的前音频副总裁EdNewton-Rex在StableAudio发布后不久就离开公司的原因之一。对于2.0版本,StabilityAI说它与AudibleMagic合作,使用其内容识别技术来追踪和阻止版权音频进入平台。总之,StableAudio2.0的确让AI歌曲比之前更像真正的歌曲,但还是没有完全达到这个目标。媒体表示,如果StableAudio2.0模型坚持添加某种人声,也许下一个版本的AI音频作品会出现更能令人分辨的语言。...PC版:https://www.cnbeta.com.tw/articles/soft/1426117.htm手机版:https://m.cnbeta.com.tw/view/1426117.htm

封面图片

Stable Audio Open 开源 AI 模型发布

StableAudioOpen开源AI模型发布StabilityAI立足StableDiffusion文生图模型,进一步向音频领域拓展,推出了,可以基于用户输入的提示词,生成高质量音频样本。StableAudioOpen最长可以创建47秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于transforms扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。StableAudioOpen目前已经开源,感兴趣的用户可以在上试用。据说它使用了来自FreeSound和FreeMusicArchive等音乐库的486000多种采样进行训练。StabilityAI公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。StableAudioOpen和StableAudio2.0不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长3分钟的完整音频。来源,频道:@kejiqu群组:@kejiquchat

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

StabilityAI发布最新图像生成模型StableDiffusionXL1.0今天,StabilityAI宣布推出StableDiffusionXL1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。StableDiffusionXL1.0可在上以开源形式使用,并提供给Stability的和消费者应用程序和。Stability声称,与其前代产品相比,StableDiffusionXL1.0提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。在接受采访时,StabilityAI的应用机器学习负责人JoePenna指出,StableDiffusionXL1.0包含35亿个参数,可以“在几秒钟内”生成多种长宽比的100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。上一代稳定扩散模型稳定扩散XL0.9也可以生成更高分辨率的图像,但需要更多的计算能力。——、

封面图片

Stability AI 发布日语 StableLM 模型

StabilityAI发布日语StableLM模型StabilityAI今天发布了日语StableLMAlpha,将其语言模型产品扩展至国际市场,这是面向日语使用者的性能最佳的公开语言模型。新的70亿参数通用语言模型旨在为日本用户提供增强的人工智能文本生成能力。StabilityAI表示,在该公司进行的评估中,日语StableLM的表现优于其他四种基准日语模型。新模型发布了两个版本:和。基础模型设计用于使用大规模日语和英语训练数据进行一般文本生成。指令模型使用监督微调技术进行额外调整,以遵循用户提示和说明。此次发布为日本人工智能开发人员和研究人员提供了适合其语言的新生成模型。这也标志着StabilityAI首次扩展到StableDiffusion等英语语言模型之外。此举标志着随着全球生成式人工智能应用的增加,未来可能会进入其他国际市场。——

封面图片

恶意行为者使用AI音乐生成器创作仇恨歌曲

恶意行为者使用AI音乐生成器创作仇恨歌曲恶意行为者正在滥用人工智能音乐工具来创作恐同、种族主义和宣传性歌曲,并发布指南指导其他人如何这样做。据在线平台信任和安全运营管理服务ActiveFence称,自三月以来,"仇恨言论相关"社区内关于如何滥用人工智能音乐创作工具创作针对少数群体的攻击性歌曲的讨论激增。仇恨和有害的歌曲并不是什么新现象。但令人担心的是,随着简单易用的免费音乐生成工具的出现,以前没有能力或技术的人也会大规模地制作这些歌曲,就像图像、语音、视频和文本生成器加速了错误信息、虚假信息和仇恨言论的传播一样。——

封面图片

Stability AI 推出音乐/声音生成人工智能 Stable Audio

StabilityAI推出音乐/声音生成人工智能StableAudioStableAudio是一个扩散模型,用户只需描述关键词即可创建自己想要的音乐,每个账户每个月可以免费生成20首音频。StableAudio由音乐商AudioSparx提供的超80万音频文件训练而来(包含音乐、音效、单乐器主干和对应文本)。该模型在英伟达A100显卡上可以以44.1kHz采样率在不到一秒的时间内渲染95秒的音频。stableaudio.com投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人