Meta 的音频大模型,把能想到的都做了,非常厉害

Meta的音频大模型,把能想到的都做了,非常厉害Lior: JUSTIN:MetajustintroducedVoicebox!ThisisthefirstgenerativeAImodelthatcansynthesizespeechacrosssixlanguages,performnoiseremoval,editcontent,transferaudiostyle&more.Highlights▸Generalizesspeechgenerationacrosstaskswithimpressiveresultsand…

相关推荐

封面图片

Meta的音频大模型,把能想到的都做了,非常厉害https://vxtwitter.com/AlphaSignalAI/status/1669788759049510917

封面图片

普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox

普通人也能成为音频剪辑师,Meta推出AI模型VoiceboxMeta继推出ImageBind之后,于今天再次推出了全新的生成式AI模型。该模型帮助创作者执行音频编辑、采样和风格化等语音生成任务,即便是普通用户也能轻松上手。Meta在介绍Voicebox模型时表示,视障人士可以听到好友的回复信息、普通用户可以用自己的语调、语气来说外语。AI模型本身可以生成高质量的音频剪辑,消除汽车喇叭等不必要的背景噪音,同时保留音频的内容和风格,同时使用多种语言,以六种语言生成语音。该模型的未来发展包括在元宇宙游戏中为视觉助理或非玩家角色提供自然的声音。Meta还比较了Voicebox和Vall-E、YourTTS等其它音频AI模型,表明Voicebox更先进,在比较单词错误率和样式相似性时优于两种模型。Voicebox仍在进行中,尚未向公众开放。Meta表示,它认识到这种AI可能会造成的潜在危害,并且正在研究一种有效的方法来区分Voicebox生成的真实语音和音频。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

零一万物回应大模型架构争议:对模型和训练的理解做了大量工作

零一万物回应大模型架构争议:对模型和训练的理解做了大量工作零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。相关文章:李开复旗下AI公司“零一万物”开源Yi大模型被指抄袭LLaMA...PC版:https://www.cnbeta.com.tw/articles/soft/1396831.htm手机版:https://m.cnbeta.com.tw/view/1396831.htm

封面图片

Meta 开源最新的 Llama 3.1 大模型

Meta开源最新的Llama3.1大模型其它科技公司都想把AI产品买给你们,但扎克伯格(MarkZuckerberg)选择免费送给你们。Meta周一宣布了其最新的大模型,其最大规模版本的参数有4050亿个,较小规模的版本有700亿和80亿个参数。Meta称,Llama3.1在基准测试中的表现超过了OpenAI的GPT-4o和Anthropic的Claude3.5Sonnet。Meta表示,Llama3.1使用了逾16,000个英伟达H100GPU进行训练,它认为相比私有大模型,部署成本会更低。扎克伯格称他与世界各地的开发者、企业和政府官员交流时,他们都表达了不希望被私有封闭供应商锁定的愿望,希望自己能控制模型,而Llama3.1将能满足他们的要求。来源,频道:@kejiqu群组:@kejiquchat

封面图片

孙宇晨:贾跃亭相当于花 5000 万做了一只大象模型

孙宇晨:贾跃亭相当于花5000万做了一只大象模型近日,微博上线音频播客功能,知名博主@花总丢了金箍棒发布首期音频栏目《开腔》,与波场创始人孙宇晨进行了长达2小时的对话。对话内容在微博独家上线。孙宇晨表示,贾跃亭的例子更像是要拍一部封神演义,投资人给了1亿,结果贾跃亭并没有把电影拍出来,最后去看,发现光封神演义里第一只大象的成本就花了5000万,那个大象模型做的非常漂亮好看,但是距离转化为整部电影还有很长的距离。(新浪科技)

封面图片

Meta推出新的AI模型 可转录和翻译近百种语言

Meta推出新的AI模型可转录和翻译近百种语言SeamlessM4T是根据知识共享许可(CC)协议4.0发布的,允许研究人员对其进行迭代。除了SeamlessM4T,Meta还发布了其开放翻译数据集SeamlessAlign的元数据。Meta表示:“建立一个通用语言翻译器,例如像《银河系漫游指南》中虚构的巴别鱼那样,是具有挑战性的,因为现有的语音对语音和语音对文本系统只覆盖了世界语言的一小部分。”《银河系漫游指南》是由英国作家道格拉斯·亚当斯所写的一系列科幻小说,而巴别鱼是这部作品所创造的一种神奇生物,体型小到足以放进人的耳朵,靠接受脑电波为生。如果将巴别鱼放到耳朵里,人们可以理解任何语言。对于SeamlessM4T模型,Meta研究人员在一篇研究论文中表示,他们从400万小时的原始音频中收集了音频训练数据,这些音频来自一个公开的抓取网络数据存储库,但没有说明是哪个存储库。研究报告称,文本数据来自去年创建的数据集,这些数据集从维基百科和相关网站上提取了内容。Meta表示,SeamlessM4T代表了一个重大突破,因为这个模型可以一次性完成整个翻译任务,而不像其他大型翻译模型那样,将翻译分成不同的系统。SeamlessM4T建立在Meta之前的翻译模型之上。Meta去年发布了支持200种语言的文本到文本的翻译模型。它开发了用于多语言语音到语音翻译的数据集,以及用于语音识别的大规模多语言语音。Meta去年展示了它的通用语音翻译器,可将闽南语转化为英语。...PC版:https://www.cnbeta.com.tw/articles/soft/1378781.htm手机版:https://m.cnbeta.com.tw/view/1378781.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人