Hallo 是一款人工智能工具,可根据给定音频生成高度逼真的视频头像。

Hallo 是一款人工智能工具,可根据给定音频生成高度逼真的视频头像。 Hallo 采用端到端扩散方法,并实现了分层音频驱动的视觉合成模块。该模块通过包含唇部动作、面部表情和姿势,提高了音频输入和视觉输出匹配的准确性。 Hallo 最近在 GitHub 上发布了第一个版本,并从 HuggingFace 存储库中发布了预训练模型。 HuggingFace: #tools #AI

相关推荐

封面图片

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型:

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型: - MusicGen 文本生成音乐 - AudioGen 文本生成音频 - EnCodec 损失更少的音频压缩 || MusicGen在HuggingFace 上的

封面图片

Stability AI发布免费音频生成工具 可创作AI歌曲

Stability AI发布免费音频生成工具 可创作AI歌曲 而Stable Audio 2.0提供了完整的三分钟音频片段,这个长度的歌曲大多数适合电台播放,而所有上传的音频必须是无版权的。据了解,与OpenAI的音频生成模型Voice Engine只向一小部分用户开放不同,Stability AI通过其网站免费向公众提供Stable Audio,未来将很快提供API接口。Stability AI表示,Stable Audio 2.0与其早期版本的一个主要区别在于,它能够创建与真实歌曲相似的歌曲结构,包括有序幕、进展和尾声。不过,已经试玩Stable Audio 2.0的媒体表示,这个水平的AI歌曲距离帮助用户用音乐表达想法,差距依然比较大。例如,有用户用“带有美国风格的民谣流行歌曲”(美国乡村音乐)作为提示,Stable Audio生成的歌曲在某些部分听起来有山谷清晨的氛围,并且疑似加入了人声。理论上,Stable Audio 2.0的新功能允许用户调整生成的AI音频作品,使作品更符合用户的听歌风格。例如可以调整遵循提示程度,或设置转换所上传音频的哪一部分,用户还可以添加像人群的吼声或键盘敲击等音效。然而,这种AI歌曲最大的问题在于,让人感觉毫无灵魂。但这并不令人感到惊讶,因为这和其他大厂的AI音频问题一样。例如,如Meta和Google也一直在尝试AI音频生成,但两家公司都没有公开发布他们的模型,因为他们仍在收集开发者的反馈,来解决AI歌曲无灵魂的问题。Stability AI在一份新闻稿中说,Stable Audio是在AudioSparx的数据上训练的,后者拥有超过800,000个音频文件的库。不过,这些音频可能出现版权纠纷。Stability AI表示,作品被纳入AudioSparx的艺术家可以选择退出,以避免他们的作品用于训练模型。其实,使用版权音频训练模型是Stability AI的前音频副总裁Ed Newton-Rex在Stable Audio发布后不久就离开公司的原因之一。对于2.0版本,Stability AI说它与Audible Magic合作,使用其内容识别技术来追踪和阻止版权音频进入平台。总之,Stable Audio 2.0的确让AI歌曲比之前更像真正的歌曲,但还是没有完全达到这个目标。媒体表示,如果Stable Audio 2.0模型坚持添加某种人声,也许下一个版本的AI音频作品会出现更能令人分辨的语言。 ... PC版: 手机版:

封面图片

Google DeepMind的新AI可以为视频生成配乐和对白

Google DeepMind的新AI可以为视频生成配乐和对白 DeepMind 写道:"视频生成模型正以惊人的速度发展,但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。DeepMind的V2A技术可以将配乐描述(例如"水母在水下跳动、海洋生物、海洋")与视频配对,创造出与视频中的人物和语气相匹配的音乐、音效甚至对话,并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示,为 V2A 提供动力的人工智能模型(一种扩散模型)是在声音和对话文本以及视频剪辑的组合上训练出来的。DeepMind 写道:"通过对视频、音频和附加注释进行训练,我们的技术学会了将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护,以及数据创建者是否被告知 DeepMind 的工作,目前还不得而知。人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款,ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频,Pika和GenreX等平台已经训练出模型,可以获取视频并猜测特定场景中适合的音乐或效果。但 DeepMind 声称,其 V2A 技术的独特之处在于,它可以理解视频中的原始像素,并自动将生成的声音与视频同步,还可以选择不加说明。V2A 并不完美,DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练,因此它并不能为这些视频生成特别高质量的音频。出于这些原因,同时也为了防止滥用,DeepMind 表示不会在短期内(如果有的话)向公众发布这项技术。DeepMind 写道:"为了确保我们的 V2A 技术能够对创意社区产生积极影响,我们正在收集来自顶尖创作者和电影制作人的各种观点和见解,并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前,我们的 V2A 技术将接受严格的安全评估和测试。"DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是,按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位,或者说,消除整个职业,就需要一些强有力的劳动保护措施。 ... PC版: 手机版:

封面图片

OpenAI展示语音克隆人工智能模型 只需15秒样本即可工作

OpenAI展示语音克隆人工智能模型 只需15秒样本即可工作 可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。在 OpenAI 发布的这些样本中,你可以听到Age of Learning利用该技术生成预制画外音内容,以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。首先是英文参考音频:下面是人工智能根据该样本生成的三个音频片段:OpenAI 表示,它于 2022 年底开始开发语音引擎,该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯(Jeff Harris)在接受TechCrunch 采访时表示,该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物,该模型将只向大约 10 名开发者开放。人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音,但专注于语音生成的人较少,部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs,它们提供人工智能语音克隆技术和工具。与此同时,美国政府也在努力遏制不道德地使用人工智能语音技术。上个月,美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话,因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。据 OpenAI 称,其合作伙伴同意遵守其使用政策,即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意",不建立个人用户创建自己声音的方法,并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印,以追踪其来源,并积极监控音频的使用情况。OpenAI 提出了几项措施,认为这些措施可以限制类似工具的风险,包括逐步淘汰访问银行账户的语音认证,制定政策保护人工智能中对人声的使用,加强人工智能深度伪造方面的教育,以及开发人工智能内容跟踪系统。了解更多: ... PC版: 手机版:

封面图片

您很快就能亲自尝试 OpenAI 的热门文本到视频生成器。OpenAI 首席技术官 Mira Murati 在接受《华尔街日报》

您很快就能亲自尝试 OpenAI 的热门文本到视频生成器。OpenAI 首席技术官 Mira Murati 在接受《华尔街日报》采访时表示,Sora 将于“今年”推出,“可能需要几个月”。 OpenAI 在二月份首次展示了 Sora,它能够根据文本提示生成超现实场景。该公司只向视觉艺术家、设计师和电影制作人提供该工具,但这并没有阻止一些 Sora 生成的视频进入 X 等平台。 Murati 表示,除了向公众提供该工具外,OpenAI 还计划“最终”整合音频,这有可能使场景更加真实。该公司还希望允许用户编辑 Sora 制作的视频中的内容,因为人工智能工具并不总是能创建准确的图像。“我们正在努力弄清楚如何使用这项技术作为人们可以编辑和创作的工具,”Murati 告诉《华尔街日报》。 当被问及 OpenAI 使用哪些数据来训练 Sora 时,Murati 没有说得太具体,并且似乎回避了这个问题。“我不会详细介绍所使用的数据,但它是公开可用或许可的数据,”她说。Murati 还表示,她不确定它是否使用了 YouTube、Facebook 和 Instagram 上的视频。她只向《华尔街日报》证实,Sora 使用的是来自 Shutterstock 的内容,而OpenAI 与 Shutterstock 建立了合作伙伴关系。 Murati 还告诉《华尔街日报》,Sora 的电力“昂贵得多”。OpenAI 正试图让该工具在向公众发布时“以类似的成本”与 DALL-E(该公司的人工智能文本到图像模型)一起使用。您可以在《华尔街日报》的报道中看到该工具可以制作的更多类型视频的示例,包括瓷器商店中的动画公牛和美人鱼智能手机评论员。 via 匿名 标签: #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

近日,谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价,称其在视觉上很吸引人,但一

近日,谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价,称其在视觉上很吸引人,但一些不合理之处可以看出其不是真实的视频。 双方分别发布了各自的最新技术:谷歌推出 Gemini 1.5 Pro,OpenAI 则推出了文本转视频工具 Sora。Sora 的发布时机引发猜测,有人认为 OpenAI 是为了转移公众对谷歌 Gemini 1.5 的注意力。 谷歌一位高管在 X 平台上分享了对 Sora 生成视频的详细分析,Gemini 1.5 Pro 以 Sora 生成的日本一条既有雪景又有樱花盛开的街道视频为例,指出视频存在明显不合理之处。 根据 Gemini 1.5 Pro 的分析,大雪纷飞和盛开的樱花同时出现并不符合常理,因为樱花通常在春季开放,不会伴有降雪。而且雪的下落方式非常均匀,这不是现实生活中通常的降雪方式。此外,视频中的人物虽然身处大雪环境,却并未穿着任何冬装,这也显得非常违和。 Gemini 1.5 在分析中总结道:“总而言之,这段视频虽然视觉上很吸引人,但其中的矛盾之处表明它并非现实生活中的场景。” Sora 是一款能够生成长达 60 秒视频的文本转视频工具,可以创建包含细节丰富的场景、复杂摄像机运动以及具有丰富情感的多个人物画面,许多人将其称为视频生成领域的 “ChatGPT 时刻”。 而谷歌的 Gemini 1.5 则拥有惊人的 100 万词条上下文窗口,远超 GPT-4 Turbo 的 12.8 万和 Anthropic Claude 2.1 的 20 万。这意味着它可以一次处理大量信息,包括 1 小时的视频、11 小时的音频以及超过 30,000 行代码或 70 万字的代码库。 via 匿名 标签: #Google #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人