Hallo 是一款人工智能工具,可根据给定音频生成高度逼真的视频头像。

Hallo 是一款人工智能工具,可根据给定音频生成高度逼真的视频头像。 Hallo 采用端到端扩散方法,并实现了分层音频驱动的视觉合成模块。该模块通过包含唇部动作、面部表情和姿势,提高了音频输入和视觉输出匹配的准确性。 Hallo 最近在 GitHub 上发布了第一个版本,并从 HuggingFace 存储库中发布了预训练模型。 HuggingFace: #tools #AI

相关推荐

封面图片

Stability AI发布免费音频生成工具 可创作AI歌曲

Stability AI发布免费音频生成工具 可创作AI歌曲 而Stable Audio 2.0提供了完整的三分钟音频片段,这个长度的歌曲大多数适合电台播放,而所有上传的音频必须是无版权的。据了解,与OpenAI的音频生成模型Voice Engine只向一小部分用户开放不同,Stability AI通过其网站免费向公众提供Stable Audio,未来将很快提供API接口。Stability AI表示,Stable Audio 2.0与其早期版本的一个主要区别在于,它能够创建与真实歌曲相似的歌曲结构,包括有序幕、进展和尾声。不过,已经试玩Stable Audio 2.0的媒体表示,这个水平的AI歌曲距离帮助用户用音乐表达想法,差距依然比较大。例如,有用户用“带有美国风格的民谣流行歌曲”(美国乡村音乐)作为提示,Stable Audio生成的歌曲在某些部分听起来有山谷清晨的氛围,并且疑似加入了人声。理论上,Stable Audio 2.0的新功能允许用户调整生成的AI音频作品,使作品更符合用户的听歌风格。例如可以调整遵循提示程度,或设置转换所上传音频的哪一部分,用户还可以添加像人群的吼声或键盘敲击等音效。然而,这种AI歌曲最大的问题在于,让人感觉毫无灵魂。但这并不令人感到惊讶,因为这和其他大厂的AI音频问题一样。例如,如Meta和Google也一直在尝试AI音频生成,但两家公司都没有公开发布他们的模型,因为他们仍在收集开发者的反馈,来解决AI歌曲无灵魂的问题。Stability AI在一份新闻稿中说,Stable Audio是在AudioSparx的数据上训练的,后者拥有超过800,000个音频文件的库。不过,这些音频可能出现版权纠纷。Stability AI表示,作品被纳入AudioSparx的艺术家可以选择退出,以避免他们的作品用于训练模型。其实,使用版权音频训练模型是Stability AI的前音频副总裁Ed Newton-Rex在Stable Audio发布后不久就离开公司的原因之一。对于2.0版本,Stability AI说它与Audible Magic合作,使用其内容识别技术来追踪和阻止版权音频进入平台。总之,Stable Audio 2.0的确让AI歌曲比之前更像真正的歌曲,但还是没有完全达到这个目标。媒体表示,如果Stable Audio 2.0模型坚持添加某种人声,也许下一个版本的AI音频作品会出现更能令人分辨的语言。 ... PC版: 手机版:

封面图片

Google DeepMind的新AI可以为视频生成配乐和对白

Google DeepMind的新AI可以为视频生成配乐和对白 DeepMind 写道:"视频生成模型正以惊人的速度发展,但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。DeepMind的V2A技术可以将配乐描述(例如"水母在水下跳动、海洋生物、海洋")与视频配对,创造出与视频中的人物和语气相匹配的音乐、音效甚至对话,并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示,为 V2A 提供动力的人工智能模型(一种扩散模型)是在声音和对话文本以及视频剪辑的组合上训练出来的。DeepMind 写道:"通过对视频、音频和附加注释进行训练,我们的技术学会了将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护,以及数据创建者是否被告知 DeepMind 的工作,目前还不得而知。人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款,ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频,Pika和GenreX等平台已经训练出模型,可以获取视频并猜测特定场景中适合的音乐或效果。但 DeepMind 声称,其 V2A 技术的独特之处在于,它可以理解视频中的原始像素,并自动将生成的声音与视频同步,还可以选择不加说明。V2A 并不完美,DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练,因此它并不能为这些视频生成特别高质量的音频。出于这些原因,同时也为了防止滥用,DeepMind 表示不会在短期内(如果有的话)向公众发布这项技术。DeepMind 写道:"为了确保我们的 V2A 技术能够对创意社区产生积极影响,我们正在收集来自顶尖创作者和电影制作人的各种观点和见解,并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前,我们的 V2A 技术将接受严格的安全评估和测试。"DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是,按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位,或者说,消除整个职业,就需要一些强有力的劳动保护措施。 ... PC版: 手机版:

封面图片

OpenAI展示语音克隆人工智能模型 只需15秒样本即可工作

OpenAI展示语音克隆人工智能模型 只需15秒样本即可工作 可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。在 OpenAI 发布的这些样本中,你可以听到Age of Learning利用该技术生成预制画外音内容,以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。首先是英文参考音频:下面是人工智能根据该样本生成的三个音频片段:OpenAI 表示,它于 2022 年底开始开发语音引擎,该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯(Jeff Harris)在接受TechCrunch 采访时表示,该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物,该模型将只向大约 10 名开发者开放。人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音,但专注于语音生成的人较少,部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs,它们提供人工智能语音克隆技术和工具。与此同时,美国政府也在努力遏制不道德地使用人工智能语音技术。上个月,美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话,因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。据 OpenAI 称,其合作伙伴同意遵守其使用政策,即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意",不建立个人用户创建自己声音的方法,并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印,以追踪其来源,并积极监控音频的使用情况。OpenAI 提出了几项措施,认为这些措施可以限制类似工具的风险,包括逐步淘汰访问银行账户的语音认证,制定政策保护人工智能中对人声的使用,加强人工智能深度伪造方面的教育,以及开发人工智能内容跟踪系统。了解更多: ... PC版: 手机版:

封面图片

您很快就能亲自尝试 OpenAI 的热门文本到视频生成器。OpenAI 首席技术官 Mira Murati 在接受《华尔街日报》

您很快就能亲自尝试 OpenAI 的热门文本到视频生成器。OpenAI 首席技术官 Mira Murati 在接受《华尔街日报》采访时表示,Sora 将于“今年”推出,“可能需要几个月”。 OpenAI 在二月份首次展示了 Sora,它能够根据文本提示生成超现实场景。该公司只向视觉艺术家、设计师和电影制作人提供该工具,但这并没有阻止一些 Sora 生成的视频进入 X 等平台。 Murati 表示,除了向公众提供该工具外,OpenAI 还计划“最终”整合音频,这有可能使场景更加真实。该公司还希望允许用户编辑 Sora 制作的视频中的内容,因为人工智能工具并不总是能创建准确的图像。“我们正在努力弄清楚如何使用这项技术作为人们可以编辑和创作的工具,”Murati 告诉《华尔街日报》。 当被问及 OpenAI 使用哪些数据来训练 Sora 时,Murati 没有说得太具体,并且似乎回避了这个问题。“我不会详细介绍所使用的数据,但它是公开可用或许可的数据,”她说。Murati 还表示,她不确定它是否使用了 YouTube、Facebook 和 Instagram 上的视频。她只向《华尔街日报》证实,Sora 使用的是来自 Shutterstock 的内容,而OpenAI 与 Shutterstock 建立了合作伙伴关系。 Murati 还告诉《华尔街日报》,Sora 的电力“昂贵得多”。OpenAI 正试图让该工具在向公众发布时“以类似的成本”与 DALL-E(该公司的人工智能文本到图像模型)一起使用。您可以在《华尔街日报》的报道中看到该工具可以制作的更多类型视频的示例,包括瓷器商店中的动画公牛和美人鱼智能手机评论员。 via 匿名 标签: #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

免费GPT-4o来袭 音频视觉文本实现“大一统”

免费GPT-4o来袭 音频视觉文本实现“大一统” 此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与Google明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X(原Twitter)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的“新魔法”呢?1多模态实时语音助手更快更全更有情感登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复“你看起来很开心,笑容灿烂,还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外“出戏”,就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。而现在,GPT-4o 的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni,在拉丁语词根中是“全”的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。与 Meta、Google的语音转写模型相比,GPT-4o 同样领先(越高越好)。若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”,就是本次登场的 GPT-4o 。截至2024年3月,OpenAI 在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领域,形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐文件中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹“现实,不存在了。”毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过“OpenAI 不做,没人投;OpenAI 一做,人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”,不少 AI 行业从业者开始对 OpenAI 祛魅,认为“大模型护城河很浅,一年就赶上了。”现在看来,OpenAI 果然还是 OpenAI。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人