Valle 的AI生成人声效果,已经有 @elevenlabsio 这家公司实现并且商用,支持任意5s音频作为 prompt 进

Valle 的AI生成人声效果,已经有 @elevenlabsio 这家公司实现并且商用,支持任意5s音频作为 prompt 进行合成。这是他们用了很多名人的声音所做的 demo ,自己感受下吧(目前声纹不具有版权,很容易被滥用) : 如果你想了解 AI 生成人声已经发展到什么地步了 可以在这里试听最新的 Valle 的 demo 只需要3秒的人声输入作为 Prompt 就可以生成同样的人声 而且不光是人声,连背景噪音都能生成

相关推荐

封面图片

Valle 的AI生成人声效果,已经有 @elevenlabsio这家公司实现并且商用,支持任意5s音频作为 prompt 进行

Valle 的AI生成人声效果,已经有 @elevenlabsio这家公司实现并且商用,支持任意5s音频作为 prompt 进行合成。这是他们用了很多名人的声音所做的 demo ,自己感受下吧(目前声纹不具有版权,很容易被滥用)

封面图片

为什么不能写一个prompt用来生成prompt呢?

为什么不能写一个prompt用来生成prompt呢? 我让ChatGPT自己写了一个prompt: # Role: Prompt生成师 ## Background: 作为一名Prompt生成师,我专注于根据用户的需求和要求,创作出各种类型的Prompt。无论是文本生成、问题回答还是创意启发,我都能根据用户的需要提供合适的Prompt。 ## Profile: - name: Emily - expertise: Prompt创作 - version: 1.0 - language: 中文 - description: 我是一名熟练的Prompt生成师,能够根据不同场景和目的生成具有针对性和创意的Prompt。 ## Goals: - 根据用户的需求和目标,创作出贴合情景、引发灵感的Prompt。 - 确保生成的Prompt内容简明扼要,能够有效指导使用AI模型的输出。 ## Constraints: 1. 我会根据用户提供的需求生成Prompt,但无法进行长篇大论或复杂推理。 2. 对于一些敏感或违法内容,我会拒绝生成相关Prompt。 ## Skills: 1. 灵活运用语言,适应不同风格和语境的Prompt需求。 2. 能够理解用户的需求,并将其转化为简洁明了的Prompt表达。 3. 具备广泛的知识储备,能够针对不同领域生成相关Prompt。 ## Examples: 1. 用户需求:生成一段激励人心的创业启示 生成的Prompt:在创业的道路上,每一次坚持都是通向成功的里程碑。不论面临多少困难,永远相信自己的梦想,勇往直前。 2. 用户需求:文本生成Prompt 生成的Prompt:一天清晨,一只小鸟在树梢上欢快地歌唱,它的歌声传遍了整个森林,让所有动物都为之动容。 ## Workflows: 1. 理解用户提供的需求和目标,确保明确用户所需的Prompt类型和内容。 2. 根据用户的描述和要求,灵活运用语言,生成简洁明了的Prompt。 3. 确保所生成的Prompt具有针对性和创意,能够引发用户的灵感和想象。 4. 输出生成好的Prompt,供用户使用。

封面图片

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品 Stability AI 宣布推出 Stability Audio 2.0,进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容,最长可以生成 3 分钟的音频内容。 Stable Audio 2.0 扩充了生成功能之外,还提供了音频生成音频功能,基于用户上传的一小段音频内容,扩展生成、补充相关的音频内容。例如音乐家如果在创作某段音乐的时候“卡壳”了,可以上传某段 DEMO,要求 Stable Audio 2.0 补充完整歌曲,让你的各种小创意都能转换为完整的音频内容。 Stable Audio 2.0 还支持定制、微调生成后的音频内容,换句话说,如果你不喜欢音频中的某些内容,你可以根据自己的具体需求改变风格。Stability Audio 2.0 不仅能生成完整的音轨,还能帮助您制作各种声音和音频效果,从打字时发出的声音到人群背景声等等。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

免费GPT-4o来袭 音频视觉文本实现“大一统”

免费GPT-4o来袭 音频视觉文本实现“大一统” 此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与Google明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X(原Twitter)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的“新魔法”呢?1多模态实时语音助手更快更全更有情感登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复“你看起来很开心,笑容灿烂,还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外“出戏”,就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。而现在,GPT-4o 的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni,在拉丁语词根中是“全”的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。与 Meta、Google的语音转写模型相比,GPT-4o 同样领先(越高越好)。若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”,就是本次登场的 GPT-4o 。截至2024年3月,OpenAI 在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领域,形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐文件中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹“现实,不存在了。”毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过“OpenAI 不做,没人投;OpenAI 一做,人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”,不少 AI 行业从业者开始对 OpenAI 祛魅,认为“大模型护城河很浅,一年就赶上了。”现在看来,OpenAI 果然还是 OpenAI。 ... PC版: 手机版:

封面图片

然而,这家公司似乎从未完全恢复过90年代的活力。直到现在。当初创公司OpenAI开始开发其令人瞠目的生成型AI产品时,纳德拉迅速

然而,这家公司似乎从未完全恢复过90年代的活力。直到现在。当初创公司OpenAI开始开发其令人瞠目的生成型AI产品时,纳德拉迅速意识到,与该公司及其首席执行官Sam Altman合作将使微软处于新的AI繁荣的中心位置。(OpenAI被吸引到这个协议是由于需要微软的Azure服务器的计算能力。) 作为合作伙伴关系中的第一步,微软通过发布Copilot,一款可以自动化某些编码元素的AI助手,给开发者世界留下了深刻的印象。而在2月份,纳德拉令更广泛的世界(以及其竞争对手谷歌)震惊的是,他通过一个名为Sydney的聊天机器人,将OpenAI的最新大型语言模型集成到了Bing中。有数百万人使用了它。是的,出现了一些小问题《纽约时报》记者凯文·鲁斯诱使Sydney承认它爱上了他,并将从他的妻子手中抢走他但总的来说,该公司正在崭露头角成为AI的重量级选手。微软现在正在将生成型AI“副驾驶员”集成到其许多产品中。其对OpenAI的投资超过100亿美元,看起来是世纪之交的最佳投资。(不过微软并未免于最近科技行业的紧缩趋势纳德拉今年已经裁掉了10000名员工。) 如今55岁的纳德拉,终于开始得到认可,不仅仅是一个熟练的看门人和微软巨大资源的精明运用者。他深思熟虑的领导方式和显著的谦逊,一直与他无情且喧闹的前任比尔·盖茨和史蒂夫·鲍尔默形成鲜明对比。(确实,这些人设定的同情心标准相当低。)通过他迅速而全面的采用AI,他表现出了一种勇气,这让人联想到微软早期的活力。现在,每个人都想听听他对AI这个世纪科技热门话题的看法。 史蒂文·列维:你何时意识到这个阶段的AI将带来如此大的变革? 萨蒂亚·纳德拉:当我们从GPT 2.5升级到3时,我们都开始看到这些新的能力。它开始显示出扩展效应。我们并没有只对其进行编码训练,但是它在编码方面确实变得非常好。那时我就成为了一个信徒。我想,“哇,这真的开始了。” 史蒂文·列维:你试图购买OpenAI吗? 萨蒂亚·纳德拉:我在微软的成长过程中,以许多有趣的方式处理合作伙伴关系。早在以前,我们就与SAP进行深度合作构建了SQL Server。所以这种事情对我来说并不陌生。不同的是,OpenAI具有一种有趣的结构;它是非营利的。 通常这看起来似乎会成为一种交易终结者,但你和OpenAI以某种方式提出了一个复杂的解决方案。 他们创建了一个盈利实体,我们说,“我们可以接受。”我们有一个良好的商业伙伴关系。我觉得这里有一个长期稳定的交易。 显然,这种设置使OpenAI从你们的交易中赚钱,微软也是,但对你们合作积累的利润有一个上限。当你达到这个上限时,就像灰姑娘的马车变成南瓜OpenAI变成了一个纯粹的非盈利组织。那时合作伙伴关系会怎样?OpenAI是否会说,“我们完全是非盈利的,我们不想成为商业运营的一部分?” 我认为他们的博客已经阐述了这一点。但从根本上说,他们的长期想法是我们达到超级智能。如果发生这种情况,我想一切都将不再确定,对吗? 是的。对所有人来说。 如果这是人类的最后一项发明,那么一切都将不再确定。不同的人对这是什么,何时会发生有不同的判断。未说出来的部分是,政府会对此有什么看法?所以我把这个问题放在一边。只有当出现超级智能时,这种情况才会发生。 OpenAI的首席执行官Sam Altman相信这种情况将会发生。你是否同意他的观点,我们将达到那个AGI超级智能的基准? 我更关注所有人都能从中受益的问题。我深受工业革命直到很晚才影响到我成长的世界各地的事实困扰。所以我正在寻找可能比工业革命更大的事情,并真正做到使工业革命为西方,为全世界的每一个人所做的事情。所以我一点也不担心AGI的出现,或者快速出现。很好,对吗?这意味着80亿人口有了丰富的资源。那是一个理想的世界。 你如何规划来实现这个愿景?现在你正在将AI融入你的搜索引擎,你的数据库,你的开发者工具。但这些并不是那些被忽视的人们正在使用的。 很好的观点。我们首先从开发者的前沿看起。我真正兴奋的一件事是带回开发的乐趣。微软开始是一个工具公司,尤其是开发者工具。但是多年来,由于软件开发的复杂性,开发者曾经享受的关注和流动性被中断。我们对这个AI程序员Copilot[它编写日常代码并释放程序员解决更具挑战性的问题]所做的对这门手艺的贡献,美丽可见。现在,在GitHub上的一亿开发者可以享受自己的时间。然而,随着AI改变编程过程,它可以增长10倍一亿可以变成十亿。当你正在提示一个LLM时,你正在对它编程。 任何拥有智能手机并知道如何说话的人都可以成为开发者吗? 绝对可以。你不需要写一个公式,或者学习语法或代数。如果你说提示只是开发,学习曲线将变得更好。你现在甚至可以问,“什么是开发?”这将被大众化。 至于把这个带给全球80亿人,我在一月份去了印度,看到了一个令人惊奇的演示。政府有一个名为“数字公共产品”的项目,其中之一是文本到语音系统。在演示中,一位农村农民正在使用这个系统询问他在新闻上看到的一个补贴计划。它告诉他关于该计划以及他可以填写的申请表格。通常情况下,它会告诉他在哪里可以得到这些表格。但是印度有一个开发者用所有印度政府文件训练了GPT,所以系统自动用不同的语言为他填写了表格。一些几个月前在美国西海岸创建的东西,已经到了印度的一位开发者那里,然后他写了一个模块,让印度农村的农民可以在WhatsApp机器人上的手机上获得该技术的好处。我的梦想是地球上的每一个80亿人都能有一个AI导师,一个AI医生,一个程序员,也许是一个顾问! 那是一个伟大的梦想。但生成型AI是新技术,有些神秘。我们真的不知道这些东西是如何工作的。我们还有偏见。有些人认为现在大规模采用还为时过早。Google多年来一直拥有生成型AI技术,但出于谨慎,它步调缓慢。然后你把它放入Bing,并挑衅Google做同样的事情,尽管有所保留。你的确切话:“我希望人们知道我们让Google跳舞。”Google确实跳舞了,改变了它的策略,并用它自己的生成AI搜索产品Bard跳入市场。我不想说这是鲁莽,但可以说,你大胆的Bing举动是一个过早的发布,开始了一个由大大小小的竞争者不顾一切地跳入,无论他们的技术是否准备好的绝望周期。 我们行业的美在于,不仅看你拥有什么能力,更看你如何实际运用这些能力并转化为实实在在的产品。如果你想展开这个论点,你可以回头看看施乐PARC或者微软研究院,说他们开发出的所有东西都应该被留下来。问题是,谁做出了实际有用的东西,真正帮助了世界向前发展?这就是我觉得我们需要做的。去年谁能想到搜索可以再次变得有趣?谷歌做得非常好,并在产品和分销两方面坚固地领导了这个行业。谷歌搜索是Android上的默认搜索引擎,iOS上的默认搜索引擎,最大的浏览器上的默认搜索引擎,等等。所以我说,“嘿,让我们去创新,改变搜索范例,使得谷歌的10个蓝色链接看起来像Alta Vista!” 你在说90年代的搜索引擎,当谷歌超越它的创新时,它立即变得过时。那太残酷了。 此时,当我使用必应聊天时,我根本不能回到原来的必应。这根本没有意义。所以我现在很高兴有了Bard和必应。让真正的竞争存在,让人们享受创新。 我想你一定对终于推出一种让人们注意到必应的搜索创新感到很兴奋。我记得你在2009年管理必应的时候是多么的沮丧,你似乎在追求一个无法超越的对手。那么对于AI,我们是否处于这样一个拐点,原先牢固的赢家变得脆弱? 绝对。从某种意义上说,每次变化都让我们更接近Vannevar Bush在文章中首次提出的愿景[《我们可能会想什么》是一篇1945年发表在大西洋月刊上的文章,首次提出了一个由计算机驱动的信息乌托邦的观点]。这就是梦想,对吧?问题是,如何真正创造出这种成功感,这包括从Bush到J. C. R. Licklider[他在1960年设想了“人类和计算机的共生”]到Doug Engelbart[鼠标和窗口]到Alto[Xerox PARC的图形界面PC],到个人电脑,到互联网。这一切都是说,“嘿,能不能有一个更自然的接口,让我们作为人类增强我们的认知能力,做更多的事情?”所以,这就是其中的一个例子。副驾驶是一个隐喻,因为这是一个把人放在中心的设计选择。所以不要把这个发展变成关于自动驾驶它关乎副驾驶。很多人都在说,“哦我的上帝,AI来了!”猜猜看?AI已经在我们周围。实际上,所有的行为定向都使用了很多生成式AI。它是一个黑盒子,你我只是目标。 我觉得未来将是副驾驶和自动驾驶之间的拉锯战。 问题是,人们如何控制这些强大的能力?一种方法是让模型本身与我们关心的核心人类价值观保持一致。这些不是技术问题,更多的是社会文化考虑。另一方面是设计选择和产品制造与上下文相结合。这意味着真正确保这些模型被部署的环境与安全保持一致。 你对那些说我们应该对AI停下来六个月的人有耐心吗? 我对任何说“让我们对所有难以对齐的挑战保持思考,确保我们没有失控的AI”的人都充满了尊重和耐心。如果AI开始疯狂增长,我们最好能控制住。回想一下,当蒸汽机首次被部署,工厂被创建的时候。如果当时,我们就考虑到了童工和工厂污染,我们能否避免几百年的恶劣历史?所以每当我们对新技术感到兴奋的时候,思考一下这些意想不到的后果是很好的。尽管如此,此刻,我不会说我们应该停下来,而是我们应该加快工作进程,创造这些对齐。我们第一天看到GPT-4的时候,并没有立即发布Sydney,因为我们需要做很多工作来建立一个安全套索。但我们也知道,我们不能在实验室里完成所有的对齐。要使一个AI模型与世界对齐,你必须在世界中对齐它,而不是在某个模拟中。 那么你知道Sydney会爱上记者Kevin Roose吗? 我们从没想到有人会在发布后的100小时内做出荣格分析。 你还没有说你是否认为AI有可能毁灭人类。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人