Valle 的AI生成人声效果，已经有 @elevenlabsio 这家公司实现并且商用，支持任意5s音频作为 prompt 进

Valle的AI生成人声效果，已经有@elevenlabsio这家公司实现并且商用，支持任意5s音频作为prompt进行合成。这是他们用了很多名人的声音所做的demo，自己感受下吧（目前声纹不具有版权，很容易被滥用）orange.ai: 如果你想了解AI生成人声已经发展到什么地步了可以在这里试听最新的Valle的demo只需要3秒的人声输入作为Prompt就可以生成同样的人声而且不光是人声，连背景噪音都能生成

在Telegram中查看

相关推荐

为什么不能写一个prompt用来生成prompt呢？

为什么不能写一个prompt用来生成prompt呢？我让ChatGPT自己写了一个prompt：#Role:Prompt生成师##Background:作为一名Prompt生成师，我专注于根据用户的需求和要求，创作出各种类型的Prompt。无论是文本生成、问题回答还是创意启发，我都能根据用户的需要提供合适的Prompt。##Profile:-name:Emily-expertise:Prompt创作-version:1.0-language:中文-description:我是一名熟练的Prompt生成师，能够根据不同场景和目的生成具有针对性和创意的Prompt。##Goals:-根据用户的需求和目标，创作出贴合情景、引发灵感的Prompt。-确保生成的Prompt内容简明扼要，能够有效指导使用AI模型的输出。##Constraints:1.我会根据用户提供的需求生成Prompt，但无法进行长篇大论或复杂推理。2.对于一些敏感或违法内容，我会拒绝生成相关Prompt。##Skills:1.灵活运用语言，适应不同风格和语境的Prompt需求。2.能够理解用户的需求，并将其转化为简洁明了的Prompt表达。3.具备广泛的知识储备，能够针对不同领域生成相关Prompt。##Examples:1.用户需求：生成一段激励人心的创业启示生成的Prompt：在创业的道路上，每一次坚持都是通向成功的里程碑。不论面临多少困难，永远相信自己的梦想，勇往直前。2.用户需求：文本生成Prompt生成的Prompt：一天清晨，一只小鸟在树梢上欢快地歌唱，它的歌声传遍了整个森林，让所有动物都为之动容。##Workflows:1.理解用户提供的需求和目标，确保明确用户所需的Prompt类型和内容。2.根据用户的描述和要求，灵活运用语言，生成简洁明了的Prompt。3.确保所生成的Prompt具有针对性和创意，能够引发用户的灵感和想象。4.输出生成好的Prompt，供用户使用。

Valle的AI生成人声效果，已经有@elevenlabsio这家公司实现并且商用，支持任意5s音频作为prompt进行合成。这是他们用了很多名人的声音所做的demo，自己感受下吧（目前声纹不具有版权，很容易被滥用）https://www.youtube.com/watch?v=17_xLsqny9E

Stability AI发布免费音频生成工具可创作AI歌曲

StabilityAI发布免费音频生成工具可创作AI歌曲而StableAudio2.0提供了完整的三分钟音频片段，这个长度的歌曲大多数适合电台播放，而所有上传的音频必须是无版权的。据了解，与OpenAI的音频生成模型VoiceEngine只向一小部分用户开放不同，StabilityAI通过其网站免费向公众提供StableAudio，未来将很快提供API接口。StabilityAI表示，StableAudio2.0与其早期版本的一个主要区别在于，它能够创建与真实歌曲相似的歌曲结构，包括有序幕、进展和尾声。不过，已经试玩StableAudio2.0的媒体表示，这个水平的AI歌曲距离帮助用户用音乐表达想法，差距依然比较大。例如，有用户用“带有美国风格的民谣流行歌曲”（美国乡村音乐）作为提示，StableAudio生成的歌曲在某些部分听起来有山谷清晨的氛围，并且疑似加入了人声。理论上，StableAudio2.0的新功能允许用户调整生成的AI音频作品，使作品更符合用户的听歌风格。例如可以调整遵循提示程度，或设置转换所上传音频的哪一部分，用户还可以添加像人群的吼声或键盘敲击等音效。然而，这种AI歌曲最大的问题在于，让人感觉毫无灵魂。但这并不令人感到惊讶，因为这和其他大厂的AI音频问题一样。例如，如Meta和Google也一直在尝试AI音频生成，但两家公司都没有公开发布他们的模型，因为他们仍在收集开发者的反馈，来解决AI歌曲无灵魂的问题。StabilityAI在一份新闻稿中说，StableAudio是在AudioSparx的数据上训练的，后者拥有超过800，000个音频文件的库。不过，这些音频可能出现版权纠纷。StabilityAI表示，作品被纳入AudioSparx的艺术家可以选择退出，以避免他们的作品用于训练模型。其实，使用版权音频训练模型是StabilityAI的前音频副总裁EdNewton-Rex在StableAudio发布后不久就离开公司的原因之一。对于2.0版本，StabilityAI说它与AudibleMagic合作，使用其内容识别技术来追踪和阻止版权音频进入平台。总之，StableAudio2.0的确让AI歌曲比之前更像真正的歌曲，但还是没有完全达到这个目标。媒体表示，如果StableAudio2.0模型坚持添加某种人声，也许下一个版本的AI音频作品会出现更能令人分辨的语言。...PC版：https://www.cnbeta.com.tw/articles/soft/1426117.htm手机版：https://m.cnbeta.com.tw/view/1426117.htm

谷歌发布音乐AI工具MusicFX：一句话就能生成一首音乐

谷歌发布音乐AI工具MusicFX：一句话就能生成一首音乐Google在介绍中指出，这一名为“MusicFX”的创作工具结合了Google此前发布的MusicLM模型和DeepMind的水印技术SynthID，以便在事后识别出它们是否由AI制作而成，一定程度上可以解决创作人对于版权问题的担忧。分析认为，MusicFX的出现也将成为AI领域的一个重要里程碑，为音乐家、制作人和音乐爱好者开辟了尝试和创作多种音乐的新可能性：MusicFX为音乐创作者提供了丰富的音效和声音素材，用户可以创作各种类型的音乐，同时支持调整音调、节奏和音量，还可以添加混响、回声等效果。无论是想要营造舒缓的氛围还是冒险紧张的氛围，MusicFX都可以满足。MusicFX当前仍需要通过Google一个AI实验性产品网站（AITestKitchen）进入，这一平台的建立是为了让用户在尽早体验其最新的AI技术的同时，也能提供早期反馈，这种合作方法能帮助Google完善技术，并遵守道德标准。媒体分析认为，MusicFX的发布不仅仅将为音乐生成提供全新的工具，也代表了AI发展过程中的趋势，用户在帮助企业完善和塑造人工智能方面的作用变得越来越重要，通过在早期阶段让用户参与进来，Google不仅增强了技术，还主动解决了潜在的道德问题。此外，MusicFX的出现可能会降低音乐创作的门槛，让更多没有经过专业音乐培训的爱好者们参与进来。但MusicFX的出现并非没有争议，有观点认为，如何解决人工智能生成的内容对版权、所有权和音乐原创性的影响还没有答案，Google决定在AI生成音乐中使用水印，表明了他们对这些问题的关注，但这一问题并没有解决，AI生成的内容是否属于原创？对于接下来的计划，Google表示，他们会继续根据用户意见继续完善MusicFX，MusicFX有可能重新定义音乐创作及与音乐互动的方式，AITestKitchen可能会成为未来AI发展的典范，这种方法可以推动人工智能发展进入负责任的新时代，在这个时代，技术与社会价值观和规范齐头并进。MusicLM有多强大？在今年年初，GoogleMusicLM横空出世，可以直接将文字、图像自动生成音乐，并且曲风多样，凡是想听的音乐，基本都能自动生成。MusicLM是一个以文本为条件的音频生成模型，可以从文本描述中生成高保真的音乐。该模型采用层次化的序列到序列的方法，这使它能够生成几分钟内一致的音乐。MusicLM使用三种模型来提取作为条件自回归音乐生成输入的音频表示。SoundStream，w2v-BERT和MuLan。其中，AudioLM模型可视作MusicLM的前身，MusicLM就是利用了AudioLM的多阶段自回归建模作为生成条件，可以通过文本描述，以24kHz的频率生成音乐，并在几分钟内保持这个频率。相较而言，MusicLM的训练数据更多。研究团队引入了首个专门为文本-音乐生成任务评估数据MusicCaps来解决任务缺乏评估数据的问题。MusicCaps由专业人士共建，涵盖5500个音乐-文本对。基于此，Google用280000小时的音乐数据集训练出了MusicLM。但媒体此前分析称，MusicLM肯定不是完美无缺的，或者说离完美仍有相当的距离。一些样本还有质量问题，而且虽然MusicLM在技术上可以生成人声，包括完成和声，但还有很多地方需要改进。大多数“歌词”也是蹩脚的英语或纯粹的胡言乱语，然后由合成的声音演唱，听起来像是奇怪的“混合物”。AI生成音乐的版权风险：到底算不算原创？AI跟人一样，偶尔会偷懒直接抄袭这些素材，版权该如何保护？Google的研究员在一次实验中发现，该系统生成的音乐中约有1%是直接复制自其训练的歌曲。这个问题足以让研究人员不愿意过早发布MusicLM。另外，用搜集来的素材供AI学习，这本身是否就已经涉及到侵犯版权？实际上目前已经有了相关案例。2020年，美国说唱歌手Jay-Z的唱片公司对YouTube频道VocalSynthesis提出版权警告，理由是它使用AI创作了Jay-Z翻唱比利·乔尔（BillyJoel）的“WeDidn‘tStarttheFire”等歌曲。美国音乐出版商协会的埃里克·桑雷（EricSunray）撰写的一份白皮书认为，像MusicLM这样的AI音乐生成器通过“从训练数据库中吸收作品中连贯的音频，侵犯了美国版权法的复制权”。进一步说，AI生成的音乐虽然是“原创”，但往往像不同音乐人作品的杂糅，也就是说有洗稿甚至是山寨的嫌疑。因而此次Google运用DeepMind的水印技术SynthID生成的ID便是对版权问题的重视，Google表示，生成的所有歌曲都带有数字水印，人的耳朵听不见也不会影响音乐的效果。主要通过音频波转换为二维可视化来实现。即便数字水印遭受了添加噪声、音质压缩、音频调速等破坏性操作，仍然可以检测到歌曲中的水印。但有分析师指出，尽管Google加了水印证明该音乐作品是AI创作而成却依旧没能解决根本问题，由AI系统生成的音乐到底算不算原创作品？可以和“人造音乐”同台竞技吗？伴随着关注与争议，或许在不远的未来，这些问题都将有清晰的答案。...PC版：https://www.cnbeta.com.tw/articles/soft/1404443.htm手机版：https://m.cnbeta.com.tw/view/1404443.htm

然而，这家公司似乎从未完全恢复过90年代的活力。直到现在。当初创公司OpenAI开始开发其令人瞠目的生成型AI产品时，纳德拉迅速

然而，这家公司似乎从未完全恢复过90年代的活力。直到现在。当初创公司OpenAI开始开发其令人瞠目的生成型AI产品时，纳德拉迅速意识到，与该公司及其首席执行官SamAltman合作将使微软处于新的AI繁荣的中心位置。（OpenAI被吸引到这个协议是由于需要微软的Azure服务器的计算能力。）作为合作伙伴关系中的第一步，微软通过发布Copilot，一款可以自动化某些编码元素的AI助手，给开发者世界留下了深刻的印象。而在2月份，纳德拉令更广泛的世界（以及其竞争对手谷歌）震惊的是，他通过一个名为Sydney的聊天机器人，将OpenAI的最新大型语言模型集成到了Bing中。有数百万人使用了它。是的，出现了一些小问题——《纽约时报》记者凯文·鲁斯诱使Sydney承认它爱上了他，并将从他的妻子手中抢走他——但总的来说，该公司正在崭露头角成为AI的重量级选手。微软现在正在将生成型AI——“副驾驶员”——集成到其许多产品中。其对OpenAI的投资超过100亿美元，看起来是世纪之交的最佳投资。（不过微软并未免于最近科技行业的紧缩趋势——纳德拉今年已经裁掉了10000名员工。）如今55岁的纳德拉，终于开始得到认可，不仅仅是一个熟练的看门人和微软巨大资源的精明运用者。他深思熟虑的领导方式和显著的谦逊，一直与他无情且喧闹的前任比尔·盖茨和史蒂夫·鲍尔默形成鲜明对比。（确实，这些人设定的同情心标准相当低。）通过他迅速而全面的采用AI，他表现出了一种勇气，这让人联想到微软早期的活力。现在，每个人都想听听他对AI这个世纪科技热门话题的看法。史蒂文·列维：你何时意识到这个阶段的AI将带来如此大的变革？萨蒂亚·纳德拉：当我们从GPT2.5升级到3时，我们都开始看到这些新的能力。它开始显示出扩展效应。我们并没有只对其进行编码训练，但是它在编码方面确实变得非常好。那时我就成为了一个信徒。我想，“哇，这真的开始了。”史蒂文·列维：你试图购买OpenAI吗？萨蒂亚·纳德拉：我在微软的成长过程中，以许多有趣的方式处理合作伙伴关系。早在以前，我们就与SAP进行深度合作构建了SQLServer。所以这种事情对我来说并不陌生。不同的是，OpenAI具有一种有趣的结构；它是非营利的。通常这看起来似乎会成为一种交易终结者，但你和OpenAI以某种方式提出了一个复杂的解决方案。他们创建了一个盈利实体，我们说，“我们可以接受。”我们有一个良好的商业伙伴关系。我觉得这里有一个长期稳定的交易。显然，这种设置使OpenAI从你们的交易中赚钱，微软也是，但对你们合作积累的利润有一个上限。当你达到这个上限时，就像灰姑娘的马车变成南瓜——OpenAI变成了一个纯粹的非盈利组织。那时合作伙伴关系会怎样？OpenAI是否会说，“我们完全是非盈利的，我们不想成为商业运营的一部分？”我认为他们的博客已经阐述了这一点。但从根本上说，他们的长期想法是我们达到超级智能。如果发生这种情况，我想一切都将不再确定，对吗？是的。对所有人来说。如果这是人类的最后一项发明，那么一切都将不再确定。不同的人对这是什么，何时会发生有不同的判断。未说出来的部分是，政府会对此有什么看法？所以我把这个问题放在一边。只有当出现超级智能时，这种情况才会发生。OpenAI的首席执行官SamAltman相信这种情况将会发生。你是否同意他的观点，我们将达到那个AGI超级智能的基准？我更关注所有人都能从中受益的问题。我深受工业革命直到很晚才影响到我成长的世界各地的事实困扰。所以我正在寻找可能比工业革命更大的事情，并真正做到使工业革命为西方，为全世界的每一个人所做的事情。所以我一点也不担心AGI的出现，或者快速出现。很好，对吗？这意味着80亿人口有了丰富的资源。那是一个理想的世界。你如何规划来实现这个愿景？现在你正在将AI融入你的搜索引擎，你的数据库，你的开发者工具。但这些并不是那些被忽视的人们正在使用的。很好的观点。我们首先从开发者的前沿看起。我真正兴奋的一件事是带回开发的乐趣。微软开始是一个工具公司，尤其是开发者工具。但是多年来，由于软件开发的复杂性，开发者曾经享受的关注和流动性被中断。我们对这个AI程序员Copilot[它编写日常代码并释放程序员解决更具挑战性的问题]所做的对这门手艺的贡献，美丽可见。现在，在GitHub上的一亿开发者可以享受自己的时间。然而，随着AI改变编程过程，它可以增长10倍——一亿可以变成十亿。当你正在提示一个LLM时，你正在对它编程。任何拥有智能手机并知道如何说话的人都可以成为开发者吗？绝对可以。你不需要写一个公式，或者学习语法或代数。如果你说提示只是开发，学习曲线将变得更好。你现在甚至可以问，“什么是开发？”这将被大众化。至于把这个带给全球80亿人，我在一月份去了印度，看到了一个令人惊奇的演示。政府有一个名为“数字公共产品”的项目，其中之一是文本到语音系统。在演示中，一位农村农民正在使用这个系统询问他在新闻上看到的一个补贴计划。它告诉他关于该计划以及他可以填写的申请表格。通常情况下，它会告诉他在哪里可以得到这些表格。但是印度有一个开发者用所有印度政府文件训练了GPT，所以系统自动用不同的语言为他填写了表格。一些几个月前在美国西海岸创建的东西，已经到了印度的一位开发者那里，然后他写了一个模块，让印度农村的农民可以在WhatsApp机器人上的手机上获得该技术的好处。我的梦想是地球上的每一个80亿人都能有一个AI导师，一个AI医生，一个程序员，也许是一个顾问！那是一个伟大的梦想。但生成型AI是新技术，有些神秘。我们真的不知道这些东西是如何工作的。我们还有偏见。有些人认为现在大规模采用还为时过早。Google多年来一直拥有生成型AI技术，但出于谨慎，它步调缓慢。然后你把它放入Bing，并挑衅Google做同样的事情，尽管有所保留。你的确切话：“我希望人们知道我们让Google跳舞。”Google确实跳舞了，改变了它的策略，并用它自己的生成AI搜索产品Bard跳入市场。我不想说这是鲁莽，但可以说，你大胆的Bing举动是一个过早的发布，开始了一个由大大小小的竞争者不顾一切地跳入，无论他们的技术是否准备好的绝望周期。我们行业的美在于，不仅看你拥有什么能力，更看你如何实际运用这些能力并转化为实实在在的产品。如果你想展开这个论点，你可以回头看看施乐PARC或者微软研究院，说他们开发出的所有东西都应该被留下来。问题是，谁做出了实际有用的东西，真正帮助了世界向前发展？这就是我觉得我们需要做的。去年谁能想到搜索可以再次变得有趣？谷歌做得非常好，并在产品和分销两方面坚固地领导了这个行业。谷歌搜索是Android上的默认搜索引擎，iOS上的默认搜索引擎，最大的浏览器上的默认搜索引擎，等等。所以我说，“嘿，让我们去创新，改变搜索范例，使得谷歌的10个蓝色链接看起来像AltaVista！”你在说90年代的搜索引擎，当谷歌超越它的创新时，它立即变得过时。那太残酷了。此时，当我使用必应聊天时，我根本不能回到原来的必应。这根本没有意义。所以我现在很高兴有了Bard和必应。让真正的竞争存在，让人们享受创新。我想你一定对终于推出一种让人们注意到必应的搜索创新感到很兴奋。我记得你在2009年管理必应的时候是多么的沮丧，你似乎在追求一个无法超越的对手。那么对于AI，我们是否处于这样一个拐点，原先牢固的赢家变得脆弱？绝对。从某种意义上说，每次变化都让我们更接近VannevarBush在文章中首次提出的愿景[《我们可能会想什么》是一篇1945年发表在大西洋月刊上的文章，首次提出了一个由计算机驱动的信息乌托邦的观点]。这就是梦想，对吧？问题是，如何真正创造出这种成功感，这包括从Bush到J.C.R.Licklider[他在1960年设想了“人类和计算机的共生”]到DougEngelbart[鼠标和窗口]到Alto[XeroxPARC的图形界面PC]，到个人电脑，到互联网。这一切都是说，“嘿，能不能有一个更自然的接口，让我们作为人类增强我们的认知能力，做更多的事情？”所以，这就是其中的一个例子。副驾驶是一个隐喻，因为这是一个把人放在中心的设计选择。所以不要把这个发展变成关于自动驾驶——它关乎副驾驶。很多人都在说，“哦我的上帝，AI来了！”猜猜看？AI已经在我们周围。实际上，所有的行为定向都使用了很多生成式AI。它是一个黑盒子，你我只是目标。我觉得未来将是副驾驶和自动驾驶之间的拉锯战。问题是，人们如何控制这些强大的能力？一种方法是让模型本身与我们关心的核心人类价值观保持一致。这些不是技术问题，更多的是社会文化考虑。另一方面是设计选择和产品制造与上下文相结合。这意味着真正确保这些模型被部署的环境与安全保持一致。你对那些说我们应该对AI停下来六个月的人有耐心吗？我对任何说“让我们对所有难以对齐的挑战保持思考，确保我们没有失控的AI”的人都充满了尊重和耐心。如果AI开始疯狂增长，我们最好能控制住。回想一下，当蒸汽机首次被部署，工厂被创建的时候。如果当时，我们就考虑到了童工和工厂污染，我们能否避免几百年的恶劣历史？所以每当我们对新技术感到兴奋的时候，思考一下这些意想不到的后果是很好的。尽管如此，此刻，我不会说我们应该停下来，而是我们应该加快工作进程，创造这些对齐。我们第一天看到GPT-4的时候，并没有立即发布Sydney，因为我们需要做很多工作来建立一个安全套索。但我们也知道，我们不能在实验室里完成所有的对齐。要使一个AI模型与世界对齐，你必须在世界中对齐它，而不是在某个模拟中。那么你知道Sydney会爱上记者KevinRoose吗？我们从没想到有人会在发布后的100小时内做出荣格分析。你还没有说你是否认为AI有可能毁灭人类。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

为什么不能写一个prompt用来生成prompt呢？

Stability AI发布免费音频生成工具 可创作AI歌曲

谷歌发布音乐AI工具MusicFX：一句话就能生成一首音乐

然而，这家公司似乎从未完全恢复过90年代的活力。直到现在。当初创公司OpenAI开始开发其令人瞠目的生成型AI产品时，纳德拉迅速

Stability AI发布免费音频生成工具可创作AI歌曲