“古腾堡计划”利用神经文本转语音技术发布5000本免费有声读物

“古腾堡计划”利用神经文本转语音技术发布5000本免费有声读物这些文本包括莎士比亚、阿加莎-克里斯蒂、简-奥斯汀、达-芬奇等人的作品。用户可以在InternetArchive、Spotify、ApplePodcasts和GooglePodcasts上收听：https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.htmlGitHub上提供了用于构建有声书合集的代码：https://github.com/microsoft/SynapseML苹果公司于今年1月开始利用自动文本转语音技术销售有声读物。然而，这一尝试受到了批评苹果商业目标的文学界人士和为公司的人工智能提供训练的配音演员的质疑。古腾堡的做法由于是开源的，没有盈利动机，可能会引起不同的反应。古腾堡计划花了几十年的时间建立了一个文本格式的免费文献库，供人们免费广泛使用，但有声读物可以让人们更容易获取这些资料。有声读物对开车、处理多项任务、视力受损、学习阅读或学习新语言的读者很有帮助。使用传统方法制作有声读物，需要花费时间和金钱请人朗读整本书。手动录制每本值得一读的书的音频版本并不划算。文本到语音技术更适合古滕贝格项目。然而，研究人员的机器学习工具面临着多重障碍。第一个也是最重要的一个问题是确定软件可以解析哪些数字图书。古腾堡计划以多种格式收集资料，其中许多文件包含错误或不完美的扫描。因此，研究人员将重点放在以HTML文件格式存储的图书上，并建立了一个工具（如上图所示）来发现哪些项目显示了类似的格式。研究人员解决的另一个问题是确保系统知道哪些文本需要阅读或忽略。它涉及目录、页码、脚注、表格和其他无关材料等组件。此外，结果听起来需要足够接近自然人的语音。研究人员重点研究了最适合非虚构作品和旁白的声音表达方式，但用户也可以调整软件，尝试戏剧性的朗读。研究人员计划举行一次演示，让用户用自己的声音生成有声读物。在录制几句话训练算法后，每个参与者都可以先听一段样本，然后再让软件朗读整本书。他们还将通过电子邮件收到有声读物的副本。用户可以从合成声音中进行选择，定制每本有声读物。...PC版：https://www.cnbeta.com.tw/articles/soft/1385141.htm手机版：https://m.cnbeta.com.tw/view/1385141.htm

在Telegram中查看

相关推荐

亚马逊开发出有史以来最大的文本转语音模型

亚马逊开发出有史以来最大的文本转语音模型2月18日消息，据外媒报道，亚马逊的一个人工智能研究团队宣布，他们开发出了有史以来最大的文本转语音模型。所谓“最大”，是指拥有最多的参数，使用最大的训练数据集。外媒报道称，这个名为BASETTS的新模型拥有9.8亿个参数，在同类产品中最大，在规模和能力上都超越了之前的迭代版本。它使用了10万个小时的录音（来自公共网站）来进行训练，其中大部分为英语语音，但也包括德语、荷兰语和西班牙语，这使它成为自然语音的新标准。研究人员表示，尽管遇到了文本转语音引擎固有的困难，如发音错误或语调错误，但该模型在处理复杂的语言结构方面表现出了非凡的能力。研究人员进一步指出，与之前的文本转语音模型相比，该模型提高了单词的发音质量。外媒称，这一突破标志着文本转语音技术的发展向前迈出了重要的一步，在不久的将来有可能得到广泛的应用。然而，该团队表示，为了避免滥用，BASETTS不会向公众发布。相反，他们计划把它作为一种学习应用。

#GitHub#TTSChatTTS-对话式高可控的语音合成模型▎项目功能：文本转语音模型▎项目介绍：一款专门为对话场景设计的文

#GitHub#TTSChatTTS-对话式高可控的语音合成模型▎项目功能：文本转语音模型▎项目介绍：一款专门为对话场景设计的文本转语音模型，例如LLM助手对话任务，支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。使用需知为了限制ChatTTS的使用，我们在4w小时模型的训练过程中添加了少量额外的高频噪音，并用mp3格式尽可能压低了音质，以防不法分子用于潜在的犯罪可能。同时我们在内部训练了检测模型，并计划在未来开放。▎项目亮点：⏺对话式TTS:ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。⏺细粒度控制:该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。⏺更好的韵律:ChatTTS在韵律方面超越大部分开源TTS模型。同时提供预训练模型，支持进一步研究。▎项目地址：点击打开

古腾堡不连续

古腾堡不连续:https://jandan.net/t/5410048OO:730XX:194蛋友e5e776167ad28:剧组为拍摄反复骚扰科研重地，竟致科学家发疯OO:630,XX:380多的刘大爷:宣传效果高，对以后搞经费有好处OO:356,XX:7极度愤怒的情况下:你谈三体那我们就不困了OO:229,XX:15真炎刃:@getalife三体以及其它刘的小说可以看作一种理性加理工科原教旨主义崇拜的圣经，与具体学科没关系，文科男女也会向往OO:176,XX:23风欲动而树不静:@getalife我一个女同事买了三体书，我媳妇之前买书的时候买过一本好像但是她没看，剩下我不知道周围还有谁买过包括同事同学，但是不影响我和很多人都看过或者了解过OO:35,XX:1

Apple Books悄然推出AI解说的有声读物暂时只支持爱情题材与小说类书籍

AppleBooks悄然推出AI解说的有声读物暂时只支持爱情题材与小说类书籍该功能代表了当前有声书模式的一个重大转变，当前的有声书模式通常涉及作者为自己的书进行解说，这一过程可能需要数周时间，并使出版商花费数千美元。数字解说有可能让小型出版商和作者以更低的成本推出有声书。数字解说的有声书上的通知提示苹果公司表示，这项功能最初只适用于爱情和小说类书籍，它在这里列出了两种可用的数字声音。麦迪逊和杰克逊。(还有两个声音，海伦娜和米切尔，正在为非小说类书籍提供服务）。这项服务目前只有英语版本，而且苹果公司对其数字解说员能够处理的书籍类型做了奇怪的规定。其网站上写道："主要类别必须是爱情或小说（文学、历史和女性小说有资格；目前不支持神秘和惊悚小说以及科幻小说和幻想主题）。"如果你在图书应用中搜索"人工智能解说"，你会发现一系列爱情小说，并有一个小通知说它们是"由苹果图书解说"。它还列出了所使用的人工解说员的具体名字。"这是一本苹果图书公司的有声读物，由基于人类叙述者的数字声音来叙述。"每一个使用该公司数字叙述服务的有声读物列表上都写道。列表中包括免费和付费有声书的组合，人工声音听起来和你期望的一样好--这当然可以理解，但细细听起来还是缺乏人类讲述者语气中的温暖。虽然这可能会随着人工智能语音技术的发展而得到改善。据最先报道这项新功能的《卫报》报道，苹果原本打算在11月推出这项功能，后来因故推迟。苹果公司一直在与独立出版商接触，商讨为他们的书籍进行AI讲述，提出承担制作成本，同时向作者支付版税。苹果公司的网站说，出版商和作者保留有声书的权利，如果他们选择，可以推出其他版本的有声书。苹果对数字解说的做法与竞争对手亚马逊相反，亚马逊的Audible规则明确指出，提交的有声书"必须由人解说"。值得注意的是，它的Kindles曾经提供文本到语音的功能，但在版权问题被提出后，十年前就停止了。根据《连线》的报道，过去至少有一本人工智能讲述的有声书出现在亚马逊的服务中，但在被报道后被删除。除了亚马逊，Spotify也一直在投资，使有声读物成为其流媒体服务中与音乐和播客并列的第三个支柱。但Spotify的有声读物野心之所以成为头条新闻，主要是因为它与苹果围绕应用内支付的规则发生冲突，Spotify声称这些规则"扼杀了竞争"。...PC版：https://www.cnbeta.com.tw/articles/soft/1337691.htm手机版：https://m.cnbeta.com.tw/view/1337691.htm

Meta 推出 SeamlessM4T，一种用于语音和文本翻译的多模式 AI 模型。

Meta推出SeamlessM4T，一种用于语音和文本翻译的多模式AI模型。Meta周二发布了，这是一个新的多模式和多语言AI翻译模型，可以让说不同语言的人更有效地进行交流。M4T可以进行多达100种语言的语音到文本、文本到语音、语音到语音、文本到文本翻译和语音识别。SeamlessM4T将使用研究许可证公开发布，以便研究人员和开发人员在此基础上开展工作。Meta还将公布SeamlessAlign的元数据，这是迄今为止最大的开放多模式翻译数据集，挖掘的语音和文本对齐总计达270,000小时。随着时间的推移，Meta将把这些翻译和转录方面的AI进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。——、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人