hatTTS

项目名称：ChatTTS项目功能：文字转语音项目简介：一个生成式语音模型，支持中英文，并通过超过10万小时的训练数据进行训练。能够生成自然且富有表现力的语音合成，支持多种说话人，便于互动对话。提供了基本和高级使用方法，包括如何加载模型、生成语音，以及对说话人和语音韵律进行细粒度控制的示例代码。项目地址：试用地址：

在Telegram中查看

相关推荐

#GitHub#TTSChatTTS-对话式高可控的语音合成模型▎项目功能：文本转语音模型▎项目介绍：一款专门为对话场景设计的文

#GitHub#TTSChatTTS-对话式高可控的语音合成模型▎项目功能：文本转语音模型▎项目介绍：一款专门为对话场景设计的文本转语音模型，例如LLM助手对话任务，支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。使用需知为了限制ChatTTS的使用，我们在4w小时模型的训练过程中添加了少量额外的高频噪音，并用mp3格式尽可能压低了音质，以防不法分子用于潜在的犯罪可能。同时我们在内部训练了检测模型，并计划在未来开放。▎项目亮点：⏺对话式TTS:ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。⏺细粒度控制:该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。⏺更好的韵律:ChatTTS在韵律方面超越大部分开源TTS模型。同时提供预训练模型，支持进一步研究。▎项目地址：点击打开

TACO（Topics in Algorithmic COde Generation dataset）是一个专注于算法代码生成的

（TopicsinAlgorithmicCOdeGenerationdataset）是一个专注于算法代码生成的数据集，旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力，而不仅仅是实现预定义的函数功能。规模更大：TACO包括训练集（25,443个问题）和测试集（1,000个问题），使其成为当前可用的最大的代码生成数据集。更高质量：TACO数据集中的每个问题都旨在匹配一组不同的解决方案答案，答案大小高达1.55M。这保证了模型在训练过程中不易出现过拟合，并验证了评估结果的有效性。细粒度标签：TACO数据集中的每个问题都包含细粒度标签，例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。

Soul 宣布上线自研大模型 “SoulX”

Soul宣布上线自研大模型“SoulX”近日，新型社交平台Soul宣布上线自研语言大模型SoulX。据了解，该模型基于海量数据训练，具备prompt驱动、条件可控生成、上下文理解、多模态理解等能力。在保证对话流畅、自然、具备情感温度的同时，还能覆盖百种细粒度风险类别，通过训练数据安全筛选、安全SFT数据构造、RLHF安全对齐、推理拦截等策略来构建安全体系，保证了大模型的内容生产质量和安全性。（新浪科技）

arler-TTS

网站名称：Parler-TTS网站功能：文本转语音网站简介：一款开源免费高质量的文本到语音（TTS）模型，能够生成高质量、听起来自然的语音，支持不同的说话者特性，如性别、音调和说话风格等。完全开源，包括数据集、预处理、训练代码和权重，允许社区在此基础上构建和开发自己的强大TTS模型。体验网站：开源地址：

BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

国家发改委就《“数据要素×”三年行动计划（2024-2026年）（征求意见稿）》向社会公开征求意见。意见稿提出，以科学数据支持大

国家发改委就《“数据要素×”三年行动计划（2024-2026年）（征求意见稿）》向社会公开征求意见。意见稿提出，以科学数据支持大模型开发，深入挖掘包含科技文献在内的各类科学数据，通过细粒度的知识抽取，构建科学知识资源底座，建设高质量语料库和基础科学数据集，支持开展通用人工智能大模型和垂直领域人工智能大模型训练。探索科研新范式，面向新范式需求迫切的重点科研领域，充分依托各类数据库与知识库，推进跨机构、跨学科、跨领域协同创新，发现新规律，创造新知识，加速科学研究范式变革。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人