MyShell 开源了号称目前全世界效果最好的 TTS 库 MeloTTS

MyShell开源了号称目前全世界效果最好的TTS库MeloTTS代码:https://github.com/myshell-ai/MeloTTS体验:https://huggingface.co/spaces/mrfakename/MeloTTS哥飞给大家介绍下,目前MeloTTS支持英语、西班牙语、法语、中文、日语和韩语,号称是目前最好的高质量多语言文本转语音库。还支持中英混杂,有点优秀哦。

相关推荐

封面图片

ChatTTS是最近很火的超逼真TTS(文本转语音)模型,重点是开源了O!

ChatTTS是最近很火的超逼真TTS(文本转语音)模型,重点是开源了O!试了下,是真的没有机器味儿啊...太强了现在HuggingFaceSpace上有不少的demo可以体验效果,大家也可以试试:https://huggingface.co/spaces/Dzkaka/ChatTTS•模型下载:https://huggingface.co/2Noise/ChatTTS•GitHub:https://github.com/2noise/ChatTTS

封面图片

微软开源的一个文本编码器Glyph-ByT5-v2。

微软开源的一个文本编码器Glyph-ByT5-v2。支持使用十多种语言生成图片。还搭配了一个使用这个文本编码器的SDXL模型,可以直接生成中文海报和内容。从演示来看排版都挺好的。1)创建了一个高质量的多语言字形文本和图形设计数据集,包含超过100万个字形文本对和1000万个图形设计图像文本对,覆盖另外九种语言;2)构建了一个多语言视觉段落基准数据集,包括1000个提示,每种语言100个,用于评估多语言视觉拼写准确性;3)采用最新的步进感知偏好学习方法,提高了视觉美学质量。模型下载:https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

封面图片

哥飞给大家整理了几个可以在线体验 Llama2 的地方

哥飞给大家整理了几个可以在线体验Llama2的地方llama2.ai目前最好用,可选70B、13B、7B模型https://www.llama2.ai/perplexity.ai只有13B和7Bhttps://llama.perplexity.ai/llama2.space只有7Bhttps://www.llama2.space/poe.com有13B和7Bhttps://poe.com/Llama-2-13bhttps://poe.com/Llama-2-7bhuggingface.co暂时找到了13B和7B的,70B的都报错,就没列出来https://huggingface.co/spaces/huggingface-projects/llama-2-13b-chathttps://huggingface.co/spaces/huggingface-projects/llama-2-7b-chathuggingfacechat支持llama270B和llama30Bhttps://huggingface.co/chat

封面图片

Command-R:多语言、高性能、可定制:350亿参数的开源语言模型

:多语言、高性能、可定制:350亿参数的开源语言模型-C4AICommand-R是一个350亿参数的高性能生成式模型,由Cohere和CohereForAI联合开发。-Command-R是一个大型语言模型,其开放权重针对多种用例进行了优化,包括推理、摘要和问答。-Command-R具有多语言生成能力,在10种语言上进行了评估,并具有高性能的RAG(Retrieval-AugmentedGeneration)能力。-该模型的许可证为CC-BY-NC,使用时还需遵守C4AI的可接受使用政策。-Command-R的上下文长度为128K,可以使用HuggingFace的Transformers库进行调用和使用。-C4AICommand-R的发布展示了Cohere在开发大型语言模型方面的实力。350亿参数的模型规模处于业界领先水平,有望在多个应用领域取得突破。-Command-R的开放权重和对多种用例的优化,为开发者和研究者提供了灵活性和可定制性。这有助于促进模型的应用和创新。-多语言生成能力和高性能RAG能力的结合,使Command-R在跨语言任务和知识密集型任务上具有独特优势。这可能推动自然语言处理技术在全球范围内的普及和应用。-CC-BY-NC许可证和C4AI的可接受使用政策体现了Cohere对于负责任AI开发的重视。在开放模型的同时,设置合理的使用边界,有助于防范潜在的滥用风险。-基于HuggingFace生态系统发布模型,降低了用户的使用门槛。这种与主流开源社区的融合,有利于Command-R的推广和迭代。-尽管Command-R的开放权重提供了灵活性,但对于缺乏计算资源的中小型开发者而言,350亿参数的模型规模可能难以承受。这可能加剧AI开发的门槛和不平等。-Command-R在多语言任务上的出色表现,可能促使更多开发者将其应用于跨文化交流和全球化业务。但过度依赖单一模型,可能忽视了不同语言和文化的独特性。-开放模型虽然有利于创新,但也可能加剧恶意使用和滥用的风险。即使有使用政策的约束,在实践中难以对每一个应用进行有效监管。这需要技术和制度的双重发力。

封面图片

libopenshot:开源的 #C++ 视频编辑库,致力于为全世界提供高质量的编辑、动画和播放解决方案。| #编辑器

:开源的#C++视频编辑库,致力于为全世界提供高质量的视频编辑、动画和播放解决方案。#编辑器特征跨平台(Linux、Mac和Windows)支持多种视频、音频和图像格式(基于FFmpeg)强大的基于曲线的关键帧动画桌面集成(拖放支持)无限轨道/图层剪辑大小调整、缩放、修剪、捕捉、旋转和剪切具有实时预览的视频过渡合成、图像叠加、水印标题模板、标题创建、副标题2D动画支持(图像序列)3D动画标题(和效果)SVG友好,可创建并包含矢量标题和制作人员名单滚动电影制作人员名单高级时间轴(包括拖放、滚动、平移、缩放和捕捉)帧精度(逐步浏览视频的每一帧)剪辑上的时间映射和速度变化(慢/快、前进/后退等...)音频混合和编辑数字视频效果,包括亮度、伽玛、色调、灰度、色度键等等!实验硬件编解码(VA-API、NVDEC、D3D9、D3D11、VTB)导入和导出广泛支持的格式(EDL、XML)以多种编解码器和格式渲染视频(基于FFmpeg)

封面图片

苹果新发布20个Core ML模型和4个数据集 全部开源供开发者们使用

苹果新发布20个CoreML模型和4个数据集全部开源供开发者们使用苹果日前在知名AI模型托管平台HuggingFace上新发布了20个CoreML模型和4个数据集,这些模型全部采用Apache2.0许可证进行开源,所有开发者均可使用。这些采用CoreML框架的新模型在功能上都有所不同,不过侧重点都是在设备端本地运行AI模型执行任务,这样数据不需要上云解决潜在的隐私问题。例如开发者可以构建一款用于图像分类的应用程序,在获得用户授权图库访问权限后,可以调用设备端模型进行处理;或者构建一个可以快速去除图像背景的应用程序,使用设备端模型也可以不上传图片,解决用户的隐私担忧。当然采用设备端模型还有个好处就是响应速度会非常快,借助云端处理开发者需要提供性能更强的服务器才能支撑并发使用,而服务器响应和处理都需要使用,本地处理则不需要使用网络,因此也免去了响应时间问题。目前设备端运行AI模型最大的问题在于芯片性能,例如苹果推出的苹果智能仅支持A17Pro和AppleM系列芯片,对于更旧的芯片还是得第三方开发者们提供支持,虽然这也会存在性能问题。HuggingFace创始人称这是一次重大更新,苹果将许多基于CoreML的新模型上传到了HuggingFace存储库,而CoreML模型严格在设备端运行无需网络连接,这可以让开发者的应用保持“闪电般”的速度,还可以确保用户数据的私密性。有兴趣的开发者们可以访问HuggingFace上的苹果主页获取这些模型,苹果也为部分模型提供了论文描述,开发者可以根据论文说明快速了解这些模型的性能:https://huggingface.co/apple...PC版:https://www.cnbeta.com.tw/articles/soft/1435170.htm手机版:https://m.cnbeta.com.tw/view/1435170.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人