微软开源的一个文本编码器Glyph-ByT5-v2。

微软开源的一个文本编码器Glyph-ByT5-v2。支持使用十多种语言生成图片。还搭配了一个使用这个文本编码器的 SDXL 模型，可以直接生成中文海报和内容。从演示来看排版都挺好的。 1) 创建了一个高质量的多语言字形文本和图形设计数据集，包含超过100万个字形文本对和1000万个图形设计图像文本对，覆盖另外九种语言； 2) 构建了一个多语言视觉段落基准数据集，包括1000个提示，每种语言100个，用于评估多语言视觉拼写准确性； 3) 采用最新的步进感知偏好学习方法，提高了视觉美学质量。模型下载：

在Telegram中查看

相关推荐

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satble diffusion效率要高很多。我尝试了一下，看起来效果也比SD2.0强一些。划重点，这个模型是认字的生成出来的英文非常工整。文章链接：可以在这里体验模型： Github：模型网站：

一个开源的跨终端音乐播放器：Navidrome。

一个开源的跨终端音乐播放器：Navidrome。基于 Material UI 设计风格构建，支持所有主流音乐格式，拥有播放、收藏、专辑管理等功能特性。该播放器兼容 macOS、Linux、Windows 等主流桌面系统与移动端，内置多语言模块，可随时翻译转换为其它语言。 | #工具

《VovSoft Text Edit Plus 文本编辑器 v15.1 多语便携版》

《VovSoft Text Edit Plus 文本编辑器 v15.1 多语便携版》亮点：轻量便携，支持多语言，功能全面，满足日常文本编辑需求，操作简单高效。标签：#文本编辑器 #VovSoftTextEditPlus #Windows便携版更新日期：2025-05-05 04:10:58 链接： https://pan.quark.cn/s/fb57fb6ebd06

《Notepad- - 文本编辑器 v3.4 官方版》

《Notepad- - 文本编辑器 v3.4 官方版》轻量高效，支持多语言高亮，快速启动，满足日常文本编辑需求 #文本编辑器 #Notepad #Windows平台 2025-06-28 19:43:01 https://pan.quark.cn/s/ec97c50a5c46

是一个开源的基于OpenAI Sora模型的文本转视频平台。它提供了一个简单易用的界面,用户只需要输入文本就可以一键生成。平

是一个开源的基于OpenAI Sora模型的文本转视频平台。它提供了一个简单易用的界面,用户只需要输入文本就可以一键生成视频。平台开源免费,支持一键部署。SoraWebui的优点是开源免费、使用简单、部署容易。它可以帮助用户快速便捷地将文本内容转化为视频,节省视频制作时间和成本。需求人群： "SoraWebui可用于教育、营销、娱乐等多种场景下的视频内容生产。例如教师可以用它将课文转成视频;营销人员可以制作产品介绍视频;娱乐媒体可以自动生成视频新闻等。" 使用场景示例：教师可以输入课文,生成课文讲解视频用户可以输入旅游见闻,生成游记视频游戏玩家可以输入游戏评测,生成游戏评测视频产品特色：一键文本转视频/自定义视频长度/支持图片上传/支持多语言

：高级的多模态 AI 模型，旨在通过集成其他数据模态（如图像、音频、3D 和视频内容）来扩展传统语言处理系统的功能。

：高级的多模态 AI 模型，旨在通过集成其他数据模态（如图像、音频、3D 和视频内容）来扩展传统语言处理系统的功能。开源 OmniFusion 核心是 Mistral-7B。该模型有两个版本：第一个使用一个视觉编码器 CLIP-ViT-L，第二个使用两个编码器（CLIP-ViT-L 和 Dino V2）。最初专注于图像，我们选择 CLIP-ViT-L 作为视觉编码器，因为它具有高效的信息传输能力。 OmniFusion 最重要的组件是它的适配器，这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本，适配器是单层四头变压器层，与更简单的线性层或 MLP 结构相比，它表现出了卓越的性能。具有两个编码器的模型使用一个适配器，该适配器从视觉编码器的所有层收集特征，该适配器没有注意层。该适配器从视觉编码器（不包括 CLS 令牌）获取嵌入，并将它们映射到与语言模型兼容的文本嵌入。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人