微软开源的一个文本编码器Glyph-ByT5-v2。

微软开源的一个文本编码器Glyph-ByT5-v2。支持使用十多种语言生成图片。还搭配了一个使用这个文本编码器的SDXL模型，可以直接生成中文海报和内容。从演示来看排版都挺好的。1)创建了一个高质量的多语言字形文本和图形设计数据集，包含超过100万个字形文本对和1000万个图形设计图像文本对，覆盖另外九种语言；2)构建了一个多语言视觉段落基准数据集，包括1000个提示，每种语言100个，用于评估多语言视觉拼写准确性；3)采用最新的步进感知偏好学习方法，提高了视觉美学质量。模型下载：https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

在Telegram中查看

相关推荐

SoraWebui是一个开源的基于OpenAI Sora模型的文本转视频平台。它提供了一个简单易用的界面,用户只需要输入文本就可

是一个开源的基于OpenAISora模型的文本转视频平台。它提供了一个简单易用的界面,用户只需要输入文本就可以一键生成视频。平台开源免费,支持一键部署。SoraWebui的优点是开源免费、使用简单、部署容易。它可以帮助用户快速便捷地将文本内容转化为视频,节省视频制作时间和成本。需求人群："SoraWebui可用于教育、营销、娱乐等多种场景下的视频内容生产。例如教师可以用它将课文转成视频;营销人员可以制作产品介绍视频;娱乐媒体可以自动生成视频新闻等。"使用场景示例：教师可以输入课文,生成课文讲解视频用户可以输入旅游见闻,生成游记视频游戏玩家可以输入游戏评测,生成游戏评测视频产品特色：一键文本转视频/自定义视频长度/支持图片上传/支持多语言

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组

StabilityAI正式发布了DeepFloydIF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satblediffusion效率要高很多。我尝试了一下，看起来效果也比SD2.0强一些。划重点，这个模型是认字的生成出来的英文非常工整。文章链接：https://stability.ai/blog/deepfloyd-if-text-to-image-model可以在这里体验模型：https://huggingface.co/spaces/DeepFloyd/IFGithub：https://github.com/deep-floyd/IF模型网站：https://deepfloyd.ai/if

OmniFusion：高级的多模态 AI 模型，旨在通过集成其他数据模态（如图像、音频、3D 和视频内容）来扩展传统语言处理系统

：高级的多模态AI模型，旨在通过集成其他数据模态（如图像、音频、3D和视频内容）来扩展传统语言处理系统的功能。开源OmniFusion核心是Mistral-7B。该模型有两个版本：第一个使用一个视觉编码器CLIP-ViT-L，第二个使用两个编码器（CLIP-ViT-L和DinoV2）。最初专注于图像，我们选择CLIP-ViT-L作为视觉编码器，因为它具有高效的信息传输能力。OmniFusion最重要的组件是它的适配器，这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本，适配器是单层四头变压器层，与更简单的线性层或MLP结构相比，它表现出了卓越的性能。具有两个编码器的模型使用一个适配器，该适配器从视觉编码器的所有层收集特征，该适配器没有注意层。该适配器从视觉编码器（不包括CLS令牌）获取嵌入，并将它们映射到与语言模型兼容的文本嵌入。

Librum 是一个开源免费的电子书图书馆应用程序，包含电子阅读器，可以管理自己的电子书，支持多平台和多语言，还有 AI 功能，

是一个开源免费的电子书图书馆应用程序，包含电子阅读器，可以管理自己的电子书，支持多平台和多语言，还有AI功能，能对选中的文本解释和总结。此外，Librum还允许用户免费访问超过70,000本书籍，并提供个人阅读统计功能，且完全免费、开源。目前，Librum支持英语、德语、俄语和中文。格式包括：PDF/EPUB/CBZ/XPS/PS/所有纯文本格式/图片。平台有平台包括：Windows/GNU/Linux/MacOS/IOS（即将推出）/Android（即将推出）

Meta 推出 SeamlessM4T，一种用于语音和文本翻译的多模式 AI 模型。

Meta推出SeamlessM4T，一种用于语音和文本翻译的多模式AI模型。Meta周二发布了，这是一个新的多模式和多语言AI翻译模型，可以让说不同语言的人更有效地进行交流。M4T可以进行多达100种语言的语音到文本、文本到语音、语音到语音、文本到文本翻译和语音识别。SeamlessM4T将使用研究许可证公开发布，以便研究人员和开发人员在此基础上开展工作。Meta还将公布SeamlessAlign的元数据，这是迄今为止最大的开放多模式翻译数据集，挖掘的语音和文本对齐总计达270,000小时。随着时间的推移，Meta将把这些翻译和转录方面的AI进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。——、

Meta前不久开源的一个Web文本编辑器Lexical

Meta前不久开源的一个Web文本编辑器Lexical它的设计思路不再是像Draftjs这样基于浏览器的HTML编辑功能，而是用类似于虚拟Dom的方式，将编辑的文本内容抽象成一个自定义DOM对象，对用户的操作进行侦听，当用户有操作后不直接修改网页内容，而是将操作变成虚拟Dom的操作，最后和浏览器的内容进行同步。但类似的有不少，像VSCode、Medium、Editorjs、Slatejs这些编辑器。它适用的场景在于你对于编辑器定制化要求特别高的情况下，比如说你要实现一个Markdown编辑器，要能动态的嵌入数学公式、excalidraw插图这样的功能，或者简单一点的像一个微博、论坛的编辑器，能at某个人，能插入一个表情图片，用它都可以轻松实现。另外它并没有跟特定的前端框架绑定，理论上来说无论React还是Vue都可以跟它集成。但它的缺点也很明显，文档不全，很多接口你需要查代码才能知道，另外它不是一个开箱即用的产品，它虽然有一个强大的playground，但它的playground是不能直接用在你的项目中的，你需要大量的定制工作，如果没有一点前端基础是很难搞定的。有第三方verbum将它的playground封装了一下，理论上来说可以直接用的。如果你打造一个自己的基于Web的强大的编辑器，可以考虑基于它之上开发，会帮助你节约很多开发量。#编辑器#工具

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人