微软开源的一个文本编码器Glyph-ByT5-v2。

微软开源的一个文本编码器Glyph-ByT5-v2。 支持使用十多种语言生成图片。 还搭配了一个使用这个文本编码器的 SDXL 模型,可以直接生成中文海报和内容。 从演示来看排版都挺好的。 1) 创建了一个高质量的多语言字形文本和图形设计数据集,包含超过100万个字形文本对和1000万个图形设计图像文本对,覆盖另外九种语言; 2) 构建了一个多语言视觉段落基准数据集,包括1000个提示,每种语言100个,用于评估多语言视觉拼写准确性; 3) 采用最新的步进感知偏好学习方法,提高了视觉美学质量。 模型下载:

相关推荐

封面图片

Stability AI正式发布了DeepFloyd IF图像生成模型,这是一个有文本编码器和三个级联的diffusion模块组

Stability AI正式发布了DeepFloyd IF图像生成模型,这是一个有文本编码器和三个级联的diffusion模块组合的模型。 这个模型的效率要比原有的satble diffusion效率要高很多。 我尝试了一下,看起来效果也比SD2.0强一些。 划重点,这个模型是认字的生成出来的英文非常工整。 文章链接: 可以在这里体验模型: Github: 模型网站:

封面图片

一个开源的跨终端音乐播放器:Navidrome。

一个开源的跨终端音乐播放器:Navidrome。 基于 Material UI 设计风格构建,支持所有主流音乐格式,拥有播放、收藏、专辑管理等功能特性。 该播放器兼容 macOS、Linux、Windows 等主流桌面系统与移动端,内置多语言模块,可随时翻译转换为其它语言。 | #工具

封面图片

是一个开源的基于OpenAI Sora模型的文本转视频平台。它提供了一个简单易用的界面,用户只需要输入文本就可以一键生成。平

是一个开源的基于OpenAI Sora模型的文本转视频平台。它提供了一个简单易用的界面,用户只需要输入文本就可以一键生成视频。平台开源免费,支持一键部署。SoraWebui的优点是开源免费、使用简单、部署容易。它可以帮助用户快速便捷地将文本内容转化为视频,节省视频制作时间和成本。 需求人群: "SoraWebui可用于教育、营销、娱乐等多种场景下的视频内容生产。例如教师可以用它将课文转成视频;营销人员可以制作产品介绍视频;娱乐媒体可以自动生成视频新闻等。" 使用场景示例: 教师可以输入课文,生成课文讲解视频 用户可以输入旅游见闻,生成游记视频 游戏玩家可以输入游戏评测,生成游戏评测视频 产品特色:一键文本转视频/自定义视频长度/支持图片上传/支持多语言

封面图片

:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统的功能。

:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统的功能。 开源 OmniFusion 核心是 Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器 CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L 和 Dino V2)。最初专注于图像,我们选择 CLIP-ViT-L 作为视觉编码器,因为它具有高效的信息传输能力。 OmniFusion 最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或 MLP 结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。 该适配器从视觉编码器(不包括 CLS 令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。

封面图片

是一个开源免费的电子书图书馆应用程序,包含电子阅读器,可以管理自己的电子书,支持多平台和多语言,还有 AI 功能,能对选中的文本

是一个开源免费的电子书图书馆应用程序,包含电子阅读器,可以管理自己的电子书,支持多平台和多语言,还有 AI 功能,能对选中的文本解释和总结。 此外,Librum 还允许用户免费访问超过 70,000 本书籍,并提供个人阅读统计功能,且完全免费、开源。 目前,Librum 支持英语、德语、俄语和中文。格式包括:PDF/EPUB/CBZ/XPS/PS/所有纯文本格式/图片。平台有平台包括:Windows/GNU/Linux/MacOS/IOS(即将推出)/Android(即将推出)

封面图片

CodeGeeX:这是一个具有 130 亿参数的大规模多语言代码生成模型,开源版的copilot,CodeGeeX是一个具有13

CodeGeeX:这是一个具有 130 亿参数的大规模多语言代码生成模型,开源版的copilot,CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码 ​​​ ||

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人