微软开源的一个文本编码器Glyph-ByT5-v2。

微软开源的一个文本编码器Glyph-ByT5-v2。支持使用十多种语言生成图片。还搭配了一个使用这个文本编码器的SDXL模型,可以直接生成中文海报和内容。从演示来看排版都挺好的。1)创建了一个高质量的多语言字形文本和图形设计数据集,包含超过100万个字形文本对和1000万个图形设计图像文本对,覆盖另外九种语言;2)构建了一个多语言视觉段落基准数据集,包括1000个提示,每种语言100个,用于评估多语言视觉拼写准确性;3)采用最新的步进感知偏好学习方法,提高了视觉美学质量。模型下载:https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

相关推荐

封面图片

SoraWebui是一个开源的基于OpenAI Sora模型的文本转视频平台。它提供了一个简单易用的界面,用户只需要输入文本就可

是一个开源的基于OpenAISora模型的文本转视频平台。它提供了一个简单易用的界面,用户只需要输入文本就可以一键生成视频。平台开源免费,支持一键部署。SoraWebui的优点是开源免费、使用简单、部署容易。它可以帮助用户快速便捷地将文本内容转化为视频,节省视频制作时间和成本。需求人群:"SoraWebui可用于教育、营销、娱乐等多种场景下的视频内容生产。例如教师可以用它将课文转成视频;营销人员可以制作产品介绍视频;娱乐媒体可以自动生成视频新闻等。"使用场景示例:教师可以输入课文,生成课文讲解视频用户可以输入旅游见闻,生成游记视频游戏玩家可以输入游戏评测,生成游戏评测视频产品特色:一键文本转视频/自定义视频长度/支持图片上传/支持多语言

封面图片

Stability AI正式发布了DeepFloyd IF图像生成模型,这是一个有文本编码器和三个级联的diffusion模块组

StabilityAI正式发布了DeepFloydIF图像生成模型,这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satblediffusion效率要高很多。我尝试了一下,看起来效果也比SD2.0强一些。划重点,这个模型是认字的生成出来的英文非常工整。文章链接:https://stability.ai/blog/deepfloyd-if-text-to-image-model可以在这里体验模型:https://huggingface.co/spaces/DeepFloyd/IFGithub:https://github.com/deep-floyd/IF模型网站:https://deepfloyd.ai/if

封面图片

OmniFusion:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统

:高级的多模态AI模型,旨在通过集成其他数据模态(如图像、音频、3D和视频内容)来扩展传统语言处理系统的功能。开源OmniFusion核心是Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L和DinoV2)。最初专注于图像,我们选择CLIP-ViT-L作为视觉编码器,因为它具有高效的信息传输能力。OmniFusion最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或MLP结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。该适配器从视觉编码器(不包括CLS令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。

封面图片

Librum 是一个开源免费的电子书图书馆应用程序,包含电子阅读器,可以管理自己的电子书,支持多平台和多语言,还有 AI 功能,

是一个开源免费的电子书图书馆应用程序,包含电子阅读器,可以管理自己的电子书,支持多平台和多语言,还有AI功能,能对选中的文本解释和总结。此外,Librum还允许用户免费访问超过70,000本书籍,并提供个人阅读统计功能,且完全免费、开源。目前,Librum支持英语、德语、俄语和中文。格式包括:PDF/EPUB/CBZ/XPS/PS/所有纯文本格式/图片。平台有平台包括:Windows/GNU/Linux/MacOS/IOS(即将推出)/Android(即将推出)

封面图片

Meta 推出 SeamlessM4T,一种用于语音和文本翻译的多模式 AI 模型。

Meta推出SeamlessM4T,一种用于语音和文本翻译的多模式AI模型。Meta周二发布了,这是一个新的多模式和多语言AI​​翻译模型,可以让说不同语言的人更有效地进行交流。M4T可以进行多达100种语言的语音到文本、文本到语音、语音到语音、文本到文本翻译和语音识别。SeamlessM4T将使用研究许可证公开发布,以便研究人员和开发人员在此基础上开展工作。Meta还将公布SeamlessAlign的元数据,这是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达270,000小时。随着时间的推移,Meta将把这些翻译和转录方面的AI进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。——、

封面图片

Meta前不久开源的一个Web文本编辑器Lexical

Meta前不久开源的一个Web文本编辑器Lexical它的设计思路不再是像Draftjs这样基于浏览器的HTML编辑功能,而是用类似于虚拟Dom的方式,将编辑的文本内容抽象成一个自定义DOM对象,对用户的操作进行侦听,当用户有操作后不直接修改网页内容,而是将操作变成虚拟Dom的操作,最后和浏览器的内容进行同步。但类似的有不少,像VSCode、Medium、Editorjs、Slatejs这些编辑器。它适用的场景在于你对于编辑器定制化要求特别高的情况下,比如说你要实现一个Markdown编辑器,要能动态的嵌入数学公式、excalidraw插图这样的功能,或者简单一点的像一个微博、论坛的编辑器,能at某个人,能插入一个表情图片,用它都可以轻松实现。另外它并没有跟特定的前端框架绑定,理论上来说无论React还是Vue都可以跟它集成。但它的缺点也很明显,文档不全,很多接口你需要查代码才能知道,另外它不是一个开箱即用的产品,它虽然有一个强大的playground,但它的playground是不能直接用在你的项目中的,你需要大量的定制工作,如果没有一点前端基础是很难搞定的。有第三方verbum将它的playground封装了一下,理论上来说可以直接用的。如果你打造一个自己的基于Web的强大的编辑器,可以考虑基于它之上开发,会帮助你节约很多开发量。#编辑器#工具

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人