【新技术速览】

【新技术速览】(前言)前几天,META发布了一个新的模型,叫SAM。这个模型非常强大,可以0-shot把图片进行非常细致的分割(图1)并且根据他们的描述,还会支持textprompt但是当前没有放出。链接:https://github.com/facebookresearch/segment-anything现在有人把他和GroundingDINO(一个根据文本分割图像的模型)结合在一起,利用此达到textprompt根据文本自动精准找到物体的效果。并且与stablediffusion联动,可以轻松的生成图片蒙版进行局部重绘(图2),相当于代替了手动涂蒙版的工作链接:https://github.com/IDEA-Research/Grounded-Segment-Anything频道:@TestFlightCN

相关推荐

封面图片

忘记谁说在找图片翻译软件了 这个看起来还可以https://github.com/zyddnys/manga-image-tra

忘记谁说在找图片翻译软件了这个看起来还可以https://github.com/zyddnys/manga-image-translatorManga-image-Translator:一键翻译各类图片内文字一个开源工具,专门用于翻译漫画或图片中的文字。利用高效的OCR和AI翻译技术,它能够自动识别和翻译任何图片中的文字,并支持多种语言。不仅翻译文字,还可以对去除文字后的区域进行修复和上色,以及重新渲染翻译后的文本。主要功能:1、自动翻译图片中的文本:使用先进的OCR技术自动识别图片或漫画中的文字,并将其翻译成用户指定的语言。2、支持多种语言:虽然最初设计是为了翻译日语文本,项目也支持中文、英文、韩文等多种语言的翻译,满足不同用户的需求。3、文本修复与上色:在移除原始文本后,能够对相应区域进行修复和上色,保持图片的整体美观。4、文本渲染:翻译完成的文本不仅仅是以简单文本形式呈现,还会根据原图的风格进行渲染,使翻译后的文本自然融入图片中。5、支持命令行界面(CLI)和Web界面:用户可以通过命令行界面批量处理图片翻译任务,或者通过Web界面进行单个图片的翻译和预览。6、一键去除漫画中的所有文字,支持多种翻译服务或模型项目地址:https://github.com/zyddnys/manga-image-translator官方演示:https://touhou.ai/imgtrans/

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的AI模型Qwen-VL阿里巴巴周五开源了能理解图像和完成更复杂对话的AI模型和Qwen-VL-Chat。阿里巴巴称,Qwen-VL基于Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约1.5B的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL和Qwen-VL-Chat使用名为TongyiQianwenLICENSEAGREEMENT的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源,https://github.com/QwenLM/Qwen-VL频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

Bark,一个模拟声音的开源AI项目

Bark,一个模拟声音的开源AI项目可以生成所有类型的音频,并且基本上看不出与真实语音、音乐间的区别。这些音频包括音乐、背景噪音和一些简单的音效。是的,你没听错,你甚至可以拿它来生成音乐。该模型还可以产生非语言交流,如笑、叹息和哭泣。Bark支持各种语言,开箱即用,并根据输入文本自动确定语言。当提示使用代码切换文本时,Bark将尝试使用相应语言的本地口音。英语质量目前是最好的,估计其他语言会随着扩展而进一步提高。#AIhttps://github.com/suno-ai/bark来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

ChatTTS是最近很火的超逼真TTS(文本转语音)模型,重点是开源了O!

ChatTTS是最近很火的超逼真TTS(文本转语音)模型,重点是开源了O!试了下,是真的没有机器味儿啊...太强了现在HuggingFaceSpace上有不少的demo可以体验效果,大家也可以试试:https://huggingface.co/spaces/Dzkaka/ChatTTS•模型下载:https://huggingface.co/2Noise/ChatTTS•GitHub:https://github.com/2noise/ChatTTS

封面图片

Meta发布开源AI工具AudioCraft,可帮助用户创作音乐和音频

Meta发布开源AI工具AudioCraft,可帮助用户创作音乐和音频美东时间周三,Meta发布了一款开源人工智能(AI)工具,该工具可以帮助用户根据文本提示创作音乐和音频。Meta表示,这款人工智能工具将AudioGen、EnCodec和MusicGen三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。来源,https://github.com/facebookresearch/audiocraft来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

继续一些神经网络的小工具

继续一些神经网络的小工具:1.AnythingAI(https://www.anything-ai.com)-可以取代照片中的任何物体。免费,不需要注册。2.StyleDrop(https://styledrop.github.io)-可按要求创建图片,同时复制原始图片的风格。3.SmartStudy(https://smartstudy.streamlit.app)-将根据您的主题创建10个问题的小测验。只要给它提供文本文档。4.BratGPT(https://bratgpt.com)--ChatGPT的激进版本。5.Pixelart(https://www.pixellab.ai)-用普通的草图创建2D图像。目前还处于测试阶段。此外,ChatGPT插件的完整列表:https://openworldai.com/blog/chatgpt-plugin-list#AI#tools

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人