【新技术速览】

【新技术速览】（前言）前几天，META发布了一个新的模型，叫SAM。这个模型非常强大，可以0-shot把图片进行非常细致的分割（图1）并且根据他们的描述，还会支持textprompt但是当前没有放出。链接：https://github.com/facebookresearch/segment-anything现在有人把他和GroundingDINO（一个根据文本分割图像的模型）结合在一起，利用此达到textprompt根据文本自动精准找到物体的效果。并且与stablediffusion联动，可以轻松的生成图片蒙版进行局部重绘（图2），相当于代替了手动涂蒙版的工作链接：https://github.com/IDEA-Research/Grounded-Segment-Anything频道：@TestFlightCN

在Telegram中查看

相关推荐

忘记谁说在找图片翻译软件了这个看起来还可以https://github.com/zyddnys/manga-image-tra

忘记谁说在找图片翻译软件了这个看起来还可以https://github.com/zyddnys/manga-image-translatorManga-image-Translator:一键翻译各类图片内文字一个开源工具，专门用于翻译漫画或图片中的文字。利用高效的OCR和AI翻译技术，它能够自动识别和翻译任何图片中的文字，并支持多种语言。不仅翻译文字，还可以对去除文字后的区域进行修复和上色，以及重新渲染翻译后的文本。主要功能：1、自动翻译图片中的文本：使用先进的OCR技术自动识别图片或漫画中的文字，并将其翻译成用户指定的语言。2、支持多种语言：虽然最初设计是为了翻译日语文本，项目也支持中文、英文、韩文等多种语言的翻译，满足不同用户的需求。3、文本修复与上色：在移除原始文本后，能够对相应区域进行修复和上色，保持图片的整体美观。4、文本渲染：翻译完成的文本不仅仅是以简单文本形式呈现，还会根据原图的风格进行渲染，使翻译后的文本自然融入图片中。5、支持命令行界面（CLI）和Web界面：用户可以通过命令行界面批量处理图片翻译任务，或者通过Web界面进行单个图片的翻译和预览。6、一键去除漫画中的所有文字，支持多种翻译服务或模型项目地址：https://github.com/zyddnys/manga-image-translator官方演示：https://touhou.ai/imgtrans/

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的AI模型Qwen-VL阿里巴巴周五开源了能理解图像和完成更复杂对话的AI模型和Qwen-VL-Chat。阿里巴巴称，Qwen-VL基于Qwen-7B，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出，它使用了约1.5B的图文数据训练。在四大类多模态任务的标准英文测评中上，Qwen-VL均取得同等通用模型大小下最好效果；支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；支持多图输入和比较，指定图片问答，多图文学创作等；相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL和Qwen-VL-Chat使用名为TongyiQianwenLICENSEAGREEMENT的许可证，有限制条件，如果商业使用，则需要从阿里巴巴获得授权。来源，https://github.com/QwenLM/Qwen-VL频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

Bark，一个模拟声音的开源AI项目

Bark，一个模拟声音的开源AI项目可以生成所有类型的音频，并且基本上看不出与真实语音、音乐间的区别。这些音频包括音乐、背景噪音和一些简单的音效。是的，你没听错，你甚至可以拿它来生成音乐。该模型还可以产生非语言交流，如笑、叹息和哭泣。Bark支持各种语言，开箱即用，并根据输入文本自动确定语言。当提示使用代码切换文本时，Bark将尝试使用相应语言的本地口音。英语质量目前是最好的，估计其他语言会随着扩展而进一步提高。#AIhttps://github.com/suno-ai/bark来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

ChatTTS是最近很火的超逼真TTS（文本转语音）模型，重点是开源了O！

ChatTTS是最近很火的超逼真TTS（文本转语音）模型，重点是开源了O！试了下，是真的没有机器味儿啊...太强了现在HuggingFaceSpace上有不少的demo可以体验效果，大家也可以试试：https://huggingface.co/spaces/Dzkaka/ChatTTS•模型下载：https://huggingface.co/2Noise/ChatTTS•GitHub：https://github.com/2noise/ChatTTS

Meta发布开源AI工具AudioCraft，可帮助用户创作音乐和音频

Meta发布开源AI工具AudioCraft，可帮助用户创作音乐和音频美东时间周三，Meta发布了一款开源人工智能（AI）工具，该工具可以帮助用户根据文本提示创作音乐和音频。Meta表示，这款人工智能工具将AudioGen、EnCodec和MusicGen三种模型或技术融为一炉，可用文本内容生成高质量、逼真的音频和音乐。来源，https://github.com/facebookresearch/audiocraft来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

继续一些神经网络的小工具

继续一些神经网络的小工具：1.AnythingAI（https://www.anything-ai.com）-可以取代照片中的任何物体。免费，不需要注册。2.StyleDrop（https://styledrop.github.io）-可按要求创建图片，同时复制原始图片的风格。3.SmartStudy（https://smartstudy.streamlit.app）-将根据您的主题创建10个问题的小测验。只要给它提供文本文档。4.BratGPT（https://bratgpt.com）--ChatGPT的激进版本。5.Pixelart（https://www.pixellab.ai）-用普通的草图创建2D图像。目前还处于测试阶段。此外，ChatGPT插件的完整列表：https://openworldai.com/blog/chatgpt-plugin-list#AI#tools

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人