Hugging Face 重磅推出 Transformers Agents!

Hugging Face 重磅推出 Transformers Agents! 让所有人都可以轻松使用 OpenAssistant、StarCoder、OpenAI 等大语言模型,快速创建一个 AI 智能代理。 该代理可接受复杂的查询信息,通过对话的方式,实现文字生成图像、网站摘要朗读、PDF 总结等等功能。 具体实现可围绕一系列提示词进行构建,流程如下: - 明确告知代理的主要任务; - 给代理一个工具; - 向代理展示示例; - 分配任务,让代理通过思维连推理与理解任务,并输出 Python 代码。 目前,该代理已内置多款实用工具,其中包括: - 文档问答功能; - 语音转文本、文本转语音; - 文本功能(分类、摘要、翻译、下载、问答); - 图像功能(生成、转换、字幕、分割、放大、问答); - 基于文本直接生成视频,扩展性强。 |

相关推荐

封面图片

Transformers.js,在浏览器中运行Transformers | 本项目目前支持BERT、ALBERT、DistilB

Transformers.js,在浏览器中运行Transformers | 本项目目前支持BERT、ALBERT、DistilBERT、T5、T5v1.1、FLAN-T5、GPT2、BART、CodeGen、Whisper、CLIP、Vision Transformer和VisionEncoderDecoder模型,用于各种任务,包括:屏蔽语言建模、文本分类、文本到文本生成、翻译、摘要、问答、文本生成、自动语音识别、图像分类、零样本图像分类和图像到文本。

封面图片

ImageBind+Stable Diffusion相结合,能从任意内容生成图像的工具。

ImageBind+Stable Diffusion相结合,能从任意内容生成图像的工具。 利用统一潜空间和Stable Diffusion技术实现图像生成,无需进行训练。 可与Diffusers集成,并提供在线演示和Huggingface Gradio的演示。 支持的任务包括从音频、音频+文本、音频+图像、图像和文本生成图像 | #工具

封面图片

Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。

Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。 这玩意再加上 Sora 这样的视频生成模型,一些简单的短视频以及广告视频基本上就不需要人工介入了,大家以后刷的估计都是生成出来的视频了,想要啥有啥。 我下面会简单介绍一下这个剪辑工具的界面组成和 Agents 设计: -工具界面及交互(图 1)- A 区域主要是输入提示词以及展示 LLM 详细的剪辑逻辑。 B 区域是素材库,你可以鼠标 Hover 后获得 LLM 帮你总结的这段视频的内容,不需要播放查看, AI 也会自动生成的素材标题。 E 区域就是传统的视频时间轴,AI 剪辑的视频就在这里,你也可以手动调整。 -Agents 设计(图 2)- 1⃣系统提示前言: 角色分配:一个开场段指示Agents担任视频编辑助理,负责根据用户命令生成行动计划。 动作描述:在角色分配之后,描述了Agents可以执行的一系列动作。每个动作对应于LAVE支持的编辑功能。详细说明了每个动作的功能和用例,帮助Agents选择适当的响应以满足用户的命令。 格式指导:最后,指导Agents以一致的格式输出行动计划:首先确定用户的编辑目标,然后列出逐步计划,列举建议的行动以实现该目标。 其他系统提示: 在前言之后,附加了最近的对话历史,以及最新的用户输入。这种组合形成了发送给LLM以生成行动计划的完整提示。 2⃣制定行动计划后,将其提交给用户进行批准: 与批量批准不同,每个行动都由用户依次批准。这种方法允许用户执行一个行动,观察其结果,然后决定是否继续进行下一个行动。LAVE从行动计划中解析每个行动描述,并将其转化为相应的后端函数调用。 3⃣LAVE支持五种LLM功能: 1)素材概览,2)创意头脑风暴,3)视频检索,4)故事板,5)剪辑修剪。前四种功能可通过Agents访问,而剪辑修剪可通过双击编辑时间轴上的剪辑时出现的窗口进行。 其中,基于语言的视频检索是通过向量存储数据库实现的,而其余功能则是通过LLM提示工程实现的。所有功能都是基于自动生成的语言构建的。

封面图片

利用 AI 进行实时语音绘图 || #工具

利用 AI 进行实时语音绘图 || #工具 该工具将传统的提示词输入换成了语音输入,帮你实时生成图像,做到语音控制绘图。 使用到的技术框架,如下: - WhisperCPP(实时语音转文本) - SDXL Turbo on Coreweave(图像生成模型) - LCM (different versions) on Replicate(加速图像生成) 目前代码已经开源,感兴趣的可以部署使用。

封面图片

OpenAI可能会推出Jarvis一样的个人助理 新商标Voice Engine信息汇总

OpenAI可能会推出Jarvis一样的个人助理 新商标Voice Engine信息汇总 尽管这是商标申请,但是Google前雇员透露的信息以及上个月泄露的OpenAI正在开发的Agent产品都似乎印证着OpenAI要做的事情:开发一个全球最强的个人助理,接管个人设备,以Jarvis那样的形式提供服务!Voice Engine商标内容Voice Engine是OpenAI最近提交一个商标名称,其内容主要包含了语音识别和语音合成相关的内容。这个商标背后可能提供的产品和服务涵盖了广泛的计算机软件和开发工具领域,特别是在语音和自然语言处理技术方面。具体来说,可能提供的产品和服务包括但不限于:自动语音识别和生成软件:用于自动识别和生成语音的软件,可能在虚拟助手、智能家居设备等场景中有广泛应用。基于自然语言提示生成语音和音频输出的软件:这类软件能够根据文本、语音、视觉提示、图像或视频生成语音和音频输出,可用于各种应用,如内容创作、教育、娱乐等。注意,这不是文本转语音,而是根据文本提示生成语音结果!数字语音助手开发工具:提供用于构建数字语音助手的软件和开发工具,有助于开发者创建智能交互应用。虽然是工具,但是显然这是可以用于开发个人助理的工具!响应用户提示生成音频或语音的软件:这类软件能够根据用户的提示生成相应的音频或语音输出,可能用于互动媒体、游戏或其他应用中。这个目前在ChatGPT客户端也有了,就是用语音响应用户输入。机器学习基础的自然语言和语音处理软件:涉及使用机器学习技术进行自然语言和语音的处理、识别和分析的软件。多语言语音识别、翻译和转录软件:支持多语言的语音识别、翻译和转录功能的软件,适用于国际化应用、内容创作等场景。应用程序接口(API)软件和软件开发套件(SDKs):提供可作为API使用的软件,可能支持开发者在各种应用和服务中集成语音和自然语言处理功能。综上所述,VOICE ENGINE™旨在为开发者和创新者提供一系列强大的工具和软件,以便在各种平台和设备上开发和集成先进的语音交互和自然语言处理功能。而这其中最令人关注的应该是下面的2个内容:一个是可以配合Sora视频生成的功能,为视频配音;另一个则是作为个人助理,支持语音交互!为Sora视频配音的语音生成功能传统的语音领域的模型主要方向包括2类:一个是语音合成,即Text to speech(TTS):将文本转成语音。另一个是自动语音识别(Auto Speech Recognition,ASR),即识别语音转成文本。但是,根据这个描述响应用户提示生成音频或语音的软件,这个能力应该是类似视频生成和图片生成那种,基于文本prompt,来生成相应的语音结果。例如,你可以给系统说,生成一段音乐或者一只老虎在野外和狮子战斗的声音。然后模型返回相应的语音结果。这不是一种文本转语音而是语音生成的能力。在最近爆火的OpenAI的Sora演示中(OpenAI最强的视频生成大模型: OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定),所有的视频都没有声音。OpenAI官方说目前他们还没有实现为生成的视频配音的功能。但是未来会支持。这意味着基于文本生成音频应该也是类似的技术了。与Agent传言互相印证:OpenAI的Jarvis产品在前面的商标描述中提到,OpenAI的Voice Engine可以提供响应用户提示生成音频或语音的软件。这几乎就是一个个人数字助理的形态,它不同于语音合成或者语音识别。而是根据用户的输入进行语音的响应。这意味着用户可以通过文本、语音来输入,然后服务直接用语音回复结果。从技术角度来说,传统的语音助理应该是先通过ASR识别用户的语音,然后转成文本,GPT再根据文本生成答案,再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性!三个步骤,每个步骤准确率90%,最终的回复准确率可能只有72.9%了!如果这是一个端到端的模型(符合OpenAI当前的技术趋势),那么时延和准确性都值得期待!此外,结合此前的传言说GPT可能要接入个人本地电脑系统,那作为一个个人助手完全是没问题的。同时,Google前雇员Jonathan Chavez在前段时间也发布过一个消息,他说OpenAI在今年会推出一个全球最好的个人助理产品,就像钢铁侠中的Jarvis。Jarvis除了需要有GPT-4那种强大的语言响应能力外,还有个重要的特点是语音的输入和输出。虽然在当前的ChatGPT客户端和网页版中已经实现了语音交互以及文本转语音的能力。但是,它本身是为了支撑ChatGPT的功能存在的,范围局限在ChatGPT的对话过程中。一旦如果像Jonathan Chavez所说是一个前所未有最强大的个人助理,那么意味着它可以帮助我们操作我们的电脑和手机,使用APP等。这个消息和上个月泄露的OpenAI正在做一个强大的AI Agent也有很大的相关性:OpenAI正在开发一个全新的基于大模型的Agent产品。在这个传言中,OpenAI做的事情描述如下:OpenAI正在开发的这个Agent形式的产品,通过有效地接管用户的设备来让复杂任务被自动执行。然后,用户可以请求ChatGPT将数据从文档转移到电子表格中进行分析,或自动填写费用报告并将其输入会计软件。这类请求将触发ChatGPT来执行点击、光标移动、文本输入以及人们在使用不同应用程序时进行的其他操作。 ... PC版: 手机版:

封面图片

Google Cloud宣布,其最新的图像生成技术Imagen 2 on Vertex AI已经正式上线,为Vertex AI客

Google Cloud宣布,其最新的图像生成技术Imagen 2 on Vertex AI已经正式上线,为Vertex AI客户提供服务。这一技术是Google Cloud图像生成能力的重大升级,采用了先进的文本到图像技术,为开发者提供了全面的定制化工具、完全托管的基础设施以及内置的隐私和安全功能。 Imagen 2 on Vertex AI基于Google DeepMind技术的研发成果,实现了显著提升的图像质量,并提供了一系列功能,使开发者能够根据其特定用例创建图像,包括: -从自然语言提示生成高质量、逼真、高分辨率、美观的图像 -支持多语言的文本渲染,以创建带有准确文本叠加的图像 -生成公司或产品标识并将其叠加在图像中的Logo -实现视觉问答,从图像生成描述性标题,并对图像细节的问题提供信息性文本回答 此外,Imagen 2 on Vertex AI的适用性扩展得更广,包括以下新功能: -高质量图像:Imagen 2通过改进的图像+文本理解和多种创新训练和建模技术,可以实现准确、高质量、逼真的输出 -文本渲染支持:Imagen 2能够解决文本到图像技术常常存在的问题,确保输出图像中正确呈现所需的词语或短语,帮助组织在品牌和信息传递方面实现更深层次控制 -Logo生成:Imagen 2可以为企业、品牌和产品生成各种创意和逼真的Logo,包括徽标、字母标志和抽象标志,并具备将这些Logo叠加到产品、服装、名片和其他表面的能力 -图片描述和问答:Imagen 2的增强图像理解能力使客户能够创建描述性的长篇文字说明,并获得关于图像细节问题的详细答案 -多语言提示:除了英语,Imagen 2还支持六种其他语言(中文、印地语、日语、韩语、葡萄牙语、西班牙语)的预览版本,并计划在2024年初发布更多语言的支持。此功能包括在提示和输出之间进行翻译的能力,例如,用西班牙语提示但指定输出应为葡萄牙语 -安全性:Imagen 2包含内置的安全预防措施,确保生成的图像符合Google的负责任人工智能原则。如,Imagen 2与我们的实验性数字水印服务集成,由Google DeepMind的SynthID提供支持,允许授权访问的客户生成隐形水印并验证Imagen生成的图像。Imagen 2还包含全面的安全过滤器,帮助防止生成潜在有害内容 标签: #Google #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人