OpenAI可能会推出Jarvis一样的个人助理新商标Voice Engine信息汇总

OpenAI可能会推出Jarvis一样的个人助理新商标Voice Engine信息汇总尽管这是商标申请，但是Google前雇员透露的信息以及上个月泄露的OpenAI正在开发的Agent产品都似乎印证着OpenAI要做的事情：开发一个全球最强的个人助理，接管个人设备，以Jarvis那样的形式提供服务！Voice Engine商标内容Voice Engine是OpenAI最近提交一个商标名称，其内容主要包含了语音识别和语音合成相关的内容。这个商标背后可能提供的产品和服务涵盖了广泛的计算机软件和开发工具领域，特别是在语音和自然语言处理技术方面。具体来说，可能提供的产品和服务包括但不限于：自动语音识别和生成软件：用于自动识别和生成语音的软件，可能在虚拟助手、智能家居设备等场景中有广泛应用。基于自然语言提示生成语音和音频输出的软件：这类软件能够根据文本、语音、视觉提示、图像或视频生成语音和音频输出，可用于各种应用，如内容创作、教育、娱乐等。注意，这不是文本转语音，而是根据文本提示生成语音结果！数字语音助手开发工具：提供用于构建数字语音助手的软件和开发工具，有助于开发者创建智能交互应用。虽然是工具，但是显然这是可以用于开发个人助理的工具！响应用户提示生成音频或语音的软件：这类软件能够根据用户的提示生成相应的音频或语音输出，可能用于互动媒体、游戏或其他应用中。这个目前在ChatGPT客户端也有了，就是用语音响应用户输入。机器学习基础的自然语言和语音处理软件：涉及使用机器学习技术进行自然语言和语音的处理、识别和分析的软件。多语言语音识别、翻译和转录软件：支持多语言的语音识别、翻译和转录功能的软件，适用于国际化应用、内容创作等场景。应用程序接口（API）软件和软件开发套件（SDKs）：提供可作为API使用的软件，可能支持开发者在各种应用和服务中集成语音和自然语言处理功能。综上所述，VOICE ENGINE™旨在为开发者和创新者提供一系列强大的工具和软件，以便在各种平台和设备上开发和集成先进的语音交互和自然语言处理功能。而这其中最令人关注的应该是下面的2个内容：一个是可以配合Sora视频生成的功能，为视频配音；另一个则是作为个人助理，支持语音交互！为Sora视频配音的语音生成功能传统的语音领域的模型主要方向包括2类：一个是语音合成，即Text to speech（TTS）：将文本转成语音。另一个是自动语音识别（Auto Speech Recognition，ASR），即识别语音转成文本。但是，根据这个描述响应用户提示生成音频或语音的软件，这个能力应该是类似视频生成和图片生成那种，基于文本prompt，来生成相应的语音结果。例如，你可以给系统说，生成一段音乐或者一只老虎在野外和狮子战斗的声音。然后模型返回相应的语音结果。这不是一种文本转语音而是语音生成的能力。在最近爆火的OpenAI的Sora演示中（OpenAI最强的视频生成大模型： OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定），所有的视频都没有声音。OpenAI官方说目前他们还没有实现为生成的视频配音的功能。但是未来会支持。这意味着基于文本生成音频应该也是类似的技术了。与Agent传言互相印证：OpenAI的Jarvis产品在前面的商标描述中提到，OpenAI的Voice Engine可以提供响应用户提示生成音频或语音的软件。这几乎就是一个个人数字助理的形态，它不同于语音合成或者语音识别。而是根据用户的输入进行语音的响应。这意味着用户可以通过文本、语音来输入，然后服务直接用语音回复结果。从技术角度来说，传统的语音助理应该是先通过ASR识别用户的语音，然后转成文本，GPT再根据文本生成答案，再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性！三个步骤，每个步骤准确率90%，最终的回复准确率可能只有72.9%了！如果这是一个端到端的模型（符合OpenAI当前的技术趋势），那么时延和准确性都值得期待！此外，结合此前的传言说GPT可能要接入个人本地电脑系统，那作为一个个人助手完全是没问题的。同时，Google前雇员Jonathan Chavez在前段时间也发布过一个消息，他说OpenAI在今年会推出一个全球最好的个人助理产品，就像钢铁侠中的Jarvis。Jarvis除了需要有GPT-4那种强大的语言响应能力外，还有个重要的特点是语音的输入和输出。虽然在当前的ChatGPT客户端和网页版中已经实现了语音交互以及文本转语音的能力。但是，它本身是为了支撑ChatGPT的功能存在的，范围局限在ChatGPT的对话过程中。一旦如果像Jonathan Chavez所说是一个前所未有最强大的个人助理，那么意味着它可以帮助我们操作我们的电脑和手机，使用APP等。这个消息和上个月泄露的OpenAI正在做一个强大的AI Agent也有很大的相关性：OpenAI正在开发一个全新的基于大模型的Agent产品。在这个传言中，OpenAI做的事情描述如下：OpenAI正在开发的这个Agent形式的产品，通过有效地接管用户的设备来让复杂任务被自动执行。然后，用户可以请求ChatGPT将数据从文档转移到电子表格中进行分析，或自动填写费用报告并将其输入会计软件。这类请求将触发ChatGPT来执行点击、光标移动、文本输入以及人们在使用不同应用程序时进行的其他操作。 ... PC版：手机版：

在Telegram中查看

相关推荐

OpenAI公布其语音生成模型：Voice Engine

OpenAI公布其语音生成模型：Voice Engine 根据文本输入和一个15秒的音频样本，就能生成接近原始说话者声音的自然听起来的语音。主要功能 1、自然听起来的语音生成：利用单个15秒的音频样本，Voice Engine能够创造出既情感丰富又真实的语音，显著提升合成语音的自然度和真实感。 2、支持多种用途：从教育援助、内容翻译、提高偏远地区服务质量，到支持非语言人士和帮助患者恢复声音，Voice Engine的应用场景广泛，跨越多个行业。 3、语言和口音的保留：在内容翻译时，Voice Engine能够保留原始发言者的本地口音，使得翻译后的语音不仅流利还能保持原声音的特色。 4、多语种支持：能够生成多种语言的语音输出，适应全球化需求，特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说，这一特点尤为重要。

OpenAI下周一可能会预览正在开发的AI语音助理

OpenAI下周一可能会预览正在开发的AI语音助理 OpenAI正在开发AI语音助理，可能会在下周一“春季升级”活动上预览。（The Information）标签: #OpenAI #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

OpenAI展示语音克隆人工智能模型只需15秒样本即可工作

OpenAI展示语音克隆人工智能模型只需15秒样本即可工作可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。在 OpenAI 发布的这些样本中，你可以听到Age of Learning利用该技术生成预制画外音内容，以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。首先是英文参考音频：下面是人工智能根据该样本生成的三个音频片段：OpenAI 表示，它于 2022 年底开始开发语音引擎，该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯（Jeff Harris）在接受TechCrunch 采访时表示，该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物，该模型将只向大约 10 名开发者开放。人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音，但专注于语音生成的人较少，部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs，它们提供人工智能语音克隆技术和工具。与此同时，美国政府也在努力遏制不道德地使用人工智能语音技术。上个月，美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话，因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。据 OpenAI 称，其合作伙伴同意遵守其使用政策，即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意"，不建立个人用户创建自己声音的方法，并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印，以追踪其来源，并积极监控音频的使用情况。OpenAI 提出了几项措施，认为这些措施可以限制类似工具的风险，包括逐步淘汰访问银行账户的语音认证，制定政策保护人工智能中对人声的使用，加强人工智能深度伪造方面的教育，以及开发人工智能内容跟踪系统。了解更多： ... PC版：手机版：

OpenAI 低价倾销 ChatGPT API

OpenAI 低价倾销 ChatGPT API OpenAI 向开发者释放了它的 ChatGPT 和 Whisper 模型，他们现在可以通过 API 调用将这个聊天机器人互动和语音到文本转换整合到自己的应用程序中。新的 ChatGPT API 将使用与 ChatGPT 相同的人工智能模型，其 API 的价格为每 1000 个字元（约 750 个单词）0.2 美分。OpenAI 称这比以前的 GPT 模型便宜 10 倍。Whisper 是去年 9 月发布的一个自动语音识别系统，它能够将英语口语转化为文本。Whisper 的价格为 0.6 美分/分钟。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

【OpenAI官方推出AI生成内容识别器，但成功率只有26%】1 月 31 日，OpenAI 官宣了区分人类作品和 AI 生成文

【OpenAI官方推出AI生成内容识别器，但成功率只有26%】1 月 31 日，OpenAI 官宣了区分人类作品和 AI 生成文本的识别工具上线，该技术旨在识别自家的 ChatGPT、GPT-3 等模型生成的内容。然而分类器目前看起来准确性堪忧：OpenAI认为，当它与其他方法结合使用时，可以有助于防止 AI 文本生成器被滥用。 #抽屉IT

OpenAI推出了ChatGPT的插件系统

OpenAI推出了ChatGPT的插件系统首批开放可使用的插件包括了酒店航班预订、外卖服务、在线购物、法律知识、专业问答、文字生成语音，以及用于连接不同产品的 Zapier，和帮父母哄孩子的AI Milo。 OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插件使 ChatGPT 能够与开发人员定义的 API 进行交互，从而增强 ChatGPT 的功能并允许其执行范围广泛的操作。插件可以允许 ChatGPT 执行以下操作：检索实时信息；例如，体育比分、股票价格、最新消息等。检索知识库信息；例如，公司文件、个人笔记等。代表用户执行操作；例如，订机票、订餐等。 OpenAI还托管了两个插件：web browser 和code interpreter，并开源了知识库检索插件的代码（允许用户托管他们自己的数据并使其在 ChatGPT 内部可访问）插件处于有限的 alpha 阶段，目前还无法访问，得加入候补名单获得权限。会优先考虑少数开发人员和 ChatGPT Plus 用户。 || ||| #插件

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人