ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

ChatGPT现在可以看到、听到和说话——GPT-4多模态版本上线OpenAI开始在ChatGPT中推出新的语音和图像功能,允许您进行语音对话或向ChatGPT展示画面。Plus和企业用户将在未来两周内体验语音和图像,不久后推出给其他用户组,包括开发人员。图像理解由多模态GPT-3.5和GPT-4提供支持,你现在可以向ChatGPT展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。文本转语音由新的模型提供支持,它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT的预设语音来自直接合作的专业配音演员。语音转文本由OpenAIWhisper模型支持。投稿:@ZaiHuaBot频道:@TestFlightCN

相关推荐

封面图片

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型,可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现,例如模拟律师考试中,GPT-4的得分约为前10%,而GPT-3.5的得分约为倒数10%。在多语言测试中,GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌),包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力,开发人员和用户可以自定义他们的AI风格,而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4,未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单,每1kprompttokens的价格为$0.03,每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段,仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行,同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同,BingChat可联网获取实时信息并且免费。——投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

ChatGPT现在可以看到、听到和说话——GPT-4多模态版本上线https://www.bannedbook.org/bnew

封面图片

微软:多模态大模型GPT-4下周就出

微软:多模态大模型GPT-4下周就出最新消息是,万众期待的GPT-4下周就要推出了:在3月9日举行的一场名为“AIinFocus-DigitalKickoff”的线下活动中,四名微软德国员工展示了GPT系列等大型语言模型(LLM)的颠覆性力量,以及OpenAI技术应用于Azure产品的详细信息。在活动中,微软德国首席技术官AndreasBraun表示GPT-4即将发布,自从3月初多模态模型Kosmos-1发布以来,微软一直在测试和调整来自OpenAI的多模态模型。GPT-4,下周就出“我们将在下周推出GPT-4,它是一个多模态的模型,将提供完全不同的可能性——例如视频(生成能力),”Braun说道,他将语言大模型形容为游戏规则改变者,因为人们在这种方法之上让机器理解自然语言,机器就能以统计方式理解以前只能由人类阅读和理解的内容。与此同时,这项技术已经发展到基本上“适用于所有语言”:你可以用德语提问,然后用意大利语得到答案。借助多模态,微软和OpenAI将使“模型变得全面”。微软德国CTOAndreasBraun。改变业界微软德国公司首席执行官MarianneJanik全面谈到了人工智能对业界的颠覆性影响。Janik强调了人工智能的价值创造潜力,并表示,当前的人工智能发展和ChatGPT是“iPhone发布一样的时刻”。她表示,这不是要代替人类工作,而是帮助人们以不同于以往的方式完成重复性任务。改变并不一定意味着失业。Janik强调说,这意味着“许多专家会开始利用AI实现价值增长”。传统的工作行为正在发生变化,由于新的可能性出现,也会产生全新的职业。她建议公司成立内部“能力中心”,培训员工使用人工智能并将想法整合到项目中。此外,Janik还强调,微软不会使用客户的数据来训练模型(但值得注意是,根据ChatGPT的政策,这不会或至少不会适用于他们的研究合作伙伴OpenAI)。微软德国CEOMarianneJanik。实际用例微软的两位AI技术专家ClemensSieber和HolgerKenn提供了关于AI实际使用的一些信息。他们的团队目前正在处理具体的用例,他们讲解了用例涉及的技术。Kenn解释了什么是多模态人工智能,它不仅可以将文本相应地翻译成图像,还可以翻译成音乐和视频。除了GPT-3.5模型之外,他还谈到了嵌入,用于模型中文本的内部表征。根据Kenn的说法,“负责任”的AI已经内置到微软的产品中,并且可以通过云将数百万个查询映射到API中。ClemensSiebler则用用例说明了今天已经成为可能的事情,例如可以把电话呼叫的语音直接记录成文本。根据Siebler的说法,这可以为微软在荷兰的一家大型客户每天节省500个工作小时。该项目的原型是在两个小时内创建的,一个开发人员在两周内完成了该项目。据他介绍,三个最常见的用例是回答只有员工才能访问的公司信息、AI辅助文档处理和在呼叫中心处理口语的半自动化。微软表示人们很快就会与其全新的AI工具见面。特别是在编程领域,Codex和Copilot等模型可以更轻松地创建代码,令人期待。当被问及操作可靠性和事实保真度时,Siebler表示AI不会总是正确回答,因此有必要进行验证。微软目前正在创建置信度指标来解决此问题。通常,客户仅在自己的数据集上使用AI工具,主要用于阅读理解和查询库存数据,在这些情况下,模型已经相当准确。然而,模型生成的文本仍然是生成性的,因此不容易验证。Siebler表示微软围绕生成型AI建立了一个反馈循环,包括赞成和反对,这是一个迭代的过程。看来在AI大模型的竞争中,领先的一方也加快了脚步。微软在过去一周左右接连发布了展示多模态的语言大模型论文Kosmos-1和VisualChatGPT,这家公司显然非常支持多模态,希望能够做到使感知与LLM保持一致,如此一来就能让单个AI模型看文字图片,也能“说话”。微软的下次AI活动选在了3月16日,CEO萨蒂亚・纳德拉将亲自上台演讲,不知他们是否会在这次活动上发布GPT-4。有趣的是,微软的活动和百度推出文心一言选在了同一天。距离3月16日百度推出类ChatGPT聊天机器人还有一周时间,最近有报道称,百度正在抓紧时间赶在发布最后期限前完成任务。目前看来,百度打算分阶段推出文心一言的各项功能,并首先向部分用户开放公测。知情人士称,在春节假期过后,李彦宏就要求包括自动驾驶部门在内的全公司AI研究团队将英伟达A100支援给文心一言的开发。我们期待下周各家科技公司能带来惊喜。...PC版:https://www.cnbeta.com.tw/articles/soft/1348807.htm手机版:https://m.cnbeta.com.tw/view/1348807.htm

封面图片

OpenAI 公司在中国申请注册 GPT-4 商标

OpenAI公司在中国申请注册GPT-4商标欧爱运营有限责任公司(OPENAIOPCO,LLC)近期申请注册了“GPT-4”商标,国际分类为科学仪器,当前商标状态为申请中。此前,该公司还申请注册了一枚国际分类为网站服务的“WHISPER”商标(IT之家注:Whisper为OpenAI此前发布的神经网络,声称其在英语语音识别方面已接近人类水平)。不久前,OpenAI发布了多模态预训练大模型GPT-4,与ChatGPT所用的模型相比,GPT-4不仅能够处理图像内容,且回复的准确性有所提高。目前,GPT-4仅向ChatGPTPlus的付费订阅用户及企业和开发者开放。GPT-4实现了以下几个方面的飞跃式提升:更聪明,做题水平越来越好;支持图像输入,拥有强大的识图能力,但目前只限内部测试;更长的上下文,文字输入限制提升至2.5万字;回答准确性显著提高;更安全,有害信息更少。——

封面图片

GPT-4 来了!

GPT-4来了!OpenAI宣布推出了GPT-4,是一种大型多模态模型,可接收图像和文本输入,并输出文本结果。https://openai.com/research/gpt-4-ChatGPTplus用户,现在也可以通过下面访问GPT-4https://chat.openai.com-加入GPT-4API候补名单https://openai.com/waitlist/gpt-4-api-仓库贡献人员可以获得优先API访问权限https://github.com/openai/evals

封面图片

PT-4o与GPT-4的区别

GPT-4o与GPT-4的区别1.性能提升:GPT-4o在性能上进行了显著提升,特别是在文本、语音和视觉处理方面。它能够更快地响应用户的输入,提供更自然和流畅的交互体验。2.响应速度:GPT-4o在响应速度上进行了优化,能够以更短的延迟时间处理用户的语音输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。3.多模态交互:GPT-4o支持更高级的多模态交互,能够处理文本、音频和图像的任意组合输入,并生成对应的任意组合输出。这使得GPT-4o在交互性上更加灵活和强大。4.安全性:GPT-4o在设计中内置了跨模式的安全性,并通过与外部专家的合作,提高了与模型互动的安全性。5.成本和效率:GPT-4o在非英语文本上的性能有显著提高,同时API速度快,速率限制高出5倍,成本降低了50%。6.免费提供:与以往的模型不同,GPT-4o将免费提供给所有用户使用,而付费用户可以享受更高的调用额度。7.语音交互模式:GPT-4o采用了全新的技术,让聊天机器人的语音交互模式更加自然和逼真,能够根据指令调整说话时的语气,甚至唱歌。8.优化和迭代:GPT-4o通过训练时的优化和数据的迭代更新,提升了模型在特定任务和场景下的表现。9.风险管理:OpenAI认识到GPT-4o的音频模式存在风险,因此目前公开的是文本和图像输入以及文本输出,未来将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人