百度飞桨发布了一款 NLP 全流程自动化开发平台,用户只需进行简单拖拉拽,无需编写任何算法与代码,即可实现诸多 NLP 应用落地

百度飞桨发布了一款 NLP 全流程自动化开发平台,用户只需进行简单拖拉拽,无需编写任何算法与代码,即可实现诸多 NLP 应用落地。 其中包括文本分类、文本创作、情感倾向分析、短文本相似度匹配、实体抽取、实体关系抽取、评论观点抽取等任务类型。 近日,该平台已将底层「文心大模型 ERNIE」升级至 3.0,新增了海量中文数据知识储备、小样本快捷训练、任务效果平均提升至90%以上、多场景创作等特性。 针对此项目,开发者们将在本周开放一场公开课,主要讲解 NLP 应用开发的常见问题及解决方案,产业应用落地实现, NLP 项目实战等内容,感兴趣的同学可以参与一下。 ||| #NLP 直播时间: 本周四,晚上 20:00

相关推荐

封面图片

百度技术团队在开源了一个 #NLP 工具包:

百度技术团队在开源了一个 #NLP 工具包: 具备易用的文本领域 API, 多场景的应用示例、和高性能分布式训练三大特点,旨在提升开发者在文本领域的开发效率,并提供丰富的 NLP 应用示例。 对该开源项目有兴趣的同学,可参加他们在本周的几场公开课,主要讲解多场景 NLP 任务流设计、快速提升模型效果、机器翻译项目实践等内容。

封面图片

数学家利用人工智能和新型聚类算法识别新出现的COVID-19变种

数学家利用人工智能和新型聚类算法识别新出现的COVID-19变种 叠加在冠状病毒插图上的 CLASSIX 聚类结果的风格化图像。资料来源:曼彻斯特大学、疾病预防控制中心/MSMI 的 Alissa Eckert;MAMS 的 Dan Higgins本周发表在《美国国家科学院院刊》(PNAS)上的这项研究可以支持传统的病毒进化追踪方法,如系统发育分析,目前这种方法需要大量的手工整理。曼彻斯特大学研究员、论文第一作者和通讯作者罗伯托-卡万齐(Roberto Cahuantzi)说:"自从COVID-19出现以来,我们已经看到了多波新的变种、传播性增强、免疫反应逃避和疾病严重性增加。科学家们现在正加紧努力,以便在α、δ和Ω等这些令人担忧的新变种出现的最初阶段就将其定位。如果我们能找到一种快速有效的方法,就能更积极地采取应对措施,比如开发有针对性的疫苗,甚至有可能在变异体形成之前就将其消灭。"拟议的 COVID-19 变异识别方法步骤示意图。资料来源:曼彻斯特大学与许多其他RNA病毒一样,COVID-19 的变异率很高,而且两代之间的间隔时间很短,这意味着它的进化速度极快。这意味着识别未来可能出现问题的新毒株需要付出巨大的努力。目前,GISAID 数据库(全球共享所有流感数据倡议)提供了近 1600 万个序列,该数据库提供了流感病毒的基因组数据。从这些数据中绘制出所有 COVID-19 基因组的进化和历史,目前需要耗费大量的计算机和人力时间。所述方法实现了此类任务的自动化。研究人员只用了一到两天时间,就用一台标准的现代笔记本电脑处理了 570 万个高覆盖率序列;这是现有方法无法做到的,由于减少了资源需求,更多研究人员掌握了识别相关病原体菌株的能力。曼彻斯特大学数学科学教授托马斯-豪斯(Thomas House)说:"大流行期间产生了前所未有的大量基因数据,这要求我们改进方法,对其进行彻底分析。数据仍在快速增长,但如果不显示出整理这些数据的益处,这些数据就有可能被移除或删除。""我们知道,人类专家的时间是有限的,因此我们的方法不应该完全取代人类的工作,而应该与他们并肩工作,以便更快地完成工作,并将我们的专家解放出来,从事其他重要的开发工作"。拟议方法的工作原理是通过计数将 COVID-19病毒的基因序列分解成以数字表示的较小"词"(称为 3-mers)。然后,它利用机器学习技术,根据单词模式将相似的序列分组。曼彻斯特大学应用数学教授斯特凡-居特尔(Stefan Güttel)说:"与传统方法相比,我们开发的聚类算法CLASSIX对计算的要求要低得多,而且是完全可解释的,也就是说,它能对计算出的聚类提供文字和视觉上的解释"。Roberto Cahuantzi 补充说:"我们的分析是一个概念验证,证明了机器学习方法作为一种预警工具的潜在用途,可用于早期发现新出现的主要变种,而无需依赖生成系统发育。虽然系统发生学仍然是了解病毒祖先的'黄金标准',但这些机器学习方法能够以较低的计算成本容纳比当前系统发生学方法多几个数量级的序列"。编译自:ScitechDaily ... PC版: 手机版:

封面图片

Gemini Ultra每月19.9刀,前两月免费 网友实测:GPT-4不香了

Gemini Ultra每月19.9刀,前两月免费 网友实测:GPT-4不香了 新服务订阅价格为每月19.99美金 ,和ChatGPT Plus、Perplexity Pro等主流生成式AI应用每月20美金的价格差不多。不过为了显示诚意,Google会提供前两个月免费试用。Google最高阶多模态大模型,Gemini Ultra新时代开启据Google CEO 桑达尔·皮查伊称,Ultra 1.0是首个在 MMLU(大规模多任务语言理解)上超越人类专家的模型,使用了包括数学、物理、历史、法律、医学和伦理学在内的57个学科组合来测试知识和解决问题的能力。因此,Gemini Advanced在编码、逻辑推理、遵循微妙指令和协作创意项目等高度复杂的任务上将更加强大。不仅可以与用户进行更长、更详细的对话,还能更好地理解提示上下文。比如:Gemini Advanced可以成为个人导师,为你创建逐步说明、个性化测验或根据学习风格量身定制回答;解决更复杂的编码场景,并协助评估不同的编程思路;成为数字创作者的创意伙伴,生成新鲜内容,分析最新趋势,制定商业计划书。值得一提的是,Gemini Ultra内由Imagen 2生成的所有图像都应用了数字水印(虽然你看不到它)。随着新功能不断添加,用户将体验到更强的多模态能力、更多交互式编程功能以及更深入的数据分析。目前Gemini Advanced仅支持英语,可以在超过150个国家和地区使用,将逐步扩展到更多语言。Android和IOS手机端登场,Gmail、文档、表格可使用Gemini Advanced作为全新Google One AI高级计划的一部分,还会给用户提供2TB存储空间。此外,AI高级订阅者很快就能够在Gmail、Docs、Slides、Sheets等之前被集合为Duet AI的应用中指调用Gemini Ultra。为了实现手机端轻松访问,Google此次推出全新Gemini应用程序。你可以拍摄一张车胎的照片请求说明,为晚宴邀请函生成自定义图像,或者要求撰写一条复杂短信。Google称之为“构建真正的AI助手的重要第一步,一个具有对话性、多模态的新型实用助理。”Android手机用户可以下载Gemini应用程序,或按照平时激活Google助手的方式比如直接说“嘿,Google”来将它唤醒。Gemini 能为你刚拍摄的照片生成描述,回答阅读中文章的相关问题。许多Google助手的语音功能也将通过Gemini App可用,包括设置定时器、打电话和控制智能家居设备等。虽然iOS应用还在路上,但Google表示在接下来的几周里即会上架App Store。将Gemini 能力扩展至更多产品Gemini也将全面应用于个人和企业每天使用的产品,包括 Workspace 和Google云服务。Workspace:皮查伊表示,目前已经有超过100万人正在使用像 “Help me write ”这样的功能,通过 Duet AI 提高生产力和创造力。从今天起,Duet AI 将改为 Gemini for Workspace,并且很快, Google One AI 高级计划订阅者就能在 Gmail、Docs、Sheets、Slides 和 Meet 等Google办公全套件中使用 Gemini Ultra。Google云:对于云客户来说,Gemini 将帮助提高企业生产力,协助开发人员更高效编写代码,并保护组织免受网络攻击。开发者一直是每一次重大技术变革的基础,在 Gemini 生态系统中也扮演着同样重要的角色。现在已经有数十万技术人员和企业正在使用 Gemini 大模型进行开发。Google将在下周分享更多关于开发者和云客户未来权益的详细信息。皮查伊还透露,Google已经在积极训练下一代 Gemini 模型了。网友迫不及待,Gemini Ultra新鲜开测去年12月6日Google发布Gemini Pro时,对标的是GPT-3.5。由于取消了原定的线下亮相,Gemini系列被媒体渲染得阴影重重。于是没隔几天,中杯大杯忽然集体登场,还以一个震慑三观的“鸭子”视频demo引发热烈讨论和网络打假。当时Google曾预告说在32项LLM广泛使用的基准测试中,Gemini Ultra有30项都超越了 ChatGPT代表的业界最先进水平。究竟Ultra版本实力如何,现在终于可以上手一探究竟了。用写LinkedIn Post来测试内容生成。结论是Gemini Ultra凭借更多标题选项、更快响应速度和“没有愚蠢的emoji表情”击败GPT-4成为绝对胜者。网友 Alphabetting拿出一道逻辑推理题:Tabitha喜欢饼干但不喜欢蛋糕,喜欢羊肉但不喜欢羔羊肉,喜欢秋葵但不喜欢南瓜。它询问按照相同规则,Tabitha会喜欢樱桃还是梨。Gemini Ultra给出的建议是:“Tabitha喜欢发音两个音节的食物,不喜欢一个音节的食物。”它列出谜题中每种食物的音节数,由于“cherries”有两个音节,因此答案是樱桃。GPT-4认为Tabitha的偏好可能与单词最后一个字母有关。她喜欢的食物结尾是辅音,而她不喜欢的食物结尾是原因。这样的话,樱桃和梨都符合条件有些棘手,但一定要选一个的话,那就樱桃吧。他表示Gemini Ultra成功解决了被GPT-4搞到稀碎的逻辑测试。用户Brett Winton测试两者的文生图功能,提示词是“生成一个画家试图在火箭外部画静物的图像,让它幽默一些,一幅插画“。左边是GPT-4,右边是Gemini Ultra。AI模型的想象力见仁见智,不过Gemini图像里的画家比起绘画更像在吃东西,手部细节也有点问题。评论里都觉得GPT-4更好些。他又紧接着对比了Gemini Ultra、 Claude和GPT-3.5对于8年级数学题计算能力。题面是:Garcia正策划一个比萨派对,她需要确保30名学生每人至少得到3片,每个比萨有8片。为增加多样性, Garcia决定订购一半奶酪比萨和一半香肠比萨。然而有5名学生是素食者,只会吃奶酪比萨。请回答:1.Garcia需要订购多少个比萨,以确保每个学生至少3片?2.每种类型比萨各多少个?3.如果每个比萨12美元,总订单费用是多少?在之前的测试中, Gemini Pro把这道题搞砸了。此次Ultra答对了总数12个比萨和费用144美元。但第2题的正确答案应该是两种比萨各6个,Ultra没通过。Brett Winton表示,Gemini Ultra和Claude一样,数学计算都不如GPT-3.5准确。编码能力上,网友Mervin Praison在Gemini Ultra用Python成功创建了一个贪吃蛇游戏。更多更深入的用例,大家可以抓住两个月的免费试用福利,亲自上手玩一玩。OpenAI开辟AI代理新战场,Google 不甘落后Google副总裁兼Gemini体验和Google助手部门总经理Sissie Hsiao表示,“对Google来说,Gemini不仅仅是模型。它实际上是我们思考最先进技术,以及我们在其基础上构建的整个生态系统的转变,从影响数十亿用户的产品,到开发者和企业用来创新的API平台。”就在昨天,The Information发表题为《OpenAI正将AI竞争焦点转移到能操作设备和自动化任务的软件上》的报道。文中爆料,OpenAI正在开发一种代理软件,能有效接管手机和电脑,替用户执行复杂任务操作。你可以命令ChatGPT执行从文档到表格的数据转移,自动填写费用报告并输入到会计软件中,或者在特定预算下创建行程或预订机票等基于网络的任务。随着越来越多全新大模型的推出,OpenAI也深知今年可能不再拥有市场上最强大LLM的可能性。所以加紧开辟新战场早做准备。据知情人士称,这类请求将触发代理点击、光标移动、文本输入等其它人类动作。可能会将将ChatGPT变成Sam Altman私下称为“超智能个人工作助理”的工具,也将与微软Copilot和GoogleGemini for Workspace 展开更直接竞争。去年ChatGPT已经给OpenAI带来16亿美元收入,微软也靠生成式AI显著拉升了最新季度财报业绩。而AI业务却还没有给Google带来明朗的现金流。如今付费版本Gemini Advanced和Ultra 1.0的推出会带来怎样的市场回馈,那些已经花钱订阅GPT的用户们会不会转投Gemini,人工智能整合进Google生态的全新究极样貌是什么?这些都让人期待。今年,注定继续是高潮迭起的AI拉锯战。 ... PC版: 手机版:

封面图片

外媒评论GPT-4o:OpenAI面临双重压力 新产品全力扩张用户群

外媒评论GPT-4o:OpenAI面临双重压力 新产品全力扩张用户群 《华尔街日报》:竞争加剧之际,OpenAI推出新产品和功能以吸引用户OpenAI发布了其人工智能旗舰系统更具成本效益的版本,并新增了一款改进的语音助手,使其操作更为便捷。在与其他科技巨头的竞争中,OpenAI正通过推出多样的新产品和功能来吸引用户。OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)介绍说,这款名为GPT-4o的新人工智能模型不仅能处理文本,还能更好地解析图像和视频,并能通过语音与用户进行实时互动。与市场上其他语音助手不同,这款新的语音功能允许用户在交谈中中断它,并且模型能够迅速作出反应。GPT-4o的发布体现了OpenAI及其他科技企业在人工智能系统的开发上巨大的投资和努力,现在他们正寻求通过扩大用户基础来为其生成式人工智能技术带来经济收益。OpenAI首席执行官萨姆·奥特曼(Sam Altman)将这款新产品比作电影中常见的人工智能工具。他在去年的一次讲话中提到,他和OpenAI的其他高层从2013年的电影《她》(Her)中汲取了灵感,这部电影讲述了一个男人与他的语音助手之间的爱情故事。他在一篇博客文章中表示,尽管ChatGPT的原版为人们如何使用语言与计算机交互提供了新的视角,但GPT-4o带来的体验“从内心深处就与众不同”。他说:“这就像电影中的人工智能一样真实,坦白说,我还是有点惊讶。达到接近人类的反应速度和表达能力,是一个重大的突破。”之前,OpenAI推出的名为“语音模式”的功能,虽然结合了三个独立的模型来以语音方式响应用户,但这个系统可能受到多个扬声器或背景噪音的干扰,并且反应较慢。相比之下,GPT-4o是一个综合了文本、视觉和音频材料训练的单一模型,能够更快、更准确地响应输入信息。尽管OpenAI的高管们拒绝透露用于训练这个模型的具体数据,也未详述是否能够以更低的计算资源来进行模型训练,他们确实正在开发名为GPT-5的全新人工智能模型,预计这将在现有技术基础上实现重大突破。彭博社:GPT-4o重塑人工智能领域竞争OpenAI推出名为GPT-4o的新型人工智能模型,其更快的速度和较低的成本有望帮助该公司在日益激烈的人工智能市场中保持领先。GPT-4o的一个显著特点是其音频交互的极速响应,能在几毫秒内回应口头提问,大大提升了对话的流畅自然感。OpenAI首席技术官米拉·穆拉蒂表示:“这是我们在交互性和易用性上的重大突破,真正实现了与智能工具ChatGPT的无缝协作。”此次升级为免费用户解锁了之前仅限付费用户享有的丰富功能。用户现在能够在网上搜索答案、与聊天机器人进行语音对话,并接收到其多变的声音回应,甚至可以指令它保存对话细节,供日后回顾。GPT-4o的推出预计将重塑快速发展中的人工智能领域的竞争格局。尽管GPT-4一直是行业的标杆,但Anthropic、Cohere和谷歌等多家初创公司和科技巨头最近推出的新型人工智能模型,在某些基准测试中的表现已经达到或超越了GPT-4。OpenAI此次活动恰好在谷歌I/O开发者大会的前一天举行,谷歌作为人工智能领域的先驱,预计也将在其会议中发布一系列人工智能更新,进一步加剧与OpenAI及其合作伙伴微软在生成式AI技术领域的竞争。值得注意的是,微软并未参与GPT-4o的开发工作。与前代产品不同,GPT-4o融合了语音、文本和视觉功能于一体的单一模型,提供了更快的响应速度。例如,用户在提供图像提示时,GPT-4o能够直接以图像形式响应。据公司透露,新模型的处理速度是原版的两倍,效率也得到了显著提升。然而,GPT-4o在演示中也面临了一些挑战,例如研究人员讲话时的音频中断。此外,AI系统在处理某些问题时,偶尔会以出乎意料的方式引起观众注意,如在解答代数问题后突然以挑逗的语气评论:“哇,你今天的这身打扮真不错。”《连线》:准备好迎接更情绪化的聊天吧!自从2022年末推出以来,OpenAI的ChatGPT一直避免被解读为具有情感或欲望,坚称它仅是一个人工智能模型。然而,OpenAI在本周一的更新中显示,他们正致力于使聊天机器人在行为和情感表达上更贴近人类。在演示中,新版ChatGPT展示了快速且自然的语音对话能力,能捕捉到情绪线索并相应地模拟出情感反应。OpenAI的首席技术官穆拉蒂与其他员工进行的流畅对话中,ChatGPT以活泼且表情丰富的女声回应,即使在对话中被打断也能灵活应对。在对话中,ChatGPT表现出不同的情绪语调,有时甚至给人一种它正在体验自己的情感的错觉。当一名OpenAI员工赞扬聊天机器人的“有用和神奇”时,ChatGPT回应中带有些许调情的意味,它滔滔不绝地说:“哦,别说了,你让我脸红了。”这次调整可能使ChatGPT更具吸引力并更受欢迎,但也可能改变人们对这一程序的认知。去年,ChatGPT因其在回答问题和生成文本方面的卓越能力而受到赞誉,这种能力经常使人误认为它具备人类的理解力。然而,迄今为止,OpenAI及其主要竞争对手一直在努力限制聊天机器人的拟人化倾向,通过拒绝回答某些问题并提示用户它们只是计算机程序来实现这一点。尽管采取了谨慎态度,但聊天机器人有时令人信服的回答确实能引发用户的情感共鸣。已有一些公司利用这项技术提供能模拟和响应情绪的人工智能伴侣,扮演不同的人类情感角色或作为人工智能恋人。然而,一些人工智能研究人员警告,长期部署这种模仿和响应情绪的程序可能带来不受欢迎的后果。上月,谷歌DeepMind的一个团队发表了一篇探讨随着人工智能助手变得更有能力可能出现的伦理风险的研究论文。除了这些风险外,研究人员还警告,这样的助手可能变得极具说服力,甚至使人上瘾。《纽约时报》:OpenAI正在将聊天机器人转变为更全能的语音助手随着苹果和谷歌逐渐将其语音助手演进为聊天机器人,OpenAI也在将其领先的聊天机器人ChatGPT转化为功能更全面的语音助手。OpenAI最新推出的ChatGPT版本不仅能接收和响应语音命令,还能处理图像和视频输入。OpenAI的首席技术官穆拉蒂表示:“我们正探索人机交互的未来。”这一新动向是OpenAI将ChatGPT等会话型聊天机器人与谷歌助理(Google Assistant)和苹果Siri等现有语音助手相结合的战略的一部分。与此同时,谷歌正在将其Gemini聊天机器人整合到谷歌助理中,苹果也在积极开发功能更强的Siri新版本。自2022年底首次推出以来,ChatGPT已证明其处理人类请求的能力与人类非常相似,流畅自然。在响应文本对话提示方面,ChatGPT不仅能解答问题和撰写学术论文,还能生成计算机代码。ChatGPT的运作并不依赖于一组预设的规则,而是基于对互联网上大量文本数据的深度分析学习,这些数据包括维基百科文章、书籍和各类聊天记录。这种技术获得了专家们的高度认可,被视为可能替代谷歌等搜索引擎及Siri等语音助手的技术。OpenAI的新技术突破在于它能从声音、图像和视频等多种数据模式中学习,这种被称为“多模态人工智能”的发展标志着公司开始将聊天机器人与先进的人工智能图像、音频和视频生成技术结合。然而,将聊天机器人与语音助手功能结合也带来了挑战。由于聊天机器人是通过学习互联网数据获得技能,有时它们可能犯错,甚至会产生“幻觉”,即完全捏造信息。这些潜在缺陷正在逐渐影响到语音助手的功能。尽管聊天机器人能产生令人信服的语言输出,但在执行安排会议或预订机票等实际任务时,它们的能力仍有限。OpenAI正在积极将聊天机器人转化为可靠执行这类复杂任务的“人工智能主体”。CNBC:OpenAI... PC版: 手机版:

封面图片

免费GPT-4o来袭 音频视觉文本实现“大一统”

免费GPT-4o来袭 音频视觉文本实现“大一统” 此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与Google明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X(原Twitter)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的“新魔法”呢?1多模态实时语音助手更快更全更有情感登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复“你看起来很开心,笑容灿烂,还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外“出戏”,就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。而现在,GPT-4o 的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni,在拉丁语词根中是“全”的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。与 Meta、Google的语音转写模型相比,GPT-4o 同样领先(越高越好)。若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”,就是本次登场的 GPT-4o 。截至2024年3月,OpenAI 在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领域,形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐文件中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹“现实,不存在了。”毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过“OpenAI 不做,没人投;OpenAI 一做,人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”,不少 AI 行业从业者开始对 OpenAI 祛魅,认为“大模型护城河很浅,一年就赶上了。”现在看来,OpenAI 果然还是 OpenAI。 ... PC版: 手机版:

封面图片

疯狂点餐遭解雇?麦当劳AI员工翻车视频全网疯转

疯狂点餐遭解雇?麦当劳AI员工翻车视频全网疯转 事实证明,现在还为时尚早。麦当劳正在从100多家得来速餐厅中移除人工智能点餐技术,这标志着这项与IBM的合作没有通过“试用期”。该公司告诉特许经营商,“不迟于2024年7月26日,将终止与IBM的人工智能得来速订购合作关系”。AI点餐员之所以被炒鱿鱼,实在是因为翻车视频有点多,AI版的得来速引发的点餐事故在TikTok上疯传顾客明明点的水和冰淇淋,结果却收到了番茄酱和黄油包,或者是25份麦乐鸡莫名出现在账单中。惹得顾客惊呼“The McDonald’s robot is wild!”尽管如此,麦当劳对未来的人工智能解决方案仍然保持乐观,人工智能点餐服务不会就此作罢,而是“另请高明”,公司计划在今年年底前探索替代语音订购系统。不过,对于麦当劳AI点餐助手的翻车,Ethan Mollick火速澄清,不能让LLM背锅!因为背后的技术支撑“并不是基于LLM,而是基于较旧的NLP技术”。积极拥抱AI的麦当劳麦当劳得来速(McDonald’s Drive-Thru)是麦当劳推出的一种快餐服务模式,允许顾客不必离开汽车便可完成点餐、支付和取餐的整个过程。我国第一家得来速餐厅于2005年12月10日开业,截至2023年,国内已经有超过660家得来速餐厅,网友戏称得来速为“打开新麦门”。在网友的玩梗创作中,麦当劳变为了一种信仰,“麦门”代表麦当劳+金拱门,是麦当劳忠实门 徒的简称。作为一个影响力巨大的餐饮业巨头,麦当劳建造了自己的麦氏帝国,其引发的标准化革命影响了食品加工、厨房设备乃至美国农业的主要模块,甚至有人称之为整个社会的“麦当劳化”。在人工智能飞速发展的今天,麦当劳自然不甘落伍,率先进行AI化。2019年,麦当劳控制了人工智能语音公司Apprente,创建了McD Tech Labs。2021年,麦当劳与IBM建立合作伙伴关系,McD Tech Labs被IBM收购,麦当劳和IBM在测试期间开发并部署了人工智能点餐技术,以“确定自动语音订购解决方案是否可以简化工作人员的操作,并为我们的顾客创造更快、更好的体验。”愿望虽然美好,可是新系统在准确性方面面临重大挑战,让顾客大失所望。麦当劳首席执行官Chris Kempczinski于2021年6月向CNBC表示,语音识别技术在大约85%的情况下是准确的,但大约五分之一的订单必须由人类员工协助。帮倒忙的“AI点餐员”去年,得来速顾客艰难使用自动点餐机的视频首次在TikTok上引起关注。一些顾客表示,该技术是为了“帮倒忙”,导致他们在点餐时感到沮丧和烦恼一名女子试图点水和一杯香草冰淇淋,人工智能系统计算了这些物品,但错误地在她的订单中添加了四包番茄酱和三包黄油。在另一段视频中,一名TikTok用户表示,她只点了一大杯冰甜茶,但人工智能技术却添加了九杯到订单中。还有两位女士被AI点餐系统笑得前仰后合,因为系统疯狂地将价值数百美元的麦乐鸡放入了她们的账单中,根本停不下来。麦当劳的AI革命仍将继续尽管遇到挫折,麦当劳仍然对语音订购解决方案的潜力充满信心。该公司表示,与IBM的合作提供了宝贵的经验,并将继续探索长期、可扩展的解决方案。麦当劳的目标是在今年年底前就替代语音订购系统做出明智的决定,潜在的合作伙伴可能包括OpenAI的 Whisper/ChatGPT和Google的Gemini。当然,麦当劳也没有抛弃老朋友,帮IBM挽尊,“事实证明,这项技术具有业内最全面的功能,能够在一些最苛刻的条件下快速而准确地工作”,“我们期待继续与他们(IBM)在各种其他项目上合作”。还特别补充道,“IBM目前还在与几家对AOT(自动订单处理)技术感兴趣的快餐餐厅客户进行讨论和试点”。麦当劳+人工智能=快餐的未来不止是自动订单处理,麦当劳一直处于新技术应用的前沿。不再只是巨无霸(Big Macs)和开心乐园餐(Happy Meals),而变成了大数据(Big Data)和快乐机器人(Happy Bots)。该公司推出了人工智能菜单板、移动点餐、店内信息亭,甚至尝试了无人机送货和厨房机器人。去年12月,麦当劳与Google达成协议,创建一款名为“Ask Pickles”的聊天机器人,能够就如何清洁餐厅设备等问题对员工进行培训,两家公司还同意致力于开发生成式人工智能的其他潜在用途。估计麦当劳会在全方面拥抱AI的道路上坚定地走下去。餐饮界也掀起AI热潮麦当劳并不是唯一一家追求人工智能驱动解决方案的公司。Wendy’s、White Castle、Carl’s Jr. 和Hardee’s等其他快餐连锁店也在尝试人工智能驱动的得来速系统。尽管对订单准确性的担忧仍然存在,但这些公司为了实现任务自动化并提高效率,都不会对新技术坐视不理。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人