从目前几位大佬的实测和演示看，OpenAI这个产品也许技术上给我们的震撼感不是那么的大，但是的确拥有非常多的使用场景。大大增加用

从目前几位大佬的实测和演示看，OpenAI这个产品也许技术上给我们的震撼感不是那么的大，但是的确拥有非常多的使用场景。大大增加用户黏性。意义还是不小的。宝玉: OpenAI 邀请了可汗学院的可汗和他儿子一起使用了 GPT-4o 辅导孩子在可汗学院上做数学题，一步步启发纠正，各种鼓励，比普通家长辅导效果可能真的要好不少！ via

在Telegram中查看

相关推荐

OpenAI 邀请了可汗学院的可汗和他儿子一起使用了 GPT-4o 辅导孩子在可汗学院上做数学题，一步步启发纠正，各种鼓励，比普

OpenAI 邀请了可汗学院的可汗和他儿子一起使用了 GPT-4o 辅导孩子在可汗学院上做数学题，一步步启发纠正，各种鼓励，比普通家长辅导效果可能真的要好不少！#视频频道：@kejiqu 群组：@kejiquchat

可汗学院创始人认为 GPT-4 做好了做导师的准备

可汗学院创始人认为 GPT-4 做好了做导师的准备可汗学院创始人 Sal Khan 相信 OpenAI 最新的生成式 AI GPT-4 做好了给学生当导师的准备。可汗学院是 GPT-4 的早期用户之一，它提供的基于 GPT-4 的教育助手 Khanmigo 正在美国多个学区进行测试。Khanmigo 的工作方式类似线下或线上的辅导老师，检查学生的作业，在遇到问题时提供帮助。举例来说，对于数学题目，Khanmigo 不仅仅能判断正确还是错误，还能判断学生的哪一步推理错了。Sal Khan 表示，他理解部分学校对 ChatGPT 等生成式 AI 的担忧，指出许多批评者其实自己也在用它们，甚至让他们自己的子女使用。他认为 AI 能为发展中国家和发达国家的儿童提供一种个性化学习的机会。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

更像人类的GPT-4o：OpenAI的《Her》时刻

更像人类的GPT-4o：OpenAI的《Her》时刻 GPT-4o在保持GPT-4级别的智能的同时，对文本、视觉和音频功能进行了改进。OpenAI首席技术官（CTO）Mira Murati及其员工Mark Chen和Barret Zoph在现场演示时展示了新的音频对话和视觉理解能力。OpenAI声称，GPT-4o对音频输入的平均反应时间约为320毫秒。根据2009年的一项研究，这与人类在对话中的反应时间相似，而之前的模型通常要延迟2-3秒时间。除了响应速度，GPT-4o似乎很容易捕捉到情绪，并根据用户的要求调整语气和风格，甚至还在回应中加入了音效、笑声和歌声。GPT-4o更像人类GPT-4o在理解人类交流方面迈出了重要的一步，用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向，比如打断、理解语气，甚至意识到自己犯了一个错误。在第一次现场演示中，主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气，而ChatGPT则诙谐地回应道：“你不是吸尘器。”它建议使用一种速度较慢的技术，展示其理解和回应人类细微差别的能力。除了具有幽默感，ChatGPT也会改变回应的语气，在传达“思想”的同时用不同的语调来完成。就像人类对话一样，你可以打断它的对话并纠正它，让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。此外，它甚至还可以提供翻译服务。在现场演示中，舞台上的两名演讲者，一名说英语，一名说意大利语，通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语，然后无缝地将英语回复翻译回意大利语。据悉，Chat GPT-4o在50多种语言的速度和质量上都有所提高。OpenAI表示，这些语言覆盖了世界97%的人口。除了语音理解，Chat GPT-4o还可以理解视觉效果。例如，对于视频中的一道方程题，它可以指导你如何求解。另外，它还可以观看现场自拍，并提供描述，包括你的穿着，以及情绪。在演示中，Chat GPT-4o表示，主持人看起来很开心。在整个演示过程中，Chat GPT-4o工作得很快，在理解方面并不费力，也没有提出询问。与输入查询相比，与Chat GPT-4o的交流更自然。你可以自然地对着手机说话，并得到想要的回应，而不是用谷歌去搜索。电影《Her》中的萨曼莎此时，如果想到了《Her》（一部和AI虚拟人萨曼莎谈恋爱的电影），或者其他与AI相关的未来主义反乌托邦电影，你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈，本质上就是OpenAI的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出，许多人可能很快就会拥有自己的《Her》时刻。虽然并未在直播演示中现身，但OpenAI CEO 萨姆·奥特曼（Sam Altman）对这次演示做了重要的总结，称GPT-4o给人的感觉就像电影中的AI。他说：“新的语音和视频模型GPT-4o是我用过的最好的计算机界面，这感觉就像电影中的AI。而且，对我来说，它真实的仍然有点令人惊讶，达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性，但GPT-4o这个新事物感觉本质上有所不同，它快速、智能、有趣、自然、实用。”“对我来说，与电脑交谈从来都不是很自然的感觉；但现不同了，它变得自然了。随着将来不断地完善，我真的看到了一个令人兴奋的未来，我们能使用计算机做比以往任何时候都多的事情。”奥特曼还称，在创建OpenAI时，最初的想法是创造AI，并用它来为世界创造各种裨益。但如今，创造AI后，希望让其他人使用它来创造各种令人惊叹的东西，所有人都会从中受益。奥特曼还表示：“OpenAI是一家企业，会找到很多收费的东西，这将帮助我们为数十亿人提供免费的、出色的AI服务。”新的安全风险这场令人印象深刻的语音和视觉演示，可能只是触及了Chat GPT-4o各种可能性的皮毛。尽管其总体性能，以及在各种环境中的日常表现仍有待观察，但很明显，通过现场演示可以看出，Chat GPT-4o已经对谷歌和苹果的未来挑战做好了准备。OpenAI称：“Chat GPT-4o是我们第一个结合了上述所有技术的模型，我们目前只是触及到探索该模型的功能，及其局限性的皮毛。”Murati承认，Chat GPT-4o的实时音频和图像能力在安全方面带来了新的挑战。她表示，OpenAI将继续研究安全性，并在未来几周的迭代部署期间征求测试用户的反馈。OpenAI称：“Chat GPT-4o还与社会心理学、偏见和公平性等领域的70多名外部专家进行了广泛的合作，以识别新模型可能导致或放大的风险。我们利用这些经验来加强安全干预措施，以提高与Chat GPT-4o交互的安全性。一旦新的风险被发现，我们将采取措施降低它们。”GPT-4o前景展望在Google I/O大会开始的前一天，OpenAI发布了Chat GPT-4o，让我们见识到了人们想要的真正实用的AI体验。如果传闻中的与苹果的合作成为现实，那么Siri将如虎添翼。对于谷歌而言，几乎可以肯定的是，将在5月14日的I/O大会上展示其最新的AI技术。它能足以抵抗Chat GPT-4o吗？在不到30分钟的演讲中，OpenAI无法对Chat GPT-4o进行更多的现场演示。幸运的是，它将在未来一周向用户推出，且不需要支付费用。 ... PC版：手机版：

OPENAI 与洛斯阿拉莫斯合作测试人工智能对实验室工作的价值

OPENAI 与洛斯阿拉莫斯合作测试人工智能对实验室工作的价值 OpenAI 正在与因研制出世界上第一颗原子弹而闻名的洛斯阿拉莫斯国家实验室合作，研究使用人工智能系统协助科学研究的机遇和风险。OpenAI 当地时间周三表示，该公司正在与洛斯阿拉莫斯合作，评估其最新的人工智能模型 GPT-4o 如何用于支持和解决实验室任务。除此之外，OpenAI 还表示将研究 GPT-4o 尚未发布的语音助手技术如何帮助科学家进行研究。洛斯阿拉莫斯研究科学家埃里克·勒布伦在声明中表示：“人工智能能力不断提升的潜在优势是无穷无尽的。然而，衡量和了解与生物威胁相关的任何潜在危险或高级人工智能滥用仍在很大程度上尚未得到探索。与 OpenAI 的合作是朝着建立评估当前和未来模型的框架迈出的重要一步。”

GPT-4 来了！OpenAI 还给出个 6个使用 GPT-4 的案例（翻译由ChatGPT完成，我有微弱修订），分别是：

ChatGPT-4o，OpenAI的一小步，人类“AI助理”的一大步

ChatGPT-4o，OpenAI的一小步，人类“AI助理”的一大步它长出了“眼睛”，可以通过摄像头看到你，比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议；它能“看到”你的电脑桌面，直接帮你查看写的代码有什么问题。它有了更灵敏的“耳朵”，能听懂的不只是语言，还能听懂研究员过于急促的呼吸声，并引导他慢慢平稳呼吸、放松下来。OpenAICTO Mura Murati 宣布推出 ChatGPT-4o | 图片来源：OpenAI它有了更灵活的“嘴巴”，对话不再有延时，你能随时打断它、它能随时接住你的话。它的声音能带入感情，比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。它也有了更聪明的“大脑”。它能帮研究员一步步解不等式，还可以做同声翻译、你可以通过它跟不同语种的人们交流。这些强大的能力背后，源自 OpenAI 推出的新模型 GPT-4o。与现有模型相比，GPT-4o 的最大进步在于，它可以实时对音频、视觉和文本进行推理换句话说，它让ChatGPT实现了真正意义上的多模态交互。这不仅仅是技术进步的追求，更是应用普及的追求。OpenAI 的使命之一是让 AI 普惠每个人，让用户能顺滑地用上 AI 是至关重要的。在“模型即应用”的时代，这种交互体验最终还是靠模型能力的提升。OpenAI 称，GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步。发布会上，Mira Murati 宣布 ChatGPT-4o 将免费向所有用户开放，而付费和企业用户，可以抢先获得体验。电影《Her》上映于 2013 年，它讲述了一位人类爱上一位人工智能语音助理的故事。从今天 ChatGPT 呈现的能力来看，这样的想象正在加速成为现实。ChatGPT 的惊人进步：变身人类“超级助理”，甚至不需要人类参与在 OpenAI 的官网上，呈现了 ChatGPT 作为个人语音“超级助理”的更多惊人应用场景。首先是面向单个用户，和人一样，它提供的主要是“情绪价值”与“认知价值”。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等；它能充当面试官，给人提供面试建议；它还能给一位盲人提供环境观察，给他讲述看到的景色、提醒他过马路的路况。盲人用户使用 ChatGPT-4o“观察”整个世界 | 图片来源：OpenAI接着是面向多个用户，它提供的更多是一种“协同价值”。比如给两个语言不通的人充当翻译，让他们能无障碍沟通；给两个人做“剪刀石头布”的游戏裁判，先喊口令让游戏开始、之后还能准确判断是哪个人赢了；充当一名“家教”，帮一位父亲辅导他的孩子做作业；甚至作为一名“会议第三方”，主持和记录多人会议。最有意思的还是，不同 ChatGPT 之间的对话。这种无需人类参与的沟通，不仅充满了科幻感，更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中，一位用户要求一部手机的 ChatGPT 代表自己，向另一部手机的 ChatGPT 申请售后，结果这两个 ChatGPT 毫无阻碍地聊了两分钟，顺利帮这位用户“换了货”。而 OpenAI 总裁 Greg Brockman 则做了一个调皮的演示，他让两个 ChatGPT 互动并唱了歌。OpenAI 总裁 Greg Brockman 演示两个 GPT 的互动｜图片来源：OpenAI一位曾在 10 年前就开始做“AI 语音助理”的前大厂高管对极客公园表示，他当时就设想过 AI 助理的终极形态应该是“多模态、无所不能”，但彼时技术并不支持，他认为 ChatGPT 会加速这种设想实现的可能只是他没想到，这个过程会来得这么快。他认为，实现 AGI 的一个关键标志是，机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远，但当两个 ChatGPT 开始互相聊天的时候，这个鸿沟看起来似乎浅了一点点。GPT-4o 多模态大模型的技术进步、以及安全性这些惊艳的产品表现，根本上源自于 GPT-4o 多模态大模型的技术进步。后者分为文本、语音、图像三部分，GPT-4o 在这三块都有提升，尤其是后两者。在文本方面，据 OpenAI 的技术报告，GPT-4o 在 MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评测指标上，都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本)，以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上，GPT-4o 创下了 88.7% 的新高分。GPT-4o 在文本上的成绩相当优异|图片来源：OpenAI最关键的，是音频、多语言和视觉上的进步。在音频方面，过去 ChatGPT 的音频缺陷是需要经过三个独立的模型，从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本，再由 GPT-3.5 或 GPT-4 接收文本并输出文本，最后由第三个模型将该文本转换回音频一方面，它使得音频的传输存在延迟，GPT-3.5 的平均延迟为 2.8 秒，GPT-4 的平均延迟为 5.4 秒。另一方面，模型会丢失大量信息，从而无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。而 GPT-4o 的解决办法是，跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。OpenAI 称这是其突破深度学习界限的最新举措。目前，GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入，与人类的响应时间相似。同时在音频 ASR 性能和翻译性能上，GPT-4o 都比 Whisper-v3（OpenAI 的语音识别模型）的性能更优。M3Exam 基准测试既能用于多语言评估，也可以用于视觉评估。它由多项选择题组成，包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。另外在视觉理解评估上，GPT-4o 在视觉感知基准上都实现了最先进的性能。GPT-4o 在视觉理解上同样能力不错 | 图片来源：OpenAI一位大模型训练者曾对极客公园表示，模型的技术领先性从来不是靠打榜评分，而是靠用户最真实的感受和体验。从这个角度来说，GPT-4o 的技术领先性将很容易见分晓。OpenAI 表示，GPT-4o 的文本和图像功能将于发布会当天在 ChatGPT 中推出。免费用户就可以使用，不过 Plus 付费用户能享受高达 5 倍的消息容量。在未来几周内，OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。而开发人员现在就可以在 API 中访问 GPT-4o 的文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍、价格降低了一半、速率限制提高了 5 倍。在未来几周内，OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。一项强大的技术最令外界担忧的，就是它的安全可控性。这也是 OpenAI 最核心的考虑之一。OpenAI 表示，GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。其还创建了新的安全系统，为语音输出提供防护。为了保证更好的安全性，OpenAI 表示在接下来的几周和几个月里，将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。OpenAI 从没让外界失望，再次引领科技圈的未来作为这波 AI 浪潮的开启者、引领者，OpenAI 的每一次发布和更新，都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向。在这次发布会之前，外界对 OpenAI 颇多谣传、也包括质疑。一周前，外媒报道此次 OpenAI 要发布的是一款搜索引擎在一年最重要的新闻发布时刻，这家公司没有推出 GPT-5，这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品，这家公司将难以重振用户的增长、满足整个市场对它的期待。自 2022 年底推出 ChatGPT 后，这家公司的用户量经历了大起大落。据 Similarweb 估计，其全球访问量在 2023 年 5 月达到... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人