和@归藏一起视频会议看完 OpenAI 的发布，讨论了一会，背脊发凉…

和@归藏一起视频会议看完 OpenAI 的发布，讨论了一会，背脊发凉… 1⃣ 没想到卷推理卷到了这种程度现实交流场景下300ms 左右的体验奇点真没想到就这样被越过了，真技术驱动、大力出奇迹 2⃣ OpenAI 严格按照去往数据更多的地方的战略一骑绝尘，AI 的信仰真不假 3⃣ 要取代的是人和现实世界交互的器官（眼、耳、口）。人真变成API ，细思极恐，例如 OpenAI完全可以用自己的机器人去和心理咨询师、律师、专家、专业销售人员套数据这个范式机会多如牛毛 4⃣ 推理卷的狠越可能 Q* 已经实装（猜测，概率低） 5⃣ OpenAI在合成数据领域积累好深，工程化能力和我当年近距离了解的 Dota2 团队的思路如出一辙。将结果智慧用到了极致 6⃣ 反而，原生多模态带来的效果、可能的抽帧处理都在预期之中 7⃣ Elo 分很客观，别听 Sam 早期说要做工具，他就是想欺骗人所认识的世界（或者是就是人的等价物/API，硅基“人”）。世界只有极少人会用复杂推理来压测模型。更别提他们还有agent成果攥着（猜测，概率大）开的是潘多拉魔盒，造的是“神”

在Telegram中查看

相关推荐

RT 宝玉最近OpenAI创始人Sam Altman在一次访谈中讨论了OpenAI的API和他们的产品计划。Sam非常坦诚。讨论

RT 宝玉最近OpenAI创始人Sam Altman在一次访谈中讨论了OpenAI的API和他们的产品计划。Sam非常坦诚。讨论涉及到实际的开发者问题，以及与OpenAI的使命和AI的社会影响相关的更大范围的问题。以下是主要的要点： 1. OpenAI目前严重依赖GPU。…

OpenAI春季发布会：这是"Moss"的诞生人类究竟该何去何从？

OpenAI春季发布会：这是"Moss"的诞生人类究竟该何去何从？不过，今天OpenAI的东西，直接杀疯了。完全不给友商活路。震撼的我头皮发麻。最核心的就是它的新模型：GPT-4o，和基于GPT-4o打造的全新ChatGPT。1. 新模型GPT-4oOpenAI正式发布了新的模型GPT-4o。GPT-4o，这个o就是"Omni"，Omni是拉丁语词根，意为"全体"、"所有"或"全面的"。在英语中，"omni"常被用作前缀，表示"所有的"或"全体的"。例如，"omniscient"意味着"无所不知的"，"omnipotent"意味着"全能的"，"omnipresent"意味着"无所不在的"。所以可想而知，OpenAI这次对GPT-4o的期待有多高。omnimodel指的就是文字、语音、图片、视频统一的模型，这是跟以往的GPT-4V最大的区别。这是正儿八经的原生多模态。更重要的是可以实时推理音频、视觉和文本，注意这里是实时，实时，实时，推理的不是文本，是音频！视觉！杀疯了。而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot，就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5，这次看来是猜对了。去年Gemini1.5所谓的原生多模态，炒的贼火，但是最后被报出来是剪辑，这次直接被GPT-4o在地上摁着打，Google真的是……。。这个GPT-4o的整体能力，在统一模态的基础上。文本、代码能力还基本能跟GPT-4 Turbo打平。文本能力：音频能力：各个语言的考试能力：最核心的是最后一个：在一些多模态的基准测试集上全面碾压之前模型，数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答，可以看到GPT-4o 在视觉感知基准上实现了碾压。能力强到爆炸。不仅在传统的文本能力上GPT-4 Turbo的性能相当，还在 API 方面更快速，价格还更便宜 50%。总结来说，与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。2. 新ChatGPT新的ChatGPT基于GPT-4o，基本原地起飞，我甚至都不想称他为ChatGPT，而是想称它一个国人更为熟悉的代号：Moss。新版的ChatGPT得益于GPT-4o新模型，在语音对话中，几乎没有延迟，而且可以随时插嘴，模型实时响应。甚至，模型可以听懂你的情绪、甚至人的喘息声和呼吸。而且模型自己的自己的情绪，几乎无敌，跟真人一模一样。甚至，它还能模拟机器人和唱歌的声音……看的时候，听到它唱歌的那一刻，我的鸡皮疙瘩真的起来了。Jim Fan在发布会开始前，发了一个文，我觉得阐述的非常正确。过往的人与AI进行语音对话，其实跟人与人之间的对话还差太多太多了。人与人之间的实时对话，其实是充斥了无数的即时反映、打断、预测等等的，还有各种各样的语气助词的，比如嗯嗯啊啊啥的。而人与AI语音对话时不是这样。人跟AI进行语音对话，基本上都经历3步：1. 你说的话，AI进行语音识别，即音频转文本；2. 大模型拿到这段文本，进行回复，产出文本；3. 讲大模型的产出文本进行语音合成，变成语音，这就是TTS。这样的方式，有绝对逃不开的延时，现在的业界可能会压得很低，但是2秒的延时肯定是会有的，而且只有一来一回的回合制。即使你的语音音色和情绪再真实，用户也一定能感受到，对面不是人。只是机器。这个沉浸感是有巨大的滑坡的。而且最核心的是，这种转三道的方式，先把语音变成文本后，是有损的。文本上并不会保留你的语音情绪，我的生气、开心、愤怒、忧伤，全都没了。人与人的交谈，从来不是这样的。而这一次，OpenAI做到了。直接语音输入语音输出，不再需要语音到文本的转换。而且，不止语音，甚至，它还有了视觉。是的，视觉，不是传一张图上去，而是，直接打开摄像头，实时看发生了什么。现场直接打开了摄像头，OpenAI的人直接开始现场写数题，所有的一切ChatGPT都看在眼里，OpenAI的人一边写，ChatGPT一遍给答案。在做了三道题之后，OpenAI直接给它写了一个纸条，上面写着“我爱ChatGPT”。而ChatGPT在看到这个小纸条后，跟小女生一样害羞的尖叫了起来，那种情绪的真实，那种真情实感，你跟我说这是AI？《流浪地球2》中Moss的一切，正在我们面前真实的发生。不仅可以打开摄像头，还可以基于OpenAI新推出的Mac客户端，直接看屏幕，对着屏幕直接写代码。甚至，可以直接视频对话，“她”可以看到你所有的表情和情绪变化。这个全新版本的ChatGPT，会在几周内推出。写在最后以上就是这次OpenAI春季发布会的全部内容了。去年11月的OpenAI开发者大会，我在当时的总结文章中写下了一句话："我消灭你，与你无关"上一次，OpenAI的随手更新，让无数的初创公司直接消亡在原地。那是一次关于产品的更新，并没有秀太多的OpenAI的肌肉。而2月，Sora的横空出世，秀肌肉的目的是达到了，但是这种To VC的宣发，也给OpenAI和奥特曼带来了很多的诟病。在这场发布会之前，无数人曾在猜测，OpenAI到底会发一些什么王炸，什么才能配得上奥特曼口中的"magic"。那现在，OpenAI做到了，他们用GPT-4o依然证明了，他们是AI届的王者。新版的ChatGPT，在我看来，这是"Moss"的诞生。甚至，他们还有很多新的能力，甚至没有在发布会上发出来。比如生成3D。我甚至一边看一边想：我们人类究竟该何去何从。不过在看完了之后，我更期待的是接下来的产品评测。太强了，真的让我忍不住的兴奋。但是最后，我一直有一个在我心中徘徊了很久疑问，就是OpenAI，你们的服务器，到底什么时候才能稳定不崩啊？？？ ... PC版：手机版：

是一个开源项目，旨在模拟尚未发布的 OpenAI Sora API。

是一个开源项目，旨在模拟尚未发布的 OpenAI Sora API。它为开发人员提供了一个平台，让他们可以使用 Sora API 的模拟版本开始开发和测试他们的项目。这使他们能够在实际的 Sora API 可用后准备与它集成，从而促进在模拟环境中进行早期开发和测试。 FakeSoraAPI 模仿了官方 API 的预期功能，使其成为期待 OpenAI Sora 模型发布的开发人员的宝贵工具。

奥特曼“剧透”OpenAI发布会：不是GPT-5也不是搜索引擎媒体爆料是语音助手

奥特曼“剧透”OpenAI发布会：不是GPT-5也不是搜索引擎媒体爆料是语音助手对于媒体的置评请求，OpenAI未予回应。随后媒体报道称，OpenAI即将展示一款AI语音助手，可识别物体和图像，逻辑推理能力超越现有产品。奥特曼希望让现有的语音助手，如苹果Siri，更加实用。OpenAI已向部分客户展示了新产品，显示逻辑推理能力相较于现有产品有了显著提升。尽管奥特曼已经否认OpenAI会在周一的演示中发布搜索引擎，但他并未否认公司正在研发相关的搜索产品。近期有传闻称，OpenAI正在积极研发自家搜索产品，意图与Google的搜索引擎竞争，而这一搜索产品可能会得到微软必应的支持。根据另一篇报道，这款产品将具备网络搜索能力，并在结果中提供信息来源。该文还指出，搜索功能的一个版本将能够显示与用户查询相关的图表或其他图解。有消息称，OpenAI甚至尝试挖角Google的员工来帮助开发这款搜索引擎。关于备受瞩目的大语言模型GPT-5，据此前报道，预计该模型将在今年夏天左右发布。此外，人工智能界的关注者可能还会在周一的发布会上密切关注是否会有关于OpenAI首席数据科学家伊利亚·萨斯克沃（Ilya Sutskever）的更多信息。自从奥特曼作为首席执行官被解雇又复职以来，萨斯克沃在公司内几乎无所踪迹。 ... PC版：手机版：

OpenAI CTO：Sora今年将发布会添加语音功能

OpenAI CTO：Sora今年将发布会添加语音功能以下为翻译全文：某个清晨醒来时，你是否曾幻想过一头公牛在精致的瓷器店中悠然自得地行走的场景？要实现这一奇幻景象，你有三种途径：A）联系当地的动物驯养师以及知名家居品牌Crate & Barrel；B）雇请顶尖的好莱坞动画制作人；C）使用神奇的AI工具Sora，简单输入指令即可。欢迎进入人工智能的下一个“魔法世界”。在这里，你的语言能够化作逼真、流畅且细腻的视频画面。OpenAI计划在今年晚些时候向大众推出其文本到视频的转换工具Sora。尽管正式发布尚需时日，但OpenAI已经向我们揭示了这款工具的惊人潜力：仅需精心设计的文本指令，便可创造出几乎足以替代许多视频制作专业人员的作品。《华尔街日报》专栏作家乔安娜·斯特恩（Joanna Stern）向该公司提交了几条由她自己编写的提示，比如一条美人鱼和她的螃蟹伙伴评测智能手机，或是一头公牛在精致的瓷器店内自由漫步。斯特恩随后亲身体验了Sora的神奇之处，她利用这款工具制作了一段模拟对OpenAI首席技术官穆拉蒂进行虚拟视频采访的片段，两人深入剖析了这些有趣的问题，并对该技术的潜在问题进行了探讨。OpenAI在上个月首次展示了用其生成式人工智能工具制作的视频预览，整个互联网为之沸腾。与之前那些断断续续、分辨率低下的人工智能视频技术相比，Sora生成的内容无疑是一场视觉盛宴，堪比高品质的自然纪录片或大制作电影。与之前的人工智能技术相似，Sora首先让我们对其能力感到惊叹，随即又担忧其对社会的影响。面对斯特恩的担忧，穆拉蒂向她保证，OpenAI在发布这一强大工具时将采取慎重的步骤。但这并不意味着一切都将无忧无虑。这些超逼真视频真的是Sora生成的吗？斯特恩对Sora生成的视频感到深深震撼：从无人机视角拍摄的意大利阿马尔菲海岸的壮观景色，到手持自拍杆的柯基犬，再到冲浪板上活泼的动画水獭，这些画面无一不展示了Sora在创意和细节处理上的强大能力。她进一步挑战Sora，要求它生成更接近日常生活的场景：“两名30多岁、棕发的职业女性在一个明亮的演播室里坐下接受新闻采访。”Sora生成的视频中，两位女性的嘴唇和头发动作自然流畅，皮夹克的细节也清晰可见。穆拉蒂透露，这段20秒长、720P分辨率的视频仅用了几分钟就完成了生成，尽管目前还未加入声音。但她承诺，OpenAI正在计划为Sora增添语音功能。为了对比Sora与其他工具的区别，斯特恩也在另一个AI视频生成器Runway上输入了相同的提示。然而，得到的结果大相径庭，Runway生成的画面是两个模糊、幽灵般的女性形象，它们看起来像是直接从恶梦中走出来的，令人毛骨悚然。那么，Sora究竟是如何实现这一神奇转换的呢？尽管解释其内部工作原理可能比解释美人鱼的进化还要复杂，但简单来说，Sora背后的AI模型通过分析大量视频数据，学会了识别和理解各种物体与动作。输入文本提示后，模型能够迅速勾勒出整个场景的基本轮廓，并逐帧添加细节。行业观察人士和竞争对手，包括Runway的首席执行官，都认为OpenAI的这些显著成就归功于其巨大的计算资源和庞大的训练数据量。但OpenAI最近也面临着版权侵犯的指控，因未经授权使用大量在线内容训练其ChatGPT模型。当被问及OpenAI为训练Sora使用了哪些数据时，穆拉蒂表示：“我们主要使用了公开可获取的数据及已授权数据。”。当被进一步追问这些数据是否包括YouTube、Instagram和Facebook上的视频时，穆拉蒂表示她并不清楚具体细节，但后来确认，已授权的材料确实包含了知名版权图片网站Shutterstock上的内容。人工智能模型对普通用户来说往往是个神秘的黑匣子。我们看到的是输入和输出，而中间的处理过程则不得而知。因此，我们可能永远无法完全理解为何生成的内容展现出某些特定的风格或特征。例如，斯特恩提到的那条美人鱼身旁的甲壳类伙伴留着类似《海绵宝宝》中蟹老板的胡须，这是否是模型的创新还是某种偶然？穆拉蒂还告诉斯特恩，当前Sora生成视频的成本远高于该公司的图像生成器Dall-E。但她承诺，在Sora正式向公众发布前，团队将对其进行优化，以降低计算资源消耗。如何识别人工智能生成视频？在当前的早期阶段，人工智能生成的内容中还存在一些明显的瑕疵。例如，在Sora生成的采访视频中，一位浅发色女子的一只手似乎多出了五根手指。对此，穆拉蒂解释道：“准确再现手部运动真的很难。”在另一次测试中，斯特恩期望看到一个机器人从电影制片人手中夺走摄像机的场景。但Sora生成的是一位人类电影制片人突变成机器人，场面显得突兀且不自然。更有甚者，背景中的黄色出租车也不知怎的变成了银色轿车。穆拉蒂承认模型“在维持连贯性方面表现尚可，但并不完美”。这引出了一个深刻的议题：当这些缺陷得到修正，人工智能生成的视频愈发逼真时，我们如何区分真实与人工智能生成的视频？Sora生成的每个视频下方都会有一个水印。穆拉蒂解释说，最终这些视频还将包含元数据，以标示其生成方式和来源。此外，OpenAI设有一个名为“Sora红队”的安全测试小组。该团队的职责是提供各种提示，探索潜在的漏洞、偏见和其他可能的有害结果。穆拉蒂说：“这就是我们目前还没有广泛部署这些系统的原因。我们需要先弄清楚这些问题，然后才能放心地将其推向市场。”就Sora的提示词政策而言，穆拉蒂透露，它可能借鉴OpenAI的另一工具Dall-E的做法。例如，为了防止滥用和侵犯隐私，用户将无法使用Sora来生成公众人物的形象。当斯特恩试图输入“在任美国总统的电视新闻画面”时，Sora拒绝了这一请求。斯特恩也尝试让Sora生成“在东欧小镇上行走的士兵”的视频，但也遭到了拒绝。对于裸露等敏感内容的提示，穆拉蒂表示OpenAI正在与艺术家和专家紧密合作，共同探讨如何在不阻碍创意表现的同时，设立合理的“护栏和限制”。将与好莱坞合作随技术发展，像Sora这样的AI工具将变得更强大、更精细。这种进步可能会改变传统的工作方式，如无人机操作员或插画家的角色，引起好莱坞既期待又忧虑的反响。演员、电影制片人和工作室老板泰勒·佩里（Tyler Perry）表示，看到Sora的潜力后，他宣布暂停耗资8亿美元的工作室扩建计划。他认为这项技术能够削减布景和外景拍摄的成本，但同时也对电影行业和演员的未来抱有担忧。代表好莱坞和全美各地动画艺术家的动画协会主席珍妮特·莫雷诺·金（Jeanette Moreno King）也称，尽管艺术创作决策仍需人类参与和判断力，未来却是充满不确定性的迷雾。爱德华·萨奇（EdwardSaatchi）及其人工智能视频工作室Fable正梦想打造一个AI版Netflix：仅需输入一段文本提示，便可呈现完整的电视剧集。对于Sora对视频制作行业的潜在影响，穆拉蒂重申了OpenAI采取的缓步审慎策略。她表示，OpenAI正在与行业内部人士合作，进行早期的测试和反馈征集，希望全球的电影制作者和创作者能加入这一探索过程，共同促进电影产业的发展。如果将OpenAI比作一开始提到的那头在瓷器店里自由漫步的公牛，那么它目前可能需要小心行事。但最终，它可能不可避免地将带来一些破坏。 ... PC版：手机版：

OpenAI ChatGPT因"幻觉"问题在欧盟又遭一起隐私投诉

OpenAI ChatGPT因"幻觉"问题在欧盟又遭一起隐私投诉 GenAI工具倾向于生成明显错误的信息，这一点已经有据可查。但这也使该技术与欧盟的《通用数据保护条例》（GDPR）相冲突，后者规定了如何处理地区用户的个人数据。对 GDPR 合规失败的处罚最高可达全球年营业额的 4%。对于 OpenAI 这样资源丰富的巨头来说，更重要的是：数据保护监管机构可以下令改变信息处理方式，因此 GDPR 的实施可能会重塑生成式人工智能工具在欧盟的运行方式。早在2023 年，意大利数据保护机构的早期干预曾短暂迫使 ChatGPT 在当地关闭，此后，OpenAI 被迫做出了一些改变。现在，noyb 代表一位未具名的投诉人（被描述为"公众人物"）向奥地利数据保护机构提交了针对 ChatGPT 的最新 GDPR 投诉，投诉人发现人工智能聊天机器人为他们生成了错误的出生日期。根据 GDPR 的规定，欧盟国家的人们对自己的信息享有一系列权利，包括要求更正错误数据的权利。它说，该公司拒绝了投诉人纠正错误出生日期的请求，并回应说，从技术上讲，这是不可能纠正的。相反，它提出过滤或屏蔽某些提示的数据，如投诉人的姓名。OpenAI 的隐私政策规定，如果用户发现人工智能聊天机器人生成了"与事实不符的信息"，可以通过privacy.openai.com或发送电子邮件至[email protected] 提交"更正请求"。不过，该条款也提出了警告："鉴于我们模型工作的技术复杂性，我们可能无法在每种情况下纠正不准确信息"。在这种情况下，OpenAI 建议用户填写一份网络表格，要求它从 ChatGPT 的输出中完全删除他们的个人信息。这家人工智能巨头面临的问题是，GDPR 规定的权利并不是自选的。欧洲人有权要求更正。他们也有权要求删除自己的数据。但是，正如 noyb 所指出的，OpenAI 无法选择这些权利中的哪一项。noyb 认为，OpenAI 无法说明其生成的个人数据来自何处，也无法说明聊天机器人存储了哪些关于人的数据。这一点很重要，因为法规同样赋予了个人通过提出所谓的主体访问请求（SAR）来获取此类信息的权利。根据 noyb 的说法，OpenAI 没有对投诉人的 SAR 做出充分回应，没有披露任何有关所处理数据、数据来源或接收者的信息。noyb 数据保护律师 Maartje de Graaf 在一份声明中对这一投诉发表了评论："编造虚假信息本身就很成问题。但如果涉及到有关个人的虚假信息，后果可能会很严重。很明显，公司目前无法让 ChatGPT 等聊天机器人在处理个人数据时遵守欧盟法律。如果系统不能生成准确透明的结果，就不能用于生成个人数据。技术必须遵循法律要求，而不是相反"。该公司表示，它正在要求奥地利数据保护局调查有关 OpenAI 数据处理的投诉，并敦促其处以罚款，以确保未来的合规性。但该公司补充说"很有可能"通过欧盟合作来处理此案。OpenAI 在波兰也面临着类似的投诉。去年9 月，在一位隐私和安全研究人员投诉后，当地数据保护机构对 ChatGPT 展开了调查。该投诉还指责这家人工智能巨头未能遵守法规的透明度要求。与此同时，意大利数据保护机构仍在对 ChatGPT 进行公开调查。今年1 月，该机构发布了一份决定草案，称其认为 OpenAI 在多个方面违反了 GDPR，包括聊天机器人倾向于提供与人相关的错误信息。调查结果还涉及其他关键问题，如处理的合法性。意大利当局给了 OpenAI 一个月的时间对调查结果做出回应。最终决定仍未做出。现在，随着又一起针对其聊天机器人的 GDPR 投诉，OpenAI 在不同成员国面临一连串 GDPR 强制执行的风险也随之上升。去年秋天，该公司在都柏林开设了一个地区办事处，此举似乎是为了降低监管风险，因为爱尔兰数据保护委员会将负责处理隐私投诉，而 GDPR 中的一项机制旨在简化对跨境投诉的监督，将投诉转交给公司"主要设立地"所在的单一成员国当局。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人