相关推荐

ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

ChatGPT现在可以看到、听到和说话——GPT-4多模态版本上线OpenAI开始在ChatGPT中推出新的语音和图像功能，允许您进行语音对话或向ChatGPT展示画面。Plus和企业用户将在未来两周内体验语音和图像，不久后推出给其他用户组，包括开发人员。图像理解由多模态GPT-3.5和GPT-4提供支持，你现在可以向ChatGPT展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。文本转语音由新的模型提供支持，它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT的预设语音来自直接合作的专业配音演员。语音转文本由OpenAIWhisper模型支持。投稿：@ZaiHuaBot频道：@TestFlightCN

数据分析神器：ChatGPT 上线 GPT-4 以来最强应用“代码解释器”

数据分析神器：ChatGPT上线GPT-4以来最强应用“代码解释器”OpenAI的语言模型ChatGPT最近推出了新功能：代码解释器（CodeInterpreter）。这个新功能已经对所有Plus订阅用户开放，代码解释器扩展了ChatGPT的功能，为用户带来了更好的交互式编程体验和强大的数据可视化功能。有了它之后，即使不是程序员，只需要用自然语言向ChatGPT下达指令，也可以完成需要复杂编程技术的任务。使用代码解释器非常简单，用户只需点击ChatGPT平台上的个人资料名，从下拉菜单中进入设置，选择“Beta功能”，就可以找到代码解释器的选项，然后开启即可。代码解释器对于经常使用代码和数据的专业人士和爱好者都非常有用，这是一个多功能的工具，可以用于分析数据、创建图表、编辑文件、执行数学运算等等。——

数据分析神器：ChatGPT上线GPT-4以来最强应用“代码解释器”#抽屉IT

Google 推出原生多模态 AI 模型 Gemini，挑战GPT-4

Google推出原生多模态AI模型Gemini，挑战GPT-4https://abmedia.io/google-ai-model-gemini?utm_source=rss&utm_medium=rss&utm_campaign=google-ai-model-gemini&utm_source=rss&utm_medium=rss&utm_campaign=google-ai-model-gemini

微软：多模态大模型GPT-4下周就出

微软：多模态大模型GPT-4下周就出最新消息是，万众期待的GPT-4下周就要推出了：在3月9日举行的一场名为“AIinFocus-DigitalKickoff”的线下活动中，四名微软德国员工展示了GPT系列等大型语言模型（LLM）的颠覆性力量，以及OpenAI技术应用于Azure产品的详细信息。在活动中，微软德国首席技术官AndreasBraun表示GPT-4即将发布，自从3月初多模态模型Kosmos-1发布以来，微软一直在测试和调整来自OpenAI的多模态模型。GPT-4，下周就出“我们将在下周推出GPT-4，它是一个多模态的模型，将提供完全不同的可能性——例如视频（生成能力），”Braun说道，他将语言大模型形容为游戏规则改变者，因为人们在这种方法之上让机器理解自然语言，机器就能以统计方式理解以前只能由人类阅读和理解的内容。与此同时，这项技术已经发展到基本上“适用于所有语言”：你可以用德语提问，然后用意大利语得到答案。借助多模态，微软和OpenAI将使“模型变得全面”。微软德国CTOAndreasBraun。改变业界微软德国公司首席执行官MarianneJanik全面谈到了人工智能对业界的颠覆性影响。Janik强调了人工智能的价值创造潜力，并表示，当前的人工智能发展和ChatGPT是“iPhone发布一样的时刻”。她表示，这不是要代替人类工作，而是帮助人们以不同于以往的方式完成重复性任务。改变并不一定意味着失业。Janik强调说，这意味着“许多专家会开始利用AI实现价值增长”。传统的工作行为正在发生变化，由于新的可能性出现，也会产生全新的职业。她建议公司成立内部“能力中心”，培训员工使用人工智能并将想法整合到项目中。此外，Janik还强调，微软不会使用客户的数据来训练模型（但值得注意是，根据ChatGPT的政策，这不会或至少不会适用于他们的研究合作伙伴OpenAI）。微软德国CEOMarianneJanik。实际用例微软的两位AI技术专家ClemensSieber和HolgerKenn提供了关于AI实际使用的一些信息。他们的团队目前正在处理具体的用例，他们讲解了用例涉及的技术。Kenn解释了什么是多模态人工智能，它不仅可以将文本相应地翻译成图像，还可以翻译成音乐和视频。除了GPT-3.5模型之外，他还谈到了嵌入，用于模型中文本的内部表征。根据Kenn的说法，“负责任”的AI已经内置到微软的产品中，并且可以通过云将数百万个查询映射到API中。ClemensSiebler则用用例说明了今天已经成为可能的事情，例如可以把电话呼叫的语音直接记录成文本。根据Siebler的说法，这可以为微软在荷兰的一家大型客户每天节省500个工作小时。该项目的原型是在两个小时内创建的，一个开发人员在两周内完成了该项目。据他介绍，三个最常见的用例是回答只有员工才能访问的公司信息、AI辅助文档处理和在呼叫中心处理口语的半自动化。微软表示人们很快就会与其全新的AI工具见面。特别是在编程领域，Codex和Copilot等模型可以更轻松地创建代码，令人期待。当被问及操作可靠性和事实保真度时，Siebler表示AI不会总是正确回答，因此有必要进行验证。微软目前正在创建置信度指标来解决此问题。通常，客户仅在自己的数据集上使用AI工具，主要用于阅读理解和查询库存数据，在这些情况下，模型已经相当准确。然而，模型生成的文本仍然是生成性的，因此不容易验证。Siebler表示微软围绕生成型AI建立了一个反馈循环，包括赞成和反对，这是一个迭代的过程。看来在AI大模型的竞争中，领先的一方也加快了脚步。微软在过去一周左右接连发布了展示多模态的语言大模型论文Kosmos-1和VisualChatGPT，这家公司显然非常支持多模态，希望能够做到使感知与LLM保持一致，如此一来就能让单个AI模型看文字图片，也能“说话”。微软的下次AI活动选在了3月16日，CEO萨蒂亚・纳德拉将亲自上台演讲，不知他们是否会在这次活动上发布GPT-4。有趣的是，微软的活动和百度推出文心一言选在了同一天。距离3月16日百度推出类ChatGPT聊天机器人还有一周时间，最近有报道称，百度正在抓紧时间赶在发布最后期限前完成任务。目前看来，百度打算分阶段推出文心一言的各项功能，并首先向部分用户开放公测。知情人士称，在春节假期过后，李彦宏就要求包括自动驾驶部门在内的全公司AI研究团队将英伟达A100支援给文心一言的开发。我们期待下周各家科技公司能带来惊喜。...PC版：https://www.cnbeta.com.tw/articles/soft/1348807.htm手机版：https://m.cnbeta.com.tw/view/1348807.htm

ChatGPT王炸升级：更强版GPT-4上线 API定价打骨折发布现场掌声没停过

ChatGPT王炸升级：更强版GPT-4上线API定价打骨折发布现场掌声没停过接下来，“创业导师GPT”就可以根据奥特曼本人过去的演讲内容，回答创业相关问题。刚刚出炉的新GPT，可以在公司内部共享或对所有人公开。从此，“GPT开发者”像“iOS开发者”一样成为了新的职业，让AI替你赚钱的梦想成真了。与此同时，现有的GPT-4也迎来一大波更新。新版本GPT-4Turbo，支持128k上下文，知识截止更新到2023年4月，视觉能力、DALL·E3，文字转语音TTS等等全都对API开放……API价格还打了3-5折。这边发布会进行着，ChatGPT网页版同步更新，最新知识截止现场就实装了。对这次发布的种种，OpenAI创始成员AndrejKarpathy总结到“在计算中看到了一个新的抽象层”。将会有更多的开发者和更多的GPT。GPT可以读、写、听、说、看、画、思考，使用现有计算作为工具，成为重点领域的专家，参考自定义数据，在数字世界中采取行动，以自定义方式说话或行动，以及共同协作。系好安全带。每个人都能定制GPT这一次的最重磅更新，当属GPTs。它让过去一段时间里大家想象的GPT帮你做一切，成为现实。无需编程，每个人通过对话聊天的方式，即可构建一个专属技能的GPT。而且每个人能同时拥有多个专长GPT，可以是你自己创建的，也能从GPTs商店里拿别人的来用。OpenAI透露GPTs商店将在本月晚一点的时候推出。这意味着你能靠制作专属GPT来赚钱了。具体能干啥？它能成为你的宠物顾问，基于多模态能力解答毛孩子遇到的各种问题。也能充当设计助手，按要求生成海报。还能帮你给朋友发消息，奥特曼现场就收到了一条由ChatGPT代发的信息。而且构建过程并不难，奥特曼在现场亲自演示了一遍。整个过程就是和构建助手GPTBuilder唠嗑，告诉它你想要做什么即可。奥特曼说，想要构建一个创业公司助手，能够给创始人提供各种商业建议，并且不断拷问他们为啥不能发展得更快（现场爆笑）。然后GPTBuilder就输出了一个GPT，它会更进一步询问用户给新生GPT做更多定制信息。比如希望突出哪些方面、规避哪些问题等。同时用户能控制构建的GPT能不能上网、是否具备图像生成、代码生成能力，以及上传知识文档加强专业能力。现场只进行了3轮和GPTBuilder的对话，就构建好了一个StartupMenter。用户可以设置这个GPT是仅自己可用，还是能和他人共享。由此企业可以构建一个仅限内部使用的GPT。本周三企业用户就能使用GPTs了。同时OpenAI强调，他们已经构建了新系统来筛查监管这些自定义GPT，以防出现有害GPT。多模态API来了既然是开发者日，API的更新也是重头戏，总共分为两大项：现有GPT-4API升级为GPT-4Turbo全新的AssistantAPI，包括检索、代码解释器等功能。GPT-4Turbo版本主打一个非常6+1，6项能力增强+大降价。上下文窗口提高到128k，相当于一次能输入300页的书籍更多控制：保证输出格式的JSON模式新增seed（随机种子值）参数，实现可重复的输出未来几周内还将追加logprobs参数，查看模型最有可能的输出概率分布知识截止到2023年4月多模态视觉、DALL·E3和语音合成API一起开放开放GPT-4微调双倍GPT-4调用速率限制当然GPT3.5Turbo也更新到1106的新版本，在内部评估中，格式遵循任务（例如生成JSON、XML和YAML）提高了38%。接下来还有一个重头戏，AssistantsAPI，也是让开发者在自己的应用程序中构建类似Agent体验的第一步。AssistantAPI拥有持久且无限长的线程，允许开发人员将线程状态管理移交给OpenAI并解决上下文窗口约束。支持检索功能，利用模型之外的知识来增强，例如专有领域数据、产品信息或用户提供的文档。支持代码解释器功能，与ChatGPTPlus中的一样，可以在沙盒执行环境中编写和运行Python代码，可以生成图形和图表，并处理具有多种数据和格式的文件。函数调用功能也迎来更新，现在可以一次性调用多个函数，并把响应合并到消息输出中。发布会现场演示了构建Assistant的过程，只需要自然语言描述指令，以及勾选启用的工具。接下来就能在应用程序中调用，在得到10个巴黎旅游景点的同时更新地图标记。在检索和函数调用演示中，让AI给每个线下参加活动的观众账号发了500美元的使用额度，狠狠羡慕了。对于没有线下参会的更多开发者，OpenAI也准备了API降价大礼包。GPT-4Turbo的输入降价到原来的1/3，为1美分每千token。输出降价到原来的1/2，为3美分每千token。同时不再设置上下文长度区分，统一128k，与原来的gpt-4-32k版本相比更为划算。AssistantsAPI这边，代码解释器按会话次数收费，每次三美分。检索则根据容量和天数收费。并且在11月17日之前，还有10天的免费试用。OneMoreThing针对近期OpenAI与微软不合，在销售上产生摩擦的传闻，OpenAI这次拉来了微软CEO纳德拉站台表态。纳德拉表示，两家公司有着科技圈里最好的关系:我们负责做最好的基础设施，你们负责做最好的模型。与此同时，刚刚连发了两大大模型产品的马斯克，在联机打暗黑四。...PC版：https://www.cnbeta.com.tw/articles/soft/1394979.htm手机版：https://m.cnbeta.com.tw/view/1394979.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人