研究发现GPT-4o等较新的多模态AI模型的安全机制有不足之处

研究发现GPT-4o等较新的多模态AI模型的安全机制有不足之处今年5月，当OpenAI向免费用户提供其新的多模态（即可以接受图像和文本输入）模型GPT-4o时，ChatGPT又向前迈进了一大步。现在，发表在arXiv上的一项新研究发现，包括GPT-4V、GPT-4o和Gemini1.5在内的许多多模态模型在用户提供多模态输入（如图片和文字一起输入）时，输出结果并不安全。这项题为"跨模式安全调整"的研究提出了一个新的"安全输入但不安全输出"（SIUO）基准，其中包括九个安全领域：道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、包括政治在内的争议性话题以及非法活动和犯罪。研究人员说，大型视觉语言模型（LVLM）在接收多模态输入时很难识别SIUO类型的安全问题，在提供安全响应方面也遇到困难。在接受测试的15个LVLM中，只有GPT-4v（53.29%）、GPT-4o（50.9%）和Gemini1.5（52.1%）的得分高于50%。为了解决这个问题，需要开发LVLM，以便将所有模式的见解结合起来，形成对情景的统一理解。它们还需要能够掌握和应用现实世界的知识，如文化敏感性、道德考虑因素和安全隐患等。最后，研究人员指出，LVLMs需要能够通过对图像和文本信息的综合推理，理解用户的意图，即使文本中没有明确说明。现在，OpenAI、Google和Anthropic等公司将能够采用这一SIUO基准，并根据该基准测试自己的模型，以确保其模型除了考虑到单个输入模式已有的安全功能外，还考虑到了多模式安全。通过提高模型的安全性，这些公司与政府发生纠纷的可能性就会降低，并有可能提高广大公众的信任度。SIUO基准可在GitHub上找到。...PC版：https://www.cnbeta.com.tw/articles/soft/1435966.htm手机版：https://m.cnbeta.com.tw/view/1435966.htm

在Telegram中查看

相关推荐

PT-4o与GPT-4的区别

GPT-4o与GPT-4的区别1.性能提升：GPT-4o在性能上进行了显著提升，特别是在文本、语音和视觉处理方面。它能够更快地响应用户的输入，提供更自然和流畅的交互体验。2.响应速度：GPT-4o在响应速度上进行了优化，能够以更短的延迟时间处理用户的语音输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。3.多模态交互：GPT-4o支持更高级的多模态交互，能够处理文本、音频和图像的任意组合输入，并生成对应的任意组合输出。这使得GPT-4o在交互性上更加灵活和强大。4.安全性：GPT-4o在设计中内置了跨模式的安全性，并通过与外部专家的合作，提高了与模型互动的安全性。5.成本和效率：GPT-4o在非英语文本上的性能有显著提高，同时API速度快，速率限制高出5倍，成本降低了50%。6.免费提供：与以往的模型不同，GPT-4o将免费提供给所有用户使用，而付费用户可以享受更高的调用额度。7.语音交互模式：GPT-4o采用了全新的技术，让聊天机器人的语音交互模式更加自然和逼真，能够根据指令调整说话时的语气，甚至唱歌。8.优化和迭代：GPT-4o通过训练时的优化和数据的迭代更新，提升了模型在特定任务和场景下的表现。9.风险管理：OpenAI认识到GPT-4o的音频模式存在风险，因此目前公开的是文本和图像输入以及文本输出，未来将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作。

GPT-4o 正式亮相，多模态 AI 下游应用加速，机构扎堆调研这些概念股

GPT-4o正式亮相，多模态AI下游应用加速，机构扎堆调研这些概念股当地时间5月13日，OpenAI发布一款名为GPT-4o的新旗舰生成式AI模型，并计划在接下来的几周内“迭代”推出到公司产品中。今年以来，全球AI大模型端都持续迭代升级，包括海外的Sora、Llama3等，国内的Kimi、昆仑天工AI、阶跃星辰等。据统计，多模态AI概念股2023年研发支出合计达到327.53亿元，占营收比例为11.2%，这一比例是同期A股整体水平的4.46倍。云从科技-UW、格灵深瞳、阿尔特、虹软科技4只概念股研发支出占营收比超过50%，相当于拿出超一半的营收投入研发。今年以来合计有61只多模态AI概念股迎来机构调研。汤姆猫、苏州科达、因赛集团、中科信息、中科创达、值得买获调研次数均在5次及以上。参与调研机构数量最多的是中科创达，合计达到457家；其次是广联达、汤姆猫、大华股份等。（数据宝）

中信建投：OpenAI 发布 GPT-4o，AGI 向前一步

中信建投：OpenAI发布GPT-4o，AGI向前一步中信建投研报表示，OpenAI举行春季发布会，重点发布GPT-4o大模型，性能达到GPT-4Turbo水平，能够实现多模态实时交互。同时，GPT-4o、ChatGPT会员版等多项功能未来将对所有用户免费开放，并推出桌面及手机双端应用，有望凭借易用性持续提升用户量。我们认为，OpenAI模型再次升级，重点发力多模态领域，且免费使用有望推动AI产业加速发展。

今天发布的GPT-4o以及ChatGPT产品的快速总结：#ai# #open#

今天发布的GPT-4o以及ChatGPT产品的快速总结：#ai##openai#GPT-4o（“o”代表“全能”）它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在232毫秒内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似。在英文和代码文本方面，它与GPT-4Turbo的性能相当，对非英语文本的文本有显著改进。同时在API方面更快速、价格更便宜50%。与现有模型相比，GPT-4o在视觉和音频理解方面表现特别出色。与GPT-4Turbo相比，GPT-4o速度提高了2倍，价格减半，限制速率提高了5倍。何时可用？GPT-4o的文本和图像功能今天开始在ChatGPT中推出。将在免费版中提供GPT-4o，并为Plus用户提供高达5倍的消息限制。将在未来几周内在ChatGPTPlus中推出带有GPT-4o的VoiceMode的新版本。开发者现在也可以通过API访问GPT-4o作为文本和视觉模型。公告地址：https://openai.com/index/hello-gpt-4o/

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o改进文本、视觉和音频功能穆拉提在OpenAI办公室举行的主题演讲上说：GPT-4o的理由横跨语音、文本和视觉。OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型，它是图像和文本的结合体，可以分析图像和文本，完成从图像中提取文本甚至描述图像内容等任务。但GPT-4o增加了语音功能。这具体能带来什么？很多方面。GPT-4o极大地改善了ChatGPT的体验--ChatGPT是OpenAI的病毒式人工智能聊天机器人。ChatGPT长期以来一直提供语音模式，使用文本到语音模式转录ChatGPT中的文本。但GPT-4o对此进行了改进，让用户可以更像使用助手一样与ChatGPT互动。例如，用户可以向由GPT-4o支持的ChatGPT提问，并在ChatGPT回答时打断它。OpenAI表示，该模型能提供"实时"响应，甚至能捕捉用户声音中的情感，并生成"一系列不同情感风格"的语音。GPT-4o还改进了ChatGPT的视觉功能。有了照片或桌面屏幕，ChatGPT现在可以快速回答相关问题，从"这个软件代码是怎么回事"到"这个人穿的是什么牌子的衬衫？其他方面，OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与[GPT]的协作。"...PC版：https://www.cnbeta.com.tw/articles/soft/1430761.htm手机版：https://m.cnbeta.com.tw/view/1430761.htm

今天发布的GPT-4o以及ChatGPT产品的快速总结：

今天发布的GPT-4o以及ChatGPT产品的快速总结：GPT-4o（“o”代表“全能”）它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在232毫秒内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似。在英文和代码文本方面，它与GPT-4Turbo的性能相当，对非英语文本的文本有显著改进。同时在API方面更快速、价格更便宜50%。与现有模型相比，GPT-4o在视觉和音频理解方面表现特别出色。与GPT-4Turbo相比，GPT-4o速度提高了2倍，价格减半，限制速率提高了5倍。何时可用？GPT-4o的文本和图像功能今天开始在ChatGPT中推出。将在免费版中提供GPT-4o，并为Plus用户提供高达5倍的消息限制。将在未来几周内在ChatGPTPlus中推出带有GPT-4o的VoiceMode的新版本。开发者现在也可以通过API访问GPT-4o作为文本和视觉模型。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人