微软宣布推出了新版小型语言模型 Phi-3,这款模型能够查看图片并告诉你图片中有什么。
微软宣布推出了新版小型语言模型 Phi-3,这款模型能够查看图片并告诉你图片中有什么。 Phi-3-vision 是一种多模态模型,也就是说它能同时处理文本和图像,而且最适合在移动设备上使用。微软表示,现已提供预览的 Phi-3-vision 是一个拥有 42 亿参数的模型(参数指的是模型的复杂程度以及它对训练内容的理解程度),能够执行一般的视觉推理任务,比如对图表或图片提出问题。 但是,Phi-3-vision 的规模远小于其他以图像为中心的人工智能模型,比如 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion。与这些模型不同,Phi-3-vision 并不生成图像,但它能理解图像中的内容,并为用户分析这些内容。 标签: #微软 #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人