微软推出最新视觉基础模型Florence-2 可在浏览器运行

微软推出最新视觉基础模型Florence-2 可在浏览器运行该模型支持多种功能，可用于生成图像、识别字符、分割图像、检测物体等等。Florence-2的本地化运行得益于 Transformers.js和ONNX Runtime Web技术的支持。这一突破不仅提高了用户隐私保护水平，还大大降低了使用成本，为AI视觉技术的普及应用铺平了道路。 ... PC版：手机版：

在Telegram中查看

相关推荐

在浏览器里运行最新的深度网络

在浏览器里运行最新的深度网络是一个TypeScript库，可直接在Web浏览器中运行现代深度学习模型。可以轻松将AI功能添加到Web应用程序中，而无需复杂的服务器端基础设施。特征： 1.便于使用。用一行代码创建模型，用另一行代码得到结果。 2.由ONNX 运行时提供支持。Web AI 使用 ONNX runtime for Web 运行模型，它对各种运算符都有丰富的支持。这意味着任何模型都可以正常工作。 3.与Hugging Face hub兼容。Web AI 使用与集线器格式相同的模型配置文件，这使得集成现有模型变得更加容易。 4.内置缓存。Web AI 使用localforage将下载的模型存储在 IndexedDB 中。你可以动态配置缓存的大小。 5.网络工作者支持。所有繁重的操作模型创建和推理都被卸载到一个单独的线程中，因此 UI 不会冻结。

Opera 浏览器现可在 ARM 版 Windows 上原生运行

Opera 浏览器现可在 ARM 版 Windows 上原生运行访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器官方介绍如下：现在，Opera 经过优化，可最大限度地发挥您设备的功能。得益于微软App Assure团队和高通技术公司（Qualcomm Technologies）的支持，Opera最新版本在新一代PC上的运行速度提高了一倍以上*。Opera 致力于在每台设备上提供最佳体验，包括最新的 Arm-powered Windows PC。除了提供更快的性能外，ARM 版 Opera 还将提供更高的能效。该公司称，用户可以将 Snapdragon X 的高能效设计与浏览器的内置电池保护器结合起来，充分利用一次电池充电。那些已经拥有使用 ARM 芯片的电脑的用户也将受益于性能和能效的大幅提升。值得注意的是，到目前为止，ARM 版 Opera for Windows 只能通过开发者渠道提供。不过，稳定版的发布应该不会让用户等待太久。微软和高通公司正准备在今年晚些时候推出一波搭载骁龙 X 处理器的人工智能 PC。两家公司都认为，它们终于可以与苹果的 M 处理器相媲美了，而开发者似乎也支持这一举措。例如，Google最近发布了 ARM64 本机版本的 Chrome 浏览器，考虑到它是世界上最流行的浏览器，这是一件大事。首批内置骁龙 X 芯片的人工智能电脑将在 5 月 20 日的微软发布会上亮相。 ... PC版：手机版：

Transformers.js，在浏览器中运行Transformers | 本项目目前支持BERT、ALBERT、DistilB

Transformers.js，在浏览器中运行Transformers | 本项目目前支持BERT、ALBERT、DistilBERT、T5、T5v1.1、FLAN-T5、GPT2、BART、CodeGen、Whisper、CLIP、Vision Transformer和VisionEncoderDecoder模型，用于各种任务，包括：屏蔽语言建模、文本分类、文本到文本生成、翻译、摘要、问答、文本生成、自动语音识别、图像分类、零样本图像分类和图像到文本。

是一个结合了视觉基础模型的系统，使用户能够超越语言格式与 ChatGPT 交互，解决复杂的视觉任务。

是一个结合了视觉基础模型的系统，使用户能够超越语言格式与 ChatGPT 交互，解决复杂的视觉任务。 ChatGPT 正在吸引跨领域的兴趣，因为它提供了一种语言界面，具有跨多个领域的卓越对话能力和推理能力。然而，由于 ChatGPT 是用语言训练的，它目前无法处理或生成来自视觉世界的图像。同时，Visual Foundation Models，如 Visual Transformers 或 Stable Diffusion，虽然表现出强大的视觉理解和生成能力，但它们只是特定任务的专家，具有一轮固定的输入和输出。为此，我们构建了一个名为 \textbf{Visual ChatGPT} 的系统，其中包含不同的视觉基础模型，使用户能够通过以下方式与 ChatGPT 进行交互： 1）不仅发送和接收语言，还发送和接收图像 2）提供复杂的视觉问题或视觉编辑指令，需要多个 AI 模型进行多步骤协作。 3) 提供反馈并要求更正结果。

Meta 开源计算机视觉基础模型 DINOv2

Meta 开源计算机视觉基础模型 DINOv2 Meta 开源了它的计算机视觉基础模型 DINOv2，源代码托管在上，和 Meta 近期开源的其它 AI 模型一样，采用的是非商用的 CC-BY-NC 4.0 许可证。DINOv2 是基于 Vision Transformer (ViT)架构，使用一个包含 1.42 亿幅图像的精选数据集进行预训练，可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta 称 DINOv2 模型的速度是旧方法的两倍，使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

昆仑万维宣布Opera浏览器接入端侧AI大模型

昆仑万维宣布Opera浏览器接入端侧AI大模型昆仑万维表示，即日起，端侧AI大模型将被正式集成进Opera浏览器旗舰产品中，覆盖Windows、MacOS和Linux等全部设备。据介绍，2024年4月，Opera已通过AI Feature Drops计划，在Opera开发者版浏览器中引入了端侧AI访问功能，成为全球第一个引入本地AI模型访问功能的浏览器。此后，Opera在浏览器中陆续集成了超过60个大模型家族系列、超过2000个本地大型语言模型变体，让用户能够通过浏览器内置功能轻松访问和管理本地大模型。值得一提的是，本周起，Opera原生浏览器AI助手Aria将新增AI图像理解与图像问答功能。用户可在侧边栏聊天中上传图片给Aria，并向其询问有关图像的问题，Aria将理解图像内容，并围绕图像及相关背景信息为用户提供答案。相关文章:Opera的Aria人工智能助手现在可以在Android上总结网页内容Opera与Google达成合作将Gemini人工智能引入其浏览器 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人