微软推出最新视觉基础模型Florence-2 可在浏览器运行

微软推出最新视觉基础模型Florence-2 可在浏览器运行 该模型支持多种功能,可用于生成图像、识别字符、分割图像、检测物体等等。Florence-2的本地化运行得益于 Transformers.js和ONNX Runtime Web技术的支持。这一突破不仅提高了用户隐私保护水平,还大大降低了使用成本,为AI视觉技术的普及应用铺平了道路。 ... PC版: 手机版:

相关推荐

封面图片

在浏览器里运行最新的深度网络

在浏览器里运行最新的深度网络 是一个TypeScript库,可直接在Web浏览器中运行现代深度学习模型。可以轻松将AI功能添加到Web应用程序中,而无需复杂的服务器端基础设施。 特征: 1.便于使用。用一行代码创建模型,用另一行代码得到结果。 2.由ONNX 运行时提供支持。Web AI 使用 ONNX runtime for Web 运行模型,它对各种运算符都有丰富的支持。这意味着任何模型都可以正常工作。 3.与Hugging Face hub兼容。Web AI 使用与集线器格式相同的模型配置文件,这使得集成现有模型变得更加容易。 4.内置缓存。Web AI 使用localforage将下载的模型存储在 IndexedDB 中。你可以动态配置缓存的大小。 5.网络工作者支持。所有繁重的操作模型创建和推理都被卸载到一个单独的线程中,因此 UI 不会冻结。

封面图片

Opera 浏览器现可在 ARM 版 Windows 上原生运行

Opera 浏览器现可在 ARM 版 Windows 上原生运行 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 官方介绍如下:现在,Opera 经过优化,可最大限度地发挥您设备的功能。得益于微软App Assure团队和高通技术公司(Qualcomm Technologies)的支持,Opera最新版本在新一代PC上的运行速度提高了一倍以上*。Opera 致力于在每台设备上提供最佳体验,包括最新的 Arm-powered Windows PC。除了提供更快的性能外,ARM 版 Opera 还将提供更高的能效。该公司称,用户可以将 Snapdragon X 的高能效设计与浏览器的内置电池保护器结合起来,充分利用一次电池充电。那些已经拥有使用 ARM 芯片的电脑的用户也将受益于性能和能效的大幅提升。值得注意的是,到目前为止,ARM 版 Opera for Windows 只能通过开发者渠道提供。不过,稳定版的发布应该不会让用户等待太久。微软和高通公司正准备在今年晚些时候推出一波搭载骁龙 X 处理器的人工智能 PC。两家公司都认为,它们终于可以与苹果的 M 处理器相媲美了,而开发者似乎也支持这一举措。例如,Google最近发布了 ARM64 本机版本的 Chrome 浏览器,考虑到它是世界上最流行的浏览器,这是一件大事。首批内置骁龙 X 芯片的人工智能电脑将在 5 月 20 日的微软发布会上亮相。 ... PC版: 手机版:

封面图片

Transformers.js,在浏览器中运行Transformers | 本项目目前支持BERT、ALBERT、DistilB

Transformers.js,在浏览器中运行Transformers | 本项目目前支持BERT、ALBERT、DistilBERT、T5、T5v1.1、FLAN-T5、GPT2、BART、CodeGen、Whisper、CLIP、Vision Transformer和VisionEncoderDecoder模型,用于各种任务,包括:屏蔽语言建模、文本分类、文本到文本生成、翻译、摘要、问答、文本生成、自动语音识别、图像分类、零样本图像分类和图像到文本。

封面图片

是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务。

是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务。 ChatGPT 正在吸引跨领域的兴趣,因为它提供了一种语言界面,具有跨多个领域的卓越对话能力和推理能力。 然而,由于 ChatGPT 是用语言训练的,它目前无法处理或生成来自视觉世界的图像。同时,Visual Foundation Models,如 Visual Transformers 或 Stable Diffusion,虽然表现出强大的视觉理解和生成能力,但它们只是特定任务的专家,具有一轮固定的输入和输出。 为此,我们构建了一个名为 \textbf{Visual ChatGPT} 的系统,其中包含不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 进行交互: 1)不仅发送和接收语言,还发送和接收图像 2)提供复杂的视觉问题或视觉编辑指令,需要多个 AI 模型进行多步骤协作。 3) 提供反馈并要求更正结果。

封面图片

Meta 开源计算机视觉基础模型 DINOv2

Meta 开源计算机视觉基础模型 DINOv2 Meta 开源了它的计算机视觉基础模型 DINOv2,源代码托管在上,和 Meta 近期开源的其它 AI 模型一样,采用的是非商用的 CC-BY-NC 4.0 许可证。DINOv2 是基于 Vision Transformer (ViT)架构,使用一个包含 1.42 亿幅图像的精选数据集进行预训练,可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta 称 DINOv2 模型的速度是旧方法的两倍,使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

昆仑万维宣布Opera浏览器接入端侧AI大模型

昆仑万维宣布Opera浏览器接入端侧AI大模型 昆仑万维表示,即日起,端侧AI大模型将被正式集成进Opera浏览器旗舰产品中,覆盖Windows、MacOS和Linux等全部设备。据介绍,2024年4月,Opera已通过AI Feature Drops计划,在Opera开发者版浏览器中引入了端侧AI访问功能,成为全球第一个引入本地AI模型访问功能的浏览器。此后,Opera在浏览器中陆续集成了超过60个大模型家族系列、超过2000个本地大型语言模型变体,让用户能够通过浏览器内置功能轻松访问和管理本地大模型。值得一提的是,本周起,Opera原生浏览器AI助手Aria将新增AI图像理解与图像问答功能。用户可在侧边栏聊天中上传图片给Aria,并向其询问有关图像的问题,Aria将理解图像内容,并围绕图像及相关背景信息为用户提供答案。相关文章:Opera的Aria人工智能助手现在可以在Android上总结网页内容Opera与Google达成合作 将Gemini人工智能引入其浏览器 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人