Google TalkBack 将使用Gemini模型为盲人描述图像

Google TalkBack 将使用Gemini模型为盲人描述图像该公司宣布，Gemini Nano 的功能将应用于公司的无障碍功能 TalkBack。这是公司利用生成式人工智能向更多用户开放软件的一个很好的例子。Gemini Nano 是Google基于 LLM 平台的最小版本，旨在完全在设备上运行。这意味着它不需要网络连接就能运行。在这里，该程序将用于为低视力和盲人用户创建物体的声音描述。在上图的弹出窗口中，TalkBack 将衣服描述为"一件黑白格子裙的特写。裙子很短，有领子和长袖。腰间系着一个大蝴蝶结"。据该公司称，TalkBack 用户每天大约会遇到 90 张左右没有标签的图片。通过使用 LLM，系统将能够提供对内容的洞察力，从而有可能省去人工输入信息的麻烦。Android生态系统总裁萨迈尔-萨马特（Sameer Samat）指出："这一更新将有助于填补缺失的信息，无论是家人或朋友发送的照片中的更多细节，还是网上购物时衣服的款式和剪裁。"该设备将于今年晚些时候登陆Android系统。如果它能像演示中那样运行良好，那么对于盲人和低视力者来说可能会带来极大的便利。 ... PC版：手机版：

在Telegram中查看

相关推荐

Google发布Gemini 1.5 Flash人工智能模型比Gemini Pro更轻便与易于使用

Google发布Gemini 1.5 Flash人工智能模型比Gemini Pro更轻便与易于使用 Google DeepMind 首席执行官德米斯-哈萨比斯（Demis Hassabis）在一篇博客文章中写道："[Gemini] 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。"Google之所以创建Gemini 1.5 Flash，是因为开发人员需要一个比Google今年2月发布的专业版更轻便、更便宜的型号。Gemini 1.5 Pro 比该公司去年底发布的 Gemini 原型更高效、更强大。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间，是Google在本地设备上运行的最小型号。尽管重量比 Gemini Pro 轻，但功能却同样强大。Google表示，这是通过一个名为"蒸馏"的过程实现的，即把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的型号上。这意味着，Gemini 1.5 Flash 将获得与 Pro 相同的多模态功能，以及长语境窗口（人工智能模型可一次性摄取的数据量），即一百万个词元。根据Google的说法，这意味着 Gemini 1.5 Flash 将能够一次性分析 1500 页的文档或超过 30000 行的代码库。Gemini 1.5 Flash（或这些型号中的任何一款）并非真正面向消费者。相反，它是开发人员利用Google设计的技术构建自己的人工智能产品和服务的一种更快、更便宜的方式。除了推出 Gemini 1.5 Flash 之外，Google还对 Gemini 1.5 Pro 进行了升级。该公司表示，已经"增强"了该模型编写代码、推理和解析音频与图像的能力。但最大的更新还在后面Google宣布将在今年晚些时候把该模型现有的上下文窗口增加一倍，达到 200 万个词元。这将使它能够同时处理两小时的视频、22 小时的音频、6 万多行代码或 140 多万字。Gemini 1.5 Flash 和 Pro 现在都可以在Google的人工智能工作室和顶点人工智能中进行公开预览。该公司今天还发布了新版 Gemma 开放模型，名为 Gemma 2。不过，除非你是开发人员或喜欢捣鼓构建人工智能应用程序和服务的人，否则这些更新其实并不适合普通消费者。 ... PC版：手机版：

Google 似乎正在将 Gemini Nano 的 API 及其本地模型集成进 Android 14

Google 似乎正在将 Gemini Nano 的 API 及其本地模型集成进 Android 14 Android AICore 是一项全新的系统服务，它允许用户在设备上直接使用 AI 基础模型。通过 AICore，用户的 Android 应用能够接入 Gemini Nano，这是 Google 推出的一种小型但高效的基础模型，专为支持的设备而设计。值得注意的是，这种处理完全是本地进行的。这种本地化的处理方式有助于开发者在不将用户数据上传至云端的情况下处理敏感数据，例如，实现消息传递应用的端到端加密功能。

Google Chrome浏览器将内置本地运行的AI助手Gemini Nano

Google Chrome浏览器将内置本地运行的AI助手Gemini Nano Gemini Nano是Google去年引入Pixel 8 Pro和Pixel 8手机的轻量级大型语言模型。为了将其带入Chrome浏览器，Google对模型进行了优化调整，并确保浏览器能够快速加载该AI模型。得益于这项新功能，用户将能在Chrome浏览器中直接生成产品评论、社交媒体帖子等内容。这与微软在Edge浏览器中集成Copilot AI助手的做法类似，不过不同的是Copilot需要连接云端服务器，而Gemini Nano则是在本地运行。此外，Google还透露，Gemini AI将会集成到Chrome DevTools开发工具中，为开发者提供错误信息解释和编码问题修复建议等功能。我们期待在Chrome 126版本中亲自体验这项新功能，感受Gemini AI助手的魅力。 ... PC版：手机版：

谷歌推出最新的大型语言模型 Gemini 1.0

谷歌推出最新的大型语言模型 Gemini 1.0 谷歌发布最新的大型语言模型 Gemini，谷歌 CEO 皮查伊在 6 月份的 I/O 开发者大会上首次透露了该模型，现在正式向公众推出。谷歌针对不同场景发布了三种不同尺寸的版本。例如 Google 的人工智能聊天机器人 Bard 现在由可扩展的 Gemini Pro 提供支持。 Gemini Nano 是轻量版本，旨在 Android 设备上本地离线运行，Pixel 8 Pro 成为首款搭载此模型的设备。 Gemini Ultra，它是谷歌迄今为止创建的最强大的 LLM，适用于高度复杂的任务。似乎主要是为数据中心和企业应用设计的。

Google宣布推出Gemini API，为开发者和企业提供了全新的人工智能产品。这一API将使开发者能够构建基于Gemini

Google宣布推出Gemini API，为开发者和企业提供了全新的人工智能产品。这一API将使开发者能够构建基于Gemini Pro的应用程序和解决方案，进一步推动人工智能的发展和应用。 Gemini是Google迄今为止最大、能力最强大的人工智能模型，也是Google在使人工智能更加便捷实用的道路上迈出的重要一步。Gemini分为三个版本：Ultra、Pro和Nano。目前，Gemini已经在Google的产品中得到应用，其中Gemini Nano已经在Android系统上推出，并首次应用于Pixel 8 Pro手机，而Gemini Pro则针对Bard进行了专门的优化。现在，开发者和企业可以通过Gemini API获得Gemini Pro的使用权限，以便根据自身需求构建应用程序和解决方案。Google将根据用户的反馈进一步优化和改进Gemini Pro，以确保其能够满足各类需求。 - Gemini Pro在研究基准测试中表现优异，超过了其他同等规模模型的性能。 - 当前版本的Gemini Pro针对文本提供了32K的上下文窗口，未来版本将支持更大的上下文窗口。 - 开发者可以免费使用Gemini Pro，但有一定的使用限制，并且将来会提供具有竞争力的定价方案。 - Gemini Pro具备多种功能，包括函数调用、嵌入、语义检索、自定义知识基础和聊天功能。 - Gemini Pro支持全球180多个国家和地区的38种语言。 Gemini Pro目前支持将文本作为输入并生成文本作为输出。此外，Google还提供了专门针对Gemini Pro Vision多模态的端点，支持文本和图像作为输入，生成文本作为输出。为了帮助开发者构建应用程序，Gemini Pro提供了多种SDK，支持在任何地方运行的应用程序开发，包括Python、Android（Kotlin）、Node.js、Swift和JavaScript。除了Gemini API，Google还推出了Google AI Studio开发者工具，该工具是一个免费的基于Web的开发者工具，能够帮助开发者快速构建提示并获取API密钥用于应用程序开发。开发者可以使用Google帐号登录Google AI Studio，并利用免费配额进行开发，该配额允许每分钟发起60个请求，比其他免费提供的配额高出20倍。 via 匿名标签: #Google #AI #Gemini 频道: @GodlyNews1 投稿: @GodlyNewsBot

Opera 与 Google Cloud 合作，利用 Gemini 模型为其浏览器 AI 提供支持

Opera 与 Google Cloud 合作，利用 Gemini 模型为其浏览器 AI 提供支持浏览器 Opera 今天宣布与 Google Cloud 合作，将 Gemini 模型集成到其 Aria 浏览器 AI 中。Opera 的 Aria 浏览器 AI 非常独特，因为它不仅仅使用一个提供商或语言模型。Opera 的 Composer AI 引擎可以处理用户意图，并可以决定使用哪个模型来完成哪项任务。谷歌的 Gemini 模型是一种现代、强大且用户友好的语言模型，是该公司迄今为止功能最强大的模型。借助这一集成，Opera 现在能够以高性能为其用户提供最新信息。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人