国外资深科技记者：Google I/O大会不接地气根本听不懂

国外资深科技记者：GoogleI/O大会不接地气根本听不懂以下为文章内容摘要：在近13年的科技记者生涯中，在参加完今天的谷歌2024年I/O大会后，我从未感受到如此强烈的“信息压迫”。从Gemini、Gemma和Gem，到Veo、Astra和LearnLM，谷歌抛出了太多的东西，我相信我不是唯一一个感到头晕目眩的人。如果我，一个努力保持在科技报道前沿的人，仍在试图完全理解刚刚发生的这一切，那么这对普通的消费者来说并不是一个好兆头，他们只是希望能轻松地知道谷歌的AI将如何帮助他们。在这里，我也不准备把谷歌发布的所有信息都整理出来。毕竟，CNET拥有一支专业的作者团队，他们已经在这样做了。但我确实认为，在谷歌进一步成为“AI为先”的科技巨头的过程中，这是它需要解决的一个问题。GoogleI/O基本上是开发人员的活动。它是为程序员、研究人员和应用程序创建者准备的，他们中的大多数人都已经熟悉了“令牌”和“大型语言模型”等术语。因此，从某种程度上讲，谷歌周二给出的大量专业信息和技术术语也在意料之中。但同时，谷歌也需要迎合消费者。它需要让像我和你这样的普通用户对其产品的潜力感到兴奋，并帮助我们准确地了解它们将如何融入我们的生活。我是一名科技记者，也是一个普通的科技迷；我是一个手机用户，安卓和iOS都在用；我使用Gmail、GoogleDrive、Docs和地图；我还是一名摄影师和YouTube频道主持人。可以说，谷歌今天发布的所有内容，在某种程度上都与我生活的某个部分有关。但直到现在，我仍在努力理解它们是什么，更不用说它们能做什么了。ProjectAstra和Gemini是一样的吗？或者是Gemma？它们都与LearnLM有关吗？还是其他什么东西？他们会取代谷歌助手（GoogleAssistant）吗？现在，我真的不知道，我的工作很大一部分就是理解所有这些东西，并把它们分享给大家。因此，在接下来的几个小时里，我将花很多时间阅读我的同事们关于这方面的文章，如果你对谷歌的AI努力感兴趣，那么我鼓励你也这样做。但我不喜欢仅仅为了理解基本知识而不得不进行深度阅读。我坚信永远不要读产品手册，如果你不得不读，那么这个产品的可用性就失败了。这就是我对今天的谷歌主题演讲的感受。老实说，我不能把所有的责任都归咎于谷歌。AI的到来和发展如此之快，尤其是生成式AI，以至于我发现自己有点格格不入了。去年，谷歌谈论的是Bard，而现在已经不是，变成了Gemini。这就像我第一次开始使用区块链（blockchain）这样的术语时的感觉，说实话，我现在仍然不能告诉你们区块链是什么。我们有ChatGPT，三星的GalaxyAI，MetaAI，以及基于AI的新设备的到来，如RabbitR1和HumaneAIPin。AI正在进行着如此之多的研究，但对于AI一词的确切应用，似乎还没有达成多少共识。结果是一种真正的支离破碎和困惑的感觉。朋友和家人经常问我关于AI的问题，关于他们应该使用哪种聊天机器人，以及如何创建生成式AI图像。除了向他们推荐CNET的AIAtlas之外，我很难给出有意义的答案。谷歌和所有科技公司一样，需要我们这些消费者来理解这些东西。如果他们希望我们对它们的产品感到兴奋，就需要让我们知道，这些AI工具是什么，它们具有多大的变革性。如果我们对它们感到兴奋，可能就会购买它们。例如，也许我们会购买下一代Pixel手机，就是因为Gemini，及其引人注目的视频提问服务。但是，一场持续两个小时的演讲，让经验丰富的科技记者也摸不着头脑，难以理解，这不是解决问题的方法。谷歌花了很长时间谈论它的AI在总结事物方面有多么优秀，也许是时候让谷歌自己来使用这些工具了。...PC版：https://www.cnbeta.com.tw/articles/soft/1431028.htm手机版：https://m.cnbeta.com.tw/view/1431028.htm

在Telegram中查看

相关推荐

Google I/O 2024开发者大会即将开幕

GoogleI/O2024开发者大会即将开幕重头戏：AIGoogle已经明确表示，今年的I/O大会将围绕着AI展开。Google聊天机器人Gemini已经面世几个月了，也引发了一些争议。Google今年开发者大会主题演讲的重点可能是如何融合将搜索和生成式AI融合在一起。该公司一直在测试新的搜索功能，比如为英语学习者提供AI会话练习，以及为购物和虚拟试穿提供的图像生成功能。Google可能还会重点说明如何让用户的智能手机变得更像一款AI设备。这意味着，Google的应用程序将拥有更多生成式AI功能。该公司一直在开发AI功能，例如在Google地图上帮助用户提供餐馆或购物建议，寻找电动汽车充电桩。Google还在测试一项功能，利用AI来呼叫客服，并为你等待直到有人工客服可以对话。AI数字助手Google可能还将在I/O上推出一个新的，更个性化的数字助手，传闻称它的名字为“Pixie”。这款由Gemini驱动的智能助手有望整合多模态功能，比如为产品拍照以学习如何使用它们，或者为用户导航找到可以购买它们的地方。Pixie的推出对于RabbitR1、HumanAiPin等AI设备来说是个坏消息，后两款设备都在近期发布，但一直无法证明自己的存在感。目前，他们可能拥有的唯一优势就是，将智能手机用作AI可穿戴设备有还点困难(尽管并非不可能)。会发布硬件吗？Google今年似乎不太可能把重点放在新硬件上，因为Pixel8A手机已经可以预订，消费者现在可以购买重新推出、更便宜的Pixel平板电脑，除了磁吸式扬声器底座现在需要单独购买之外，一切都没有变化。该公司仍有可能预览Pixel9这样的新产品，这是典型的Google风格，但是它的信息已经泄露的到处都是了。当然，Google还可能公布PixelTablet2平板电脑的信息。Pixel9谍照Google或许还会讨论PixelFold可折叠手机的后续机型。近期传闻称，Google新一代可折叠手机可能不叫PixelFold2，而是使用Pixel9ProFold的名称。...PC版：https://www.cnbeta.com.tw/articles/soft/1430635.htm手机版：https://m.cnbeta.com.tw/view/1430635.htm

Google I/O开发者大会即将召开谷歌能重夺AI搜索话语权吗？

GoogleI/O开发者大会即将召开谷歌能重夺AI搜索话语权吗？I/O大会上，谷歌用AI彻底改革其搜索业务的努力，将展示这家科技巨头是如何应对竞争威胁的。在包括微软(MSFT.US)在内的竞争对手采取行动后，谷歌正在维护其在搜索市场上的主导地位。此前，微软宣布在其自家的搜索产品必应(Bing)中使用初创公司OpenAI的技术。此次I/O大会宣布的所有新产品都将基于谷歌的大型语言模型(LLM)——即从新闻文章、社交媒体帖子或其他互联网来源中获取大量数字文本的大型人工智能系统，并利用这些材料来训练软件，在收到提示或查询时自动预测和生成内容。谷歌是最早对LLM进行研究的公司，而LLM也是为OpenAI的ChatGPT等当前一批人工智能聊天机器人提供支持的主要技术。大会上，谷歌预计将公布这项研究工作的更多进展，以帮助其在竞争中保持领先。这些生成性人工智能技术将如何应用于公司的产品和服务尚待宣布，但搜索方面的任何变化都有可能颠覆用户在空白搜索栏中输入关键词，然后获得来源的相关链接列表的习惯。另外，曾在今年2月，谷歌宣布推出与ChatGPT竞争的人工智能聊天机器人Bard。但到目前为止，由于该款聊天机器人处于公测阶段，用户被要求加入等待名单，该产品的受众仍然有限。在I/O大会上，公众将了解到该公司是否对Bard有更宏伟的计划，以及是否会宣布对该产品的任何改进，因为测试人员在过去几周里指出了该款产品的缺陷和局限性。不过，到目前为止，谷歌对反对者的回应是强调Bard是一个“创造性的伙伴”，而不是取代其值得信赖的搜索产品。谷歌还暗示，该公司将在开发者大会上重点介绍新的生成式人工智能产品，包括其办公组件GoogleWorkspace(GoogleDocs、Sheets和Slides)以及云服务。谷歌过去曾表示，它的人工智能可以帮助制作幻灯片演示和销售培训文档，在会议期间做笔记，以及起草给同事的电子邮件，但实验仅限于谷歌云客户端。不过，该公司也指出，计划最终向公众提供这些功能。投资咨询公司ROBOGlobal的研究分析师ZenoMercer表示，谷歌现在正处于一个“需要快速迭代和做出改变的拐点”，就像它早期所做的那样。“如果不这样做，消费者将开始寻找替代品”。最后，预计谷歌将在大会上推出PixelFold可折叠手机。早前，该公司发布了一段关于该产品的预热视频和照片，从这些资料可以看到，这是一款带有内外屏的可折叠手机，采用横向折叠。...PC版：https://www.cnbeta.com.tw/articles/soft/1359013.htm手机版：https://m.cnbeta.com.tw/view/1359013.htm

谷歌发布数十款 Google 和 AI 结合产品，包括对标 GPT4o 的 Project Astra

谷歌发布数十款Google和AI结合产品，包括对标GPT4o的ProjectAstra5月15日消息，谷歌I/O开发者大会主题演讲上，谷歌CEOSundarPichai发布数十款Google和AI结合产品，其中包括支持200万token长文本的Gemini1.5Pro和Gemini1.5Flash、谷歌版Sora技术Veo，最强开源模型Gemma2，支持生成式搜索的AIOverviews、第六代TPU等。但最受关注的还是谷歌DeepMindCEO、谷歌AI负责人DemisHassabis公布的真正通向AGI的万能助手项目ProjectAstra，以及语音NotebookLM，直接对标GPT-4o。

【谷歌发布数十款Google和AI结合产品，包括对标GPT4o的Project Astra】

【谷歌发布数十款Google和AI结合产品，包括对标GPT4o的ProjectAstra】2024年05月15日02点08分5月15日消息，谷歌I/O开发者大会主题演讲上，谷歌CEOSundarPichai发布数十款Google和AI结合产品，堪称“全家桶”级别，全力对战OpenAI，其中包括支持200万token长文本的Gemini1.5Pro和Gemini1.5Flash、谷歌版Sora技术Veo，最强开源模型Gemma2，支持生成式搜索的AIOverviews、第六代TPU等。但最受关注的还是谷歌DeepMindCEO、谷歌AI负责人DemisHassabis公布的真正通向AGI的万能助手项目ProjectAstra，以及语音NotebookLM，直接对标GPT-4o。

谷歌 I/O 开发者大会要点一览

谷歌I/O开发者大会要点一览1.将在美国推出“AI概览”（AIOverviews）的功能，搜索引擎会直接归纳总结搜索结果。2.谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”的新搜索形式。3.Gemini1.5Pro大模型在今年将会把100万Tokens的窗口扩大至200万Tokens，拓展同步处理多模态信息的边界。4.推出了Gemini1.5Flash模型，服务于需要快速响应的场景。5.推出参数量更大的Gemma2。6.在多模态领域，发布了文生图工具Imagen3、与Youtube&音乐家合作的“AI音乐沙盒”，以及最新的视频生成模型Veo。7.多模态GeminiNano模型也将在今年晚些时候登陆Pixel手机并能在本地运行。8.从今年夏天开始，Gemini将支持语音实时交互，还将上线实时视频交互。9.将推出称作Gems的自定义AI助手功能，并与整套“谷歌全家桶”联动。10.宣布第六代TPU芯片Trillium，较上一代芯片的算力表现翻4.7倍，并从下半年起使用。11.谷歌云在明年初用上英伟达最新的Blackwell架构GPU。

AI绘画，为何听不懂人话？

AI绘画，为何听不懂人话？两个系统几乎同时发布，免不了被对比。深燃体验后发现，文心一言的图片生成功能，能够识别简单元素、文本没有歧义的人或事物，但涉及到成语、专有名词，以及字面意思和实际意义不同的表述，它就会跑偏。Midjourney在这方面几乎没什么问题。另外，Midjourney接收到的提示词（prompt）越详细精准，生成的图片越符合要求，但文心一言需求越多，系统越容易出错。调侃背后，AI生成图片其实不是一件简单的事情，需要在数据、算法、算力等方面综合发力，既对技术和硬件有高要求，还对数据采集和标注等苦活累活高度依赖。文心一言的AI绘图功能与Midjourney在以上三方面都有不小的差距。百度方面公开表示，“大家也会从接下来文生图能力的快速调优迭代，看到百度的自研实力。文心一言正在大家的使用过程中不断学习和成长，请大家给自研技术和产品一点信心和时间。”从业者预估，文心一言全力追赶，用一年左右的时间有希望达到国外80%以上的水平。AI绘图这个战场，枪声已经打响，追逐赛、排位赛都将一轮轮上演。搞不定成语和专有名词，提示词越多AI越废文心一言最近接受的最大考验，莫过于画一幅中餐菜名图。在网友们的热情创作下，驴肉火烧、红烧狮子头等菜品出来的画做一个比一个离谱，车水马龙的街道、虎头虎脑的大胖小子，同样惊掉了大家的下巴。网友体验文心一言时截图，目前已更新网民热心找bug，百度程序员应该也在背后发力，深燃测试发现，以上内容均已更新为可以正确显示对应图片。不过，像娃娃菜、脸盆、虎皮鸡蛋、三杯鸡，还有胸有成竹的男人、虎背熊腰的男人，文心一言仍然给出的是字面直译后的图片，画风一言难尽。深燃截图即便输入提示词时强调“画一个卫浴器材水龙头”，文心一言画出的仍然是水中龙的头像；当深燃输入“画一个风姿绰约的人”时，系统画出的是一位男士，显然AI没能理解风姿绰约形容的是女人。深燃截图程序员改bug的速度比不上网友找漏洞的速度。很快又有人发现，文心一言画图时有把提示词中译英之后根据英文意思生成图片的可能性，据此有人推测百度可能用国外的作图产品接口，套了一个自己的壳。深燃也验证了一下某用户的测试。比如输入“水瓜”，画出的是西瓜，这也对应西瓜的英文单词Watermelon；要求画树叶、封面、苹果，画出的图是树叶覆盖苹果，显然系统是把封面翻译成了Cover，这个单词也有覆盖的意思；画“土耳其张开翅膀”，出现的画面是张开翅膀的火鸡，我们都知道，Turkey是土耳其，也是火鸡。深燃截图对此，百度对外回应称，文心一言完全是百度自研的大语言模型，文生图能力来自文心跨模态大模型ERNIE-ViLG。“在大模型训练中，我们使用的是全球互联网公开数据，符合行业惯例。”亚洲视觉科技研发总监陈经也在接受媒体采访时表示，“百度的画图AI采用了英文标注的开源图片素材进行训练，因此需要中翻英来当prompt（提示词）。目前，全球AI研发有开源的传统，特别是训练数据库，不然收集图片效率太低了。”深燃体验后还发现，文心一言在单个需求描述时表现尚可，比如画一幅愤怒的小孩、开心的农民、一只很饿的流量猫，但一幅图一旦提出多个作图需求，AI就有点懵。比如请文心一言“生成一幅画，在一个下雨天，小红在植树，小王在看书”，系统生成的图片里只有背靠树看书的一个人；还有，“画一幅画，里面有大笑的年轻人、哭泣的小孩、愁容满面的老人”，系统把哭泣和愁容满面等表情集合在了一张脸上，画出了一个小孩和老人的结合体。如下图所示，还有一些类似的情况，系统同样没能准确完成给出的指令。深燃截图深燃又把上述提示词输入到MidjourneyV4测试了一下，如下图所示，即使是V4版本，表现也远高出文心一言。MidjourneyV4基本能理解句子中的意思，做出的图几乎可以包含所有的要素。深燃体验MidjourneyV4后截图深燃还测试了AI绘画领域一直以来难以攻克的画手指难的问题。在这方面，文心一言也没能经受住考验。比如“画一位30岁的女士，双手竖起大拇指”，文心一言生成的图片大拇指是竖起来了，但是其中一只手有7根手指；输入“画一个人，两只手做点赞姿势”时，系统也无法实现这一手部姿势。深燃截图Midjourney此前的版本同样存在手指误差的问题，最新发布的V5版本，已经能够正确画出五根手指，虽然有人依旧指出其绘出的大拇指有点长，但相比以往已经有不小的进步。有从业者评价：“Midjourney的此前版本就像是近视患者没有戴上眼镜，而MidjourneyV5就是戴上眼镜后的清晰效果，4K细节拉满”。比如MidjourneyV5画出的《三体》角色图，效果被网友评价为几乎要“成精了”。而文心一言画《三体》角色时，系统全然不顾描述里提到的留着黑色短发、戴着眼镜的要求，画出了一个扎着发髻，不戴眼镜，古风穿着的男士。上图为MidjourneyV5生成的三体角色图图片来源/Ai总编推书下图为文心一言作图/深燃截图最近MidjourneyV5画的一对情侣的图片掀起了业内一阵惊呼。作图的提示词是：“一对年轻的情侣穿着牛仔裤和夹克坐在楼顶上”，背景分别是2000年和2023年的北京。最后出图的效果大大超出很多人的想象。深燃把类似表述输入文心一言时，系统直接给出了毫不相关的图片。左图为MidjourneyV5作图图片来源/量子位右为深燃对比体验文心一言截图对比来看，Midjourney作图已经在细节上几近完美了，文心一言还处在难以准确分辨字面意思和实际意思的初级阶段。Midjourney提示词描述越详细，生成的图片越精准，文心一言能理解的文字长度有限，过多描述会让它直接报错或者胡乱生成图片。AI文生图到底有多难？按出现时间来算，AI绘画算是AI领域的新事物。公开报道显示，2021年1月，OpenAI发布了两个连接文本与图像的神经网络：DALL・E和CLIP。DALL・E可以基于文本直接生成图像，CLIP能够完成图像与文本类别的匹配。DALL・E是基于GPT-3的120亿参数版本实现的。随后在2022年，DALL·E2、StableDiffusion等文生图底层大模型发布，带动了应用层的发展，出现了一大批爆款产品，包括Midjourney。2022年也被认为是“AI绘画元年”。StabilityAI的StableDiffusion是一个开源模型，很多开发者基于这个模型开发训练出了更多不同的生成模型。国内很多科技公司的AI绘画项目也是由StableDiffusion提供技术支撑。Midjourney是付费订阅的，公开信息显示，Midjourney每年的收入可能达到1亿美元左右。另外，有AI绘图业务的还有Google、Meta等公司。百度的文心一言和此前就发布的文心一格算是国内最早的具备AI绘画功能的大模型。文心一言的发布和升级了的MidjourneyV5更是将AI绘画行业推向高潮。这一次迭代是Midjourney自去年推出以来最大的更新，Midjourney也成了目前市面上最先进的AI图像生成器之一。热度还在继续。最近，行业内又有一系列企业跟进推出AI绘画功能。3月21日，微软宣布，必应搜索引擎接入了OpenAI的DALL·E模型，将AI图像生成功能引入新版必应和Edge浏览器，免费开放。就在同一天，Adobe发布AI模型Firefly，支持用文字生成图像、艺术字体。可以说，2023年，AI绘画行业迎来了真正的大爆发。调侃文心一言之余，客观来说，AI生成图片本身就不是一件容易实现的事情。系统的语义理解能力、充分的数据标注、细节处理、用户的提示词选择，都在AI作图中起着重要作用。AI领域资深从业者郭威告诉深燃，之前AI生成图片只需要确认风格、物品等，用...PC版：https://www.cnbeta.com.tw/articles/soft/1352091.htm手机版：https://m.cnbeta.com.tw/view/1352091.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人