Google的文本到图像的人工智能模型Imagen有限公开亮相

Google的文本到图像的人工智能模型Imagen有限公开亮相AITestKitchen是在今年早些时候推出的，是Google对各种AI系统进行测试的一种方式。目前，该应用程序提供了一些不同的方式与Google的文本模型LAMDA（是的，就是那个工程师认为有知觉的模型，然后他被开除了）进行互动，该公司很快将增加类似的限制性Imagen请求，作为其所谓的应用程序"第二季"更新的一部分。简而言之，将有两种方式与Imagen互动，Google在今天的公告前演示了这一点。演示项目分别是："城市梦想家"和"摇摆不定"。在"城市梦想家"中，用户可以要求模型生成围绕他们选择的主题设计的城市元素--例如，南瓜、牛仔布或黑颜色。Imagen创建了样本建筑和地块（城市广场、公寓楼、机场等等），所有的设计都以类似于《模拟城市》中看到的等距模型出现。城市梦想家"任务让用户要求以等距设计为主题的城市建筑与其他文本到图像的模式相比，这些互动是非常受限制的，用户不能随便要求他们喜欢的东西。不过，这也是Google有意为之。正如Google产品管理高级总监乔希-伍德沃德（JoshWoodward）向TheVerge解释的那样，AITestKitchen的全部意义在于：a）获得公众对这些AI系统的反馈；b）找出更多关于人们将如何打破它们的信息。伍德沃德不愿意讨论任何关于AITestKitchen用户如何破坏其LaMDA功能的具体例子，但他指出，当模型被要求描述具体地点时，就出现了一个弱点。伍德沃德说："在历史上的不同时期，一个地点对不同的人意味着不同的东西，所以我们看到了一些相当有创意的方式，人们试图把某个地方放到系统中，看看它产生了什么，"。当被问及哪些地方可能产生有争议的描述时，伍德沃德举了俄克拉荷马州塔尔萨的例子。"20世纪20年代，塔尔萨发生了一系列种族骚乱，"他说。"如果有人输入'塔尔萨'，模型甚至可能不参考这个......你可以想象世界各地的复杂情况。""摇摆"功能让用户设计一个怪物并让它跳舞想象一下，如果你要求一个人工智能模型描述德国中世纪的达豪镇。你是否希望模型的答案提及建在那里的纳粹集中营？你怎么知道用户是否在寻找这些信息？在任何情况下省略它都是可以接受的吗？在许多方面，设计具有文本界面的人工智能模型的问题与微调搜索的挑战相似：需要以一种让用户满意的方式解释用户的请求。Google不会分享关于有多少人在实际使用AITestKitchen的数据（"我们并没有打算把它变成一个10亿用户的Google应用，"伍德沃德说），但他说它得到的反馈是非常宝贵的。"参与度远远高于我们的预期。并且这是一个非常活跃、有主见的用户群体。"他指出，该应用程序在接触"某些类型的人--研究人员、政策制定者"方面非常有用，他们可以用它来更好地了解最先进的人工智能模型的局限性和能力。不过，最大的问题是，Google是否会想把这些模型推向更广泛的公众，如果是这样，会采取什么形式？目前，该公司的竞争对手OpenAI和StabilityAI正急于将文本-图像模型商业化。Google是否会觉得自己的系统足够安全，可以走出人工智能测试阶段，从而直接提供给用户？...PC版：https://www.cnbeta.com.tw/articles/soft/1331649.htm手机版：https://m.cnbeta.com.tw/view/1331649.htm

在Telegram中查看

相关推荐

Google图像生成人工智能Imagen 3迎来升级

Google图像生成人工智能Imagen3迎来升级Google人工智能研究部门DeepMind负责人德米斯-哈萨比斯（DemisHassabis）说，与前代产品Imagen2相比，Imagen3能更准确地理解文字提示，并将其转化为图像，而且在生成图像方面更具"创造性和细节"。此外，该模型产生的"干扰人工智能"和错误也更少。哈萨比斯补充说："这也是我们目前渲染文本的最佳模型，而渲染文本一直是图像生成模型面临的挑战。"为了消除人们对深度伪造可能性的担忧，Google表示，Imagen3将使用DeepMind开发的SynthID方法，在媒体上应用隐形加密水印。在Google的ImageFX工具中可以注册Imagen3的私人预览版，Google表示，该模型将"很快"提供给使用Google企业生成式人工智能开发平台VertexAI的开发人员和企业客户。Google通常不会透露太多用于训练人工智能模型的数据来源，这次也不例外。这是有原因的。大部分训练数据来自网络上的公共网站、资源库和数据集。而其中的一些训练数据，特别是未经内容创作者许可的受版权保护的数据，是知识产权相关诉讼的源头。Google的网站发布者控制功能允许网站管理员阻止搜索引擎与AI爬虫从他们的网站上获取数据，包括照片和视频。但是，Google并没有提供"退出"工具，而且与某些竞争对手不同的是，Google并没有承诺对权利人（在某些情况下是在不知情的情况下）为训练数据集做出的贡献进行补偿。缺乏透明度并不令人惊讶，但令人失望的尤其是像Google这样拥有丰富资源的公司。...PC版：https://www.cnbeta.com.tw/articles/soft/1430907.htm手机版：https://m.cnbeta.com.tw/view/1430907.htm

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI推出文本到视频人工智能模型Sora根据OpenAI的介绍博文，Sora能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI的博文中包含的Sora生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹--比如在一段博物馆的视频中，地板疑似在移动。OpenAI表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像Midjourney这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway和Pika等公司都展示了自己令人印象深刻的文字转视频模型，而Google的Lumiere也将成为OpenAI在这一领域的主要竞争对手之一。与Sora类似，Lumiere也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI宣布将在其文本到图像工具DALL-E3中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI将不得不面对人工智能逼真视频被误认为是真实视频的后果。...PC版：https://www.cnbeta.com.tw/articles/soft/1418385.htm手机版：https://m.cnbeta.com.tw/view/1418385.htm

人工智能初创公司 Runway 发布文本到视频模型 Gen-2

人工智能初创公司Runway发布文本到视频模型Gen-2Gen-2支持从文本到视频、图像到视频、文本+图像到视频各种场景，可以从几句用户提示中生成简短的视频片段。用户可通过Runway的加入Gen-2候补名单。Runway同时协助开发了开源图像生成模型StableDiffusion，比起拥有巨大资源的科技巨头，Runway只是一个45人团队的人工智能初创公司，这也反映着初创公司在生成式AI上的潜力有多么惊人。投稿：@ZaiHuabot频道：@TestFlightCN

狡猾的人工智能模型故意破坏训练图像以规避版权问题

狡猾的人工智能模型故意破坏训练图像以规避版权问题AmbientDiffusion是一种文本到图像的人工智能模型，它通过使用严重破坏的图像来保护艺术家的版权。文本到图像生成器的一个大问题是，它们能够复制用来训练它们的原创作品，从而侵犯艺术家的版权。根据美国法律，如果你创作了原创作品并将其"固定"为有形的形式，你就拥有了它的版权--字面意思是复制它的权利。在大多数情况下，未经创作者授权，不得使用受版权保护的图片。今年5月，Google母公司Alphabet遭到一群艺术家的集体版权诉讼，声称Google未经许可使用了他们的作品来训练其人工智能图像生成器Imagen。StabilityAI、Midjourney和DeviantArt（它们都使用了Stability的StableDiffusion工具）也面临着类似的诉讼。为了避免这个问题，德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员开发了一种基于扩散的生成式人工智能框架，该框架只对已损坏到无法识别的图像进行训练，从而消除了人工智能记忆和复制原创作品的可能性。扩散模型是一种先进的机器学习算法，它通过向数据集逐步添加噪声来生成高质量的数据，然后学习逆转这一过程。最近的研究表明，这些模型可以记忆训练集中的示例。这显然会对隐私、安全和版权产生影响。这里有一个与艺术品无关的例子：人工智能需要接受X光扫描训练，但不能记住特定病人的图像，否则就会侵犯病人的隐私。为了避免这种情况，模型制作者可以引入图像损坏。研究人员利用他们的环境扩散框架证明，只需使用高度损坏的样本，就能训练扩散模型生成高质量的图像。根据"干净"（左）和损坏（右）的训练图像生成的环境扩散输出结果上图显示了在使用损坏时图像输出的差异。研究人员首先用CelebA-HQ高质量名人图片数据库中的3000张"干净"图片对模型进行了训练。根据提示，该模型生成的图像与原图几乎完全相同（左图）。然后，他们使用3000张高度损坏的图像对模型进行了重新训练，其中多达90%的单个像素被随机屏蔽。虽然模型生成的人脸栩栩如生，但结果却大相径庭（右图）。UT奥斯汀分校计算机科学教授亚当-克里万斯（AdamKlivans）是这项研究的共同作者，他表示："从黑洞成像到某些类型的核磁共振成像扫描，基本上任何昂贵或不可能拥有全套未损坏数据的研究都会如此。"与现有的文本到图像生成器一样，其结果并非每次都完美无缺。关键是，艺术家们知道像AmbientDiffusion这样的模型不会记住并复制他们的原创作品，就可以稍稍放心了。它能阻止其他人工智能模型记住并复制他们的原始图像吗？不会，但这就是法院的职责所在。研究人员已将他们的代码和环境扩散模型开源，以鼓励进一步的研究。可在GitHub上查阅。该研究发表在预印本网站arXiv上。...PC版：https://www.cnbeta.com.tw/articles/soft/1431886.htm手机版：https://m.cnbeta.com.tw/view/1431886.htm

Google人工智能搜索体验现在可以生成图像

Google人工智能搜索体验现在可以生成图像如果你通过Google的搜索实验室计划加入了SGE现在，就可以在Google搜索栏中输入你的查询。输入后，SGE会根据你的提示创建一些图片供你选择。Google发言人克雷格-尤尔（CraigEwer）表示，该工具由Imagen系列人工智能模型提供支持。在下面的GIF中，Google展示了如何使用该工具根据提示"画一幅戴着厨师帽正在做早餐的水豚的图像"来创建图像。如GIF所示，你还可以细化Google最终用来创建每张照片的查询。你也可以通过Google图片制作Google人工智能生成的图片。在浏览Google图片结果时，你可能会看到一个提示框，提示你根据查询结果生成图片--这些生成的图片将显示在侧边栏中。Google公司的赫马-布达拉朱（HemaBudaraju）在一篇博文中强调，该公司正努力确保以负责任的方式推出图片生成工具，该工具不应该生成违反公司禁止使用生成式人工智能政策的图片。(希望这能避免Google的工具被用来制作流行卡通和视频游戏角色驾驶飞机撞向双子塔的图片，就像必应的图片生成工具那样）每张用SGE制作的图片都将"带有元数据标签和嵌入式水印，以表明它是由人工智能制作的"，Budaraju说。在"初始阶段"，Google不会让你制作"描绘逼真人脸或任何包含知名人士的提示"的图片，Ewer说。Google将图片生成功能限制在18岁或以上的用户，这意味着可以访问SGE的青少年将无法使用它。Google还增加了使用SGE直接从搜索栏生成书面草稿的功能。使用你的查询，Google可以生成一个草稿，用户可以选择让工具生成长、短或语气随意的文章。如果喜欢这样的结果，可以将草稿导出到Google文档或Gmail中。SGE目前由多种LLM支持。SGE中使用的模型是根据公开来源的数据和人工监督数据训练出来的。自今年5月推出SGE以来，Google通过增加视频和改进链接等方式对其进行了稳步改进，这些新的图片和草稿创建工具看起来确实很有用。...PC版：https://www.cnbeta.com.tw/articles/soft/1389601.htm手机版：https://m.cnbeta.com.tw/view/1389601.htm

Google SGE 正在添加人工智能图像生成器，现已推出

谷歌正在通过人工智能图像生成器以及文本生成来更新其搜索生成体验（SGE）。谷歌希望让您直接通过Google搜索完成工作。目前，SGE是一种对话式体验，可以来回回答您的问题。随着今天推出的更新，您可以通过“画画”或“给我画一个[x]”开始提示，并让它生成一个全新的图像。在幕后，它由Google的Imagen系列模型提供支持，类似于GoogleSlides和Meet中的功能。您可以直接在google.com的搜索框中输入“绘图”和“草图”提示，而Google也可能会在图像搜索结果库中提示您生成新内容。该公司表示，这对于“当您可能正在寻找特定图像，但无法准确找到您想要的图像时”非常有用。谷歌也可能会提示您在图像搜索结果库中生成新内容。该公司表示，这对于“当您可能正在寻找特定图像，但无法准确找到您想要的图像时”非常有用。SGE一次最多会生成四张图像，这些图像会以不同颜色的背景出现在常规搜索结果上方。当您在侧面板中打开“生成的图像”时，Google会记下所使用的确切提示/描述，就像它是否是真实版本一样。您可以“导出”并选择保存到Google云端硬盘、下载到您的设备或复制。还有“编辑”提示的功能。在责任方面，谷歌将屏蔽描绘有害、误导性或露骨内容的图像。不会创建名人提示，SGE也不会生成逼真的面孔。SGE生成的每张图像都会有元数据标签和嵌入/不可见水印（使用GoogleDeepMind和Cloud的SynthID）来表示其创建的性质。谷歌表示，每日图像生成会受到限制，但没有透露具体细节。与此同时，SGE正在添加文本生成功能，就像Bard提供的功能一样。你可以让它写笔记和其他草稿。定制选项包括缩短或更长以及将语气改为休闲风格。完成后您可以导出到GoogleDrive或Gmail。该功能最初面向美国英语用户。该图像生成器将从今天开始向一些美国英语用户推出，并且即将推出更广泛的版本。您必须已注册18岁。via匿名标签:#Google#AI频道:@GodlyNews1投稿:@GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人