免费试用：GoogleGemini是DeepMind开发的一种多模态人工智能模型，可以处理文本、音频、图像等多种类型的数据

网站跃问网站功能：AI聊天网站简介：一款多模态大模型，可以理解和生成多种模态的信息，包括文本、图像和音频等。提供了API接

MetaAI 开源 ImageBind，可让模型跨 6 种不同的模态（图像、文本、音频、深度、热能和 IMU 数据）进行联动

MetaAI开源ImageBind，可让模型跨6种不同的模态（图像、文本、音频、深度、热能和IMU数据）进行联动借助ImageBind，则可以做到直接通过声音来直接生成图像。这使得AI能够更加深入了解人类情感，理解他们的喜怒哀乐，进而为人类提供更好的服务。当你举起手机，录制一个海边日落的视频时，AI便能自动根据视频内容来生成文案和字幕，并匹配上合适的背景音乐。至AI还有可能通过一首歌，直接为歌手生成一段视频MV。此举将为AIGC技术带来更为广泛的应用场景，一大波更为有趣、实用的AI项目也即将来袭。#AI来源，https://github.com/facebookresearch/ImageBind来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

谷歌发布最新多模态模型GeminiGemini能够归纳并流畅地理解、操作处理包括文本、代码、音频、图像和视频在内的信息。据说宣传

Google的文本到图像的人工智能模型Imagen有限公开亮相

Google的文本到图像的人工智能模型Imagen有限公开亮相AITestKitchen是在今年早些时候推出的，是Google对各种AI系统进行测试的一种方式。目前，该应用程序提供了一些不同的方式与Google的文本模型LAMDA（是的，就是那个工程师认为有知觉的模型，然后他被开除了）进行互动，该公司很快将增加类似的限制性Imagen请求，作为其所谓的应用程序"第二季"更新的一部分。简而言之，将有两种方式与Imagen互动，Google在今天的公告前演示了这一点。演示项目分别是："城市梦想家"和"摇摆不定"。在"城市梦想家"中，用户可以要求模型生成围绕他们选择的主题设计的城市元素--例如，南瓜、牛仔布或黑颜色。Imagen创建了样本建筑和地块（城市广场、公寓楼、机场等等），所有的设计都以类似于《模拟城市》中看到的等距模型出现。城市梦想家"任务让用户要求以等距设计为主题的城市建筑与其他文本到图像的模式相比，这些互动是非常受限制的，用户不能随便要求他们喜欢的东西。不过，这也是Google有意为之。正如Google产品管理高级总监乔希-伍德沃德（JoshWoodward）向TheVerge解释的那样，AITestKitchen的全部意义在于：a）获得公众对这些AI系统的反馈；b）找出更多关于人们将如何打破它们的信息。伍德沃德不愿意讨论任何关于AITestKitchen用户如何破坏其LaMDA功能的具体例子，但他指出，当模型被要求描述具体地点时，就出现了一个弱点。伍德沃德说："在历史上的不同时期，一个地点对不同的人意味着不同的东西，所以我们看到了一些相当有创意的方式，人们试图把某个地方放到系统中，看看它产生了什么，"。当被问及哪些地方可能产生有争议的描述时，伍德沃德举了俄克拉荷马州塔尔萨的例子。"20世纪20年代，塔尔萨发生了一系列种族骚乱，"他说。"如果有人输入'塔尔萨'，模型甚至可能不参考这个......你可以想象世界各地的复杂情况。""摇摆"功能让用户设计一个怪物并让它跳舞想象一下，如果你要求一个人工智能模型描述德国中世纪的达豪镇。你是否希望模型的答案提及建在那里的纳粹集中营？你怎么知道用户是否在寻找这些信息？在任何情况下省略它都是可以接受的吗？在许多方面，设计具有文本界面的人工智能模型的问题与微调搜索的挑战相似：需要以一种让用户满意的方式解释用户的请求。Google不会分享关于有多少人在实际使用AITestKitchen的数据（"我们并没有打算把它变成一个10亿用户的Google应用，"伍德沃德说），但他说它得到的反馈是非常宝贵的。"参与度远远高于我们的预期。并且这是一个非常活跃、有主见的用户群体。"他指出，该应用程序在接触"某些类型的人--研究人员、政策制定者"方面非常有用，他们可以用它来更好地了解最先进的人工智能模型的局限性和能力。不过，最大的问题是，Google是否会想把这些模型推向更广泛的公众，如果是这样，会采取什么形式？目前，该公司的竞争对手OpenAI和StabilityAI正急于将文本-图像模型商业化。Google是否会觉得自己的系统足够安全，可以走出人工智能测试阶段，从而直接提供给用户？...PC版：https://www.cnbeta.com.tw/articles/soft/1331649.htm手机版：https://m.cnbeta.com.tw/view/1331649.htm

：用于训练、微调和生成模型推理的框架，包括文本到图像生成、可控图像合成、图像编辑等多种功能

云从科技：从容大模型支持通过文本和音频生成图像和视频