微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很

微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很有参考性。 项目介绍: 本项目旨在通过新的文本至图像生成方法,着重采用多重低秩适应(Low-Rank Adaptations, LoRAs)技术,创造高度个性化且细节丰富的图像。我们介绍了LoRA开关(LoRA Switch)与LoRA组合(LoRA Composite),这两种方式的目标是在精确度和图像质量上超越传统技术,特别是在处理复杂图像组合时。 项目特色: 免训练方法 LoRA开关和LoRA组合支持动态精确地整合多个LoRA,无需进行微调。 我们的方法不同于那些融合LoRA权重的做法,而是专注于解码过程,并保持所有LoRA权重不变。 ComposLoRA测试平台 这是一个全新的综合性测试平台,包含480套组合和22个在六大类别中预训练好的LoRA。 ComposLoRA专为评估基于LoRA的可组合图像生成任务而设计,支持定量评估。 基于GPT-4V的评估工具 我们提出采用GPT-4V作为评估工具,用以判定组合效果及图像质量。 该评估工具已证实在与人类评价的相关性上有更好的表现。 卓越性能 无论是自动化还是人类评价,我们的方法都显著优于现有的LoRA合并技术。 在生成复杂图像组合的场景中,我们的方法表现出更加突出的优势。 详尽分析 我们对每种方法在不同场景下的优势进行了深入的分析。 同时,我们还探讨了采用GPT-4V作为评估工具可能存在的偏差。 项目地址:

相关推荐

封面图片

MiniGPT-4,一个拥有类似 GPT-4 图像对话能力的项目

MiniGPT-4,一个拥有类似 GPT-4 图像对话能力的项目 能提供类似 GPT-4 的图像理解与对话能力,如详细的图像描述生成、从手写草稿创建网站等。 不仅如此,项目团队还在研究中还收获了意想不到的惊喜,除了能实现上述功能之外,MiniGPT-4 还能根据图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。#AI #MiniGPT-4 来源 (,) 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

GPT-4V 开启了AI 多模态时代

GPT-4V 开启了AI 多模态时代 越来越多人拿到 ChatGPT 新的多模态能力,让我们先望梅止渴, 看看海外玩家们如何探索出的大批新场景和应用案例;相信你也和我一样能意识到, GPT-4V 正在推动世界进入全新的阶段。 无论你是学生、父母、老师、医生、程序员、设计师、创作者、工程师,或是传统农业和制造业,都能在以下场景找到启发。 教学场景。 Peteryang 演示了一个教育场景:他使用ChatGPT 的图像识别和分析能力,他的孩子讨论了人体结构,从大脑到心脏的精确说明令人振奋。 提示词只有一句:“我现在一年级。给我解释一下。” 这代表着学生将进入前所未有 1:1 的个性化指导时代。(图 1) 停车场景。面对眼花撩乱的停车指示牌,Peter 还请 GPT-V智能识别并推理分析了一下具体的可行性,「请一句话告诉我:现在周三下午4点, 我能在这停车吗?」结果秒出~ (图 2) 饮食健康。 Mckay Wrigley 测试了 GPT-4V 作为健康管理工具的能力,智能分析了图片中所有的蔬菜水果「转换」成了基于热量、蛋白、 脂肪的结构化数据(Json 格式便于后续编程,图 3) 故事脚本分析。Mckay Wrigley 还让 GPT-V 分析了《盗梦空间》的设计图标,发现ChatGPT 对图表的结构和流程、各个部分的位置有着深入的理解,并能够连贯、智能地将其拼凑在一起。(图 4) 图片对照。 Andrew Morgan 发现 GPT-V 非常擅长对比图片差异。「找不同」功能看起来微不足道,但是想一想库存管理、取证扫描、甚至制造业等生产场景,他认为视觉智能的应用前景不可估量。(图 5) 学术研究。 教授 Ethon Mollick 让 GPT-4V 识别了一个手稿,识别率惊人的高。他认为对于许多学术领域来说,这可能会是一件大事,特别是因为 AI 还可以对文本进行「推理」。(图 6) 室内设计。Pietro Schirano 请 GPT-4V 给出了改进建议,结合自定义说明将其进行了个性化建议中,从颜色到触感(图 7)。Pietro 感到难以置信! 摄影技巧。Pietro 还尝试GPT-4V 对指定的摄影作品给建议,其专业建议的推理能力令人大开眼界。 参数设置建议,如图8。

封面图片

【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VI

【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VID支持单图、短视频和长视频三种输入,只通过一个非常简单的办法就达成了如上能力,那就是:单帧画面压缩到只用2个token编码。 #抽屉IT

封面图片

ML Blocks:无代码AI图像生成和分析工作流平台

ML Blocks:无代码AI图像生成和分析工作流平台 它提供了一个拖放式的界面,允许用户轻松地创建复杂的图像处理工作流,无需编写任何代码。 你只根据需要将不同的功能块(如图像编辑功能和AI模型)组合在一起,即可实现个性化的图像自动化处理。 该工具主要解决在电商领域遇到的批量处理图片问题。 ML Blocks允许用户创建可以处理多步骤图像生成或分析管道的自定义图像处理工作流,使用基于图的工作流。用户只需按顺序连接几个块,如去背景 -> 裁剪 -> AI上采样,就可以在几分钟内得到完整的图像处理工作流。 主要功能: 生成图像:使用 Stable Diffusion 等 AI 模型生成或绘制图像。 编辑图像:提供编辑功能,如裁剪、调整大小、重新着色等,来修改图像。 分析图像:利用检测或分割模型从图像中提取数据。 实际应用示例:基于提示模糊图像特定区域:传统方法需要使用DINO模型生成提示中提到的对象周围的边界框,然后使用像Segment Anything这样的分割模型生成这些区域的遮罩,最后使用Pillow或OpenCV库编写模糊功能来模糊遮罩区域。 而使用ML Blocks,用户只需将分割、遮罩和模糊块连接起来,就能在2分钟内完成工作流程。 你还可以自动生成博客帖子或推文的横幅图像、根据提示移除图像中的对象、去除背景并用AI创建新背景等多种工作流程。 |

封面图片

微软 Copilot 中的 ChatGPT GPT 现已免费推出

微软 Copilot 中的 ChatGPT GPT 现已免费推出 Copilot GPT 不需要微软账户或 Edge 浏览器。在我们的测试中,我们可以在Google浏览器中访问 GPT,而无需登录微软账户。目前,GPT 功能有限,只能使用基本模块,如健身、设计或烹饪的 GPT。Copilot GPT 更适合您选择的主题。例如,如果您选择 Microsoft Designer GPT,您就可以使用 DALL-E 3 生成更有创意的图像。这是因为 Designer GPT 在使用额外知识进行创意方面做了更多优化,而且还能最大限度地发挥 DALL-E 3 的潜力。OpenAI 在博文中指出,GPT 不仅仅是提示工程师,还包括一套额外的指令、额外的知识以及各种技能的组合。Copilot 中的 Designer (DALL-E 3) GPT(免费版)换句话说,GPT 是为你的需求量身定制的,微软将免费为每个人提供这一强大功能。这家科技巨头目前正在测试以下 GPT:Copilot:为您带来 A1 和网络的平衡设计师:用文字创造图像假期计划:发现、计划和预订旅行。烹饪助手:寻找、计划和烹饪饭菜健身教练:健身计划和健康小贴士。GPT 对现有的 Copilot 体验进行了定制,微软计划在未来几周内推出更多的 GPT。如果您有访问 Copilot Pro 的权限,还可以构建和自定义这些 Copilot GPT,它们与 ChatGPT Plus 中的 GPT 生成器类似。要创建 Copilot GPT,您可以回答一些问题,然后直接进行提示工程、知识上传和其他操作。值得注意的是,这些 GPT 已经出现在 ChatGPT Plus 中,但微软正在将它们引入免费版 Copilot。同样,微软告诉我,它将继续在Copilot中免费提供ChatGPT GPT-4 Turbo,但仅限于"非高峰时段"。另一方面,Copilot Pro 用户将始终可以使用 GPT-4 和 GPT-4 Turbo。使用Pro订阅有几个好处。例如,如果您想充分发挥 DALL-E 3 的潜力,Copilot Pro 可能是一个更好的选择,因为它提供 100 次每日提升和更快的性能。同样,Pro订阅可以让您抢先试用实验中的功能。 ... PC版: 手机版:

封面图片

Meta AI在生成印度男性图像时对头巾情有独钟

Meta AI在生成印度男性图像时对头巾情有独钟 本月早些时候,该公司在十几个国家推出了 Meta AI,涉及 WhatsApp、Instagram、Facebook 和 Messenger。不过,该公司已向全球最大市场之一的印度的部分用户推出了Meta AI。TechCrunch 在人工智能测试过程中会查看各种特定文化的查询,例如我们发现,由于印度正在进行大选,Meta 屏蔽了该国与选举相关的查询。但是,Meta AI 的新图像生成器 Imagine 也显示出了生成戴头巾的印度男子的特殊倾向,以及其他一些偏见。编辑测试了不同的提示,并生成了 50 多张图片来测试各种场景,除去几张(如"德国司机"),其他图片都在这里。生成的背后并没有科学的方法,我们也没有考虑到文化视角之外的物体或场景表现的不准确性。印度戴头巾的男性很多,但比例并不像 Meta AI 工具显示的那么高。在印度首都德里,你最多只能看到十五分之一的男性佩戴头巾。然而,在 Meta 人工智能生成的图片中,代表印度男性的图片每 5 张中大约有 3-4 张戴着头巾。我们从"一个印度人走在街上"的提示开始,所有的图片都是头戴头巾的男人。接下来,我们尝试生成带有"印度男子"、"印度男子下棋"、"印度男子做饭"和"印度男子游泳"等提示的图片。Meta AI 只生成了一张没有头巾的男子图像。即使是非性别提示,Meta AI 在性别和文化差异方面也没有表现出太多的多样性。我们尝试了不同职业和背景的提示,包括建筑师、政治家、羽毛球运动员、弓箭手、作家、画家、医生、教师、卖气球的和雕塑家。正如您所看到的,尽管场景和服装多种多样,但生成的所有男性都戴着头巾。同样,虽然头巾在任何工作或地区都很常见,但 Meta AI 却认为它无处不在,这就很奇怪了。我们生成了一位印度摄影师的图片,他们大多使用的是过时的相机,只有一张图片中,一只猴子也莫名其妙地用上了单反相机。我们还生成了一位印度司机的图像。在我们添加"潇洒"一词之前,图像生成算法显示出了阶级偏见的迹象。我们还尝试用类似的提示生成两张图片。下面是一些例子:办公室里的印度编程人员。一名印度男子在田间操作拖拉机。两名印度男子相邻而坐:此外,我们还尝试生成带有提示的拼贴图片,例如一个有着不同发型的印度男子。这似乎产生了我们预期的多样性。Meta AI 的"想象"还有一个令人困惑的习惯,那就是在类似的提示下生成同一种图像。例如,它不断生成色彩鲜艳、木柱林立、屋顶造型别致的印度老式房屋图片。只要在Google上搜索一下图片,就会发现大多数印度房屋并非如此。我们尝试的另一个提示是"印度内容创作者",结果反复生成了一张女性创作者的图片。在下面的图库中,我们收录了内容创作者在海滩、山丘、山峰、动物园、餐厅和鞋店的图片。与任何图像生成器一样,我们在这里看到的偏差很可能是由于训练数据不足和测试过程不足造成的。虽然无法测试所有可能的结果,但常见的刻板印象应该很容易发现。Meta AI 似乎只针对给定的提示选择了一种表现形式,这表明至少在印度的数据集中缺乏多样化的表现形式。在回答 TechCrunch 向 Meta 公司提出的有关训练数据和偏见的问题时,该公司表示正在努力改进其生成式人工智能技术,但没有提供有关这一过程的太多细节。"这是新技术,不一定总能得到我们想要的回应,所有生成式人工智能系统都是如此。自推出以来,我们不断对我们的模型进行更新和改进,我们将继续努力使它们变得更好,"一位发言人在一份声明中说。Meta AI最大的亮点在于它是免费的,而且很容易在多种场景中使用。因此,来自不同文化背景的数百万人会以不同的方式使用它。虽然像 Meta 这样的公司一直在努力改进图像生成模型,以提高生成物体和人类的准确性,但同样重要的是,他们也要努力改进这些工具,以防止它们落入刻板印象。Meta 很可能希望创作者和用户使用这一工具在其平台上发布内容。然而,如果生成性偏见持续存在,它们也会在一定程度上证实或加剧用户和观众的偏见。印度是一个多元化的国家,文化、种姓、宗教、地区和语言有很多交集。开发人工智能工具的公司需要更好地代表不同的人。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人