微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很

微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很有参考性。 项目介绍: 本项目旨在通过新的文本至图像生成方法,着重采用多重低秩适应(Low-Rank Adaptations, LoRAs)技术,创造高度个性化且细节丰富的图像。我们介绍了LoRA开关(LoRA Switch)与LoRA组合(LoRA Composite),这两种方式的目标是在精确度和图像质量上超越传统技术,特别是在处理复杂图像组合时。 项目特色: 免训练方法 LoRA开关和LoRA组合支持动态精确地整合多个LoRA,无需进行微调。 我们的方法不同于那些融合LoRA权重的做法,而是专注于解码过程,并保持所有LoRA权重不变。 ComposLoRA测试平台 这是一个全新的综合性测试平台,包含480套组合和22个在六大类别中预训练好的LoRA。 ComposLoRA专为评估基于LoRA的可组合图像生成任务而设计,支持定量评估。 基于GPT-4V的评估工具 我们提出采用GPT-4V作为评估工具,用以判定组合效果及图像质量。 该评估工具已证实在与人类评价的相关性上有更好的表现。 卓越性能 无论是自动化还是人类评价,我们的方法都显著优于现有的LoRA合并技术。 在生成复杂图像组合的场景中,我们的方法表现出更加突出的优势。 详尽分析 我们对每种方法在不同场景下的优势进行了深入的分析。 同时,我们还探讨了采用GPT-4V作为评估工具可能存在的偏差。 项目地址:

相关推荐

封面图片

作者展示了几张用自己训练好的 LoRA 模型生成的图像作为成果展示。这些图像的质量相当不错,证明作者的训练过程是成功的。作者表示

作者展示了几张用自己训练好的 LoRA 模型生成的图像作为成果展示。这些图像的质量相当不错,证明作者的训练过程是成功的。作者表示,训练好的模型可以根据输入的提示词和参数,生成特定风格和效果的图像。 完整教程:

封面图片

9个GPT-4V 用例:

9个GPT-4V 用例: 1、菜单翻译(其实甚至没文字只有菜品图都没问题) 2、随身导游,逛博物馆时会很好用 3、厨房助力,拍冰箱或者菜市场的照片让ChatGPT推荐做什么 4、家装设计师,拍张家里的照片就可以获取装修建议 5、穿搭建议,拍个全身照可以获得穿搭建议 6、看手相 7、X光片解读 8、CT扫描解读 9、安检机的X光线图像也能解读,用来辅助人工理解应该也有机会很快落地

封面图片

【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VI

【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VID支持单图、短视频和长视频三种输入,只通过一个非常简单的办法就达成了如上能力,那就是:单帧画面压缩到只用2个token编码。 #抽屉IT

封面图片

一个懒人 LoRA 制作指南,手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。

一个懒人 LoRA 制作指南,手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。 作者是用XL生成的图片,你可以用MIdjoureny生成效果比较好。 我完整翻译了内容,并且重新整理了适合推特阅读的版本,或者你可以在下面看完整翻译的内容: - 1⃣ LoRA 模型制作教程 作者作为一名 LoRA 模型制作的新手,通过自己的学习实践,总结了一份简明扼要的制作教程。 这份教程不涉及太多理论知识,而是直奔主题,手把手教初学者如何训练自己的 LoRA 模型。 作者坦诚分享了自己从最初尝试 Embedding 和 LoRA 时遇到的问题,以及后来找到的解决方法,为读者提供了宝贵的经验参考。 所需工具介绍 要制作 LoRA 模型,需要准备一些必要的工具。作者推荐使用自己喜欢的模型和图像生成工具,他个人使用的是 StableSwarmUI 和 GhostXL 模型。 此外,还需要一个训练工具,作者选择了 OneTrainer,因为有人说它比另一个常用的工具 Kohya 更易用。作者还提到,训练时如果需要将 SDXL 格式的图像转换为 SD 格式,需要在设置中开启分辨率覆盖选项。 2⃣ LoRA 模型制作步骤 作者将 LoRA 模型的制作过程分为三个主要步骤: 第一步是用现有的模型生成大量高质量的图像作为训练数据; 第二步是人工检查挑选图像,剔除所有质量不合格的; 第三步是使用 OneTrainer 进行训练,调整必要的参数设置。 作者还特别提到,在训练时如果需要将 SDXL 格式的图像转换为 SD 格式,一定要记得开启分辨率覆盖选项,否则训练会出问题。 训练参数调整心得 作为一名新手,作者在调整训练参数时主要参考了一份网上的指南。 他尝试调整了 Lora 设置中的 rank 参数,将其从默认的 16 改为 32,解决了模型训练中遇到的问题。作者分享了这份参数调整指南的链接,供其他学习者参考。 3⃣ 作者的训练数据集分享 为了帮助更多学习者,作者慷慨地分享了自己完整的训练图像数据集,其中还包含了他使用的 OneTrainer 配置文件。这些数据可供其他 LoRA 制作人下载参考和使用。数据集已经过作者的筛选,图像质量有保证。 4⃣ 训练成果展示

封面图片

OpenAI强势推出GPT-4o   具实时语音、文本、图像交互能力

OpenAI强势推出GPT-4o   具实时语音、文本、图像交互能力 OpenAI周一发布了一个性能更高、更接近人类的人工智能(AI)技术版本,该技术支持其备受欢迎的AI生成工具ChatGPT,并向所有用户免费开放。

封面图片

GPT-4V 开启了AI 多模态时代

GPT-4V 开启了AI 多模态时代 越来越多人拿到 ChatGPT 新的多模态能力,让我们先望梅止渴, 看看海外玩家们如何探索出的大批新场景和应用案例;相信你也和我一样能意识到, GPT-4V 正在推动世界进入全新的阶段。 无论你是学生、父母、老师、医生、程序员、设计师、创作者、工程师,或是传统农业和制造业,都能在以下场景找到启发。 教学场景。 Peteryang 演示了一个教育场景:他使用ChatGPT 的图像识别和分析能力,他的孩子讨论了人体结构,从大脑到心脏的精确说明令人振奋。 提示词只有一句:“我现在一年级。给我解释一下。” 这代表着学生将进入前所未有 1:1 的个性化指导时代。(图 1) 停车场景。面对眼花撩乱的停车指示牌,Peter 还请 GPT-V智能识别并推理分析了一下具体的可行性,「请一句话告诉我:现在周三下午4点, 我能在这停车吗?」结果秒出~ (图 2) 饮食健康。 Mckay Wrigley 测试了 GPT-4V 作为健康管理工具的能力,智能分析了图片中所有的蔬菜水果「转换」成了基于热量、蛋白、 脂肪的结构化数据(Json 格式便于后续编程,图 3) 故事脚本分析。Mckay Wrigley 还让 GPT-V 分析了《盗梦空间》的设计图标,发现ChatGPT 对图表的结构和流程、各个部分的位置有着深入的理解,并能够连贯、智能地将其拼凑在一起。(图 4) 图片对照。 Andrew Morgan 发现 GPT-V 非常擅长对比图片差异。「找不同」功能看起来微不足道,但是想一想库存管理、取证扫描、甚至制造业等生产场景,他认为视觉智能的应用前景不可估量。(图 5) 学术研究。 教授 Ethon Mollick 让 GPT-4V 识别了一个手稿,识别率惊人的高。他认为对于许多学术领域来说,这可能会是一件大事,特别是因为 AI 还可以对文本进行「推理」。(图 6) 室内设计。Pietro Schirano 请 GPT-4V 给出了改进建议,结合自定义说明将其进行了个性化建议中,从颜色到触感(图 7)。Pietro 感到难以置信! 摄影技巧。Pietro 还尝试GPT-4V 对指定的摄影作品给建议,其专业建议的推理能力令人大开眼界。 参数设置建议,如图8。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人