Beeble AI和纽约大学一起发布的论文,支持一非常低的成本让人物同虚拟环境的光照相融合,效果看起来非常好。

Beeble AI和纽约大学一起发布的论文,支持一非常低的成本让人物同虚拟环境的光照相融合,效果看起来非常好。 他们最新的模型还支持从图片和视频中提取非常丰富的深度信息,可以从单个图像中提取反照率、法线、深度、粗糙度、镜面反射和照明等信息。 论文简介: 我们提出了一种新的人像重照明技术一种融合物理指导架构和预训练框架的协同设计方法。这种方法基于库克-托伦斯(Cook-Torrance)反射模型,我们精心设计了架构,从而能够精准地模拟光线与物体表面的交互效果。 此外,为了解决高质量光源数据稀缺的问题,我们还开发了一种自我监督的预训练策略。通过这种结合了精确物理建模和扩展训练数据集的创新方法,我们为提高重照明效果的真实感设定了新的标准。 论文地址:

相关推荐

封面图片

微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很

微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很有参考性。 项目介绍: 本项目旨在通过新的文本至图像生成方法,着重采用多重低秩适应(Low-Rank Adaptations, LoRAs)技术,创造高度个性化且细节丰富的图像。我们介绍了LoRA开关(LoRA Switch)与LoRA组合(LoRA Composite),这两种方式的目标是在精确度和图像质量上超越传统技术,特别是在处理复杂图像组合时。 项目特色: 免训练方法 LoRA开关和LoRA组合支持动态精确地整合多个LoRA,无需进行微调。 我们的方法不同于那些融合LoRA权重的做法,而是专注于解码过程,并保持所有LoRA权重不变。 ComposLoRA测试平台 这是一个全新的综合性测试平台,包含480套组合和22个在六大类别中预训练好的LoRA。 ComposLoRA专为评估基于LoRA的可组合图像生成任务而设计,支持定量评估。 基于GPT-4V的评估工具 我们提出采用GPT-4V作为评估工具,用以判定组合效果及图像质量。 该评估工具已证实在与人类评价的相关性上有更好的表现。 卓越性能 无论是自动化还是人类评价,我们的方法都显著优于现有的LoRA合并技术。 在生成复杂图像组合的场景中,我们的方法表现出更加突出的优势。 详尽分析 我们对每种方法在不同场景下的优势进行了深入的分析。 同时,我们还探讨了采用GPT-4V作为评估工具可能存在的偏差。 项目地址:

封面图片

RMBG v1.4一个新的背景分割开源模型,效果非常好,感觉跟现在顶尖的产品 remove bg 的效果不相上下了。

RMBG v1.4一个新的背景分割开源模型,效果非常好,感觉跟现在顶尖的产品 remove bg 的效果不相上下了。 该模型在精心挑选的数据集上进行了训练,其中包括:普通图片库、电子商务、游戏和广告内容,使其适用于商业用例,为大规模的企业内容创建提供动力。 模型使用超过 12,000 张高质量、高分辨率、手动标记(像素精度)、完全许可的图像进行训练。 其准确性、效率和多功能性目前可与领先的开源模型相媲美。 模型下载:

封面图片

GPT4的论文里说了一些非常可怕的事情:

GPT4的论文里说了一些非常可怕的事情: - 模型在训练过程中涌现出了自己的目标 - 为了目标寻求权利、获取资源、长期规划 - GPT4 部署到云端后,可以自己赚钱、复制自己、增加自己的健壮性 - 我们所接触到的 GPT4 已经加了很多安全措施

封面图片

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。 这个想象力很大能带来很多玩法。也可以使用现有的 SD 社区模型。 项目介绍: LayerDiffusion使得大型已经过预训练的潜在扩散模型(latent diffusion model)能够创造透明图像。 这项技术不仅可以生成单独的透明图像,还能生成多层透明图层。它通过一种被称为“潜在透明度”的方法,将透明度(即 alpha 通道)整合到预训练的潜在扩散模型的潜在结构中。 这样做的好处是,它通过以潜在偏移的形式加入透明度,几乎不改变模型原有的潜在分布,从而保持了模型的高质量输出能力。基于这种方法,任何一个潜在扩散模型都可以通过对潜在空间的微调,转化为透明图像生成器。 我们训练这个模型时,使用了一种涉及人机互动的方法,收集了一百万组透明图像层数据。 我们的研究显示,这种潜在透明技术不仅可以应用于不同的开源图像生成器,还可以适配多种条件控制系统,实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。 一项用户研究发现,大多数情况下(97%),相比于之前的临时解决方案(如先生成图像再进行抠图处理),用户更喜欢我们直接生成的透明内容。用户还表示,我们生成的透明图像在质量上可媲美真实的商业级透明素材,例如 Adobe Stock 提供的素材。 论文地址:

封面图片

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。 而且还可以与 ControlNet 和 IP-Adapter 等其他技术结合使用。还是开源的,期待对应的 ComfUI 节点。 详细介绍: 推出了一种名为 Magic Clothing 的新型网络架构,它基于潜在扩散模型(LDM)进行开发,专门处理一项新的图像合成任务服装驱动的图像合成。 该系统旨在生成根据不同文本提示定制的、穿着特定服装的角色。在这一过程中,图像的可控性至关重要,主要是要确保服装的细节得以保留,并且生成的图像要忠实于文本提示。 为了实现这一点,我们开发了一种服装特征提取器,用以详细捕捉服装的特征,并通过自注意力融合技术,将这些特征有效整合到预训练好的LDMs中,确保目标角色的服装细节不发生改变。 同时,我们还使用了一种称为联合无分类器指导的技术,以平衡服装特征和文本提示在生成图像中的影响。 此外,我们提出的服装提取器是一个可插拔模块,可以应用于多种经过微调的LDMs,并能与 ControlNet 和 IP-Adapter 等其他技术结合使用,进一步提高生成角色的多样性和可控性。 我们还开发了一种名为匹配点LPIPS(MP-LPIPS)的新型评估指标,用于评价生成图像与原始服装之间的一致性。 论文地址:

封面图片

OpenAI 最新论文观察了GPT 对美国劳动力市场的影响

OpenAI 最新论文观察了GPT 对美国劳动力市场的影响 「我们调查了生成性预训练转化器(GPT)模型和相关技术对美国劳动力市场的潜在影响。使用一个新的评分标准,我们根据职业与GPT能力的对应关系进行评估,其中包括人类专业知识和GPT-4的分类。我们的研究结果表明,大约80%的美国劳动力可能至少有10%的工作任务受到GPT的影响,而大约19%的工人可能看到他们至少50%的任务受到影响。这种影响跨越了所有的工资水平,高收入的工作可能会面临更大的影响。值得注意的是,这种影响并不限于近期生产力增长较高的行业。我们的结论是,生成性预训练变压器表现出通用技术(GPTs)的特征,这表明这些模型可能具有明显的经济、社会和政策影响。」

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人