Beeble AI和纽约大学一起发布的论文,支持一非常低的成本让人物同虚拟环境的光照相融合,效果看起来非常好。

Beeble AI和纽约大学一起发布的论文,支持一非常低的成本让人物同虚拟环境的光照相融合,效果看起来非常好。 他们最新的模型还支持从图片和视频中提取非常丰富的深度信息,可以从单个图像中提取反照率、法线、深度、粗糙度、镜面反射和照明等信息。 论文简介: 我们提出了一种新的人像重照明技术一种融合物理指导架构和预训练框架的协同设计方法。这种方法基于库克-托伦斯(Cook-Torrance)反射模型,我们精心设计了架构,从而能够精准地模拟光线与物体表面的交互效果。 此外,为了解决高质量光源数据稀缺的问题,我们还开发了一种自我监督的预训练策略。通过这种结合了精确物理建模和扩展训练数据集的创新方法,我们为提高重照明效果的真实感设定了新的标准。 论文地址:

相关推荐

封面图片

微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很

微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很有参考性。 项目介绍: 本项目旨在通过新的文本至图像生成方法,着重采用多重低秩适应(Low-Rank Adaptations, LoRAs)技术,创造高度个性化且细节丰富的图像。我们介绍了LoRA开关(LoRA Switch)与LoRA组合(LoRA Composite),这两种方式的目标是在精确度和图像质量上超越传统技术,特别是在处理复杂图像组合时。 项目特色: 免训练方法 LoRA开关和LoRA组合支持动态精确地整合多个LoRA,无需进行微调。 我们的方法不同于那些融合LoRA权重的做法,而是专注于解码过程,并保持所有LoRA权重不变。 ComposLoRA测试平台 这是一个全新的综合性测试平台,包含480套组合和22个在六大类别中预训练好的LoRA。 ComposLoRA专为评估基于LoRA的可组合图像生成任务而设计,支持定量评估。 基于GPT-4V的评估工具 我们提出采用GPT-4V作为评估工具,用以判定组合效果及图像质量。 该评估工具已证实在与人类评价的相关性上有更好的表现。 卓越性能 无论是自动化还是人类评价,我们的方法都显著优于现有的LoRA合并技术。 在生成复杂图像组合的场景中,我们的方法表现出更加突出的优势。 详尽分析 我们对每种方法在不同场景下的优势进行了深入的分析。 同时,我们还探讨了采用GPT-4V作为评估工具可能存在的偏差。 项目地址:

封面图片

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。 而且还可以与 ControlNet 和 IP-Adapter 等其他技术结合使用。还是开源的,期待对应的 ComfUI 节点。 详细介绍: 推出了一种名为 Magic Clothing 的新型网络架构,它基于潜在扩散模型(LDM)进行开发,专门处理一项新的图像合成任务服装驱动的图像合成。 该系统旨在生成根据不同文本提示定制的、穿着特定服装的角色。在这一过程中,图像的可控性至关重要,主要是要确保服装的细节得以保留,并且生成的图像要忠实于文本提示。 为了实现这一点,我们开发了一种服装特征提取器,用以详细捕捉服装的特征,并通过自注意力融合技术,将这些特征有效整合到预训练好的LDMs中,确保目标角色的服装细节不发生改变。 同时,我们还使用了一种称为联合无分类器指导的技术,以平衡服装特征和文本提示在生成图像中的影响。 此外,我们提出的服装提取器是一个可插拔模块,可以应用于多种经过微调的LDMs,并能与 ControlNet 和 IP-Adapter 等其他技术结合使用,进一步提高生成角色的多样性和可控性。 我们还开发了一种名为匹配点LPIPS(MP-LPIPS)的新型评估指标,用于评价生成图像与原始服装之间的一致性。 论文地址:

封面图片

来自航天飞机的灵感提高了mRNA治疗肥胖症的效果

来自航天飞机的灵感提高了mRNA治疗肥胖症的效果 生物工程系副教授迈克尔-米切尔(Michael J. Mitchell)在《自然-通讯》(Nature Communications)上发表了一篇论文,介绍了一种合成可离子化类脂的新方法,类脂是LNPs的关键化学成分,有助于保护和递送药物载荷。这些 LNP 在实施 mRNA 疗法(如辉瑞生物技术公司和 ModernaCOVID-19疫苗)方面发挥了关键作用。在这篇论文中,Mitchell 和他的合作者测试了治疗肥胖症的 mRNA 药物和治疗遗传病的基因编辑工具的输送。以前的实验表明,尾部带支链的类脂质能更好地向细胞传递mRNA,但制造这些分子的方法耗时耗钱。米切尔实验室博士后、本文共同第一作者韩学祥说:"我们提供了一种新颖的构建策略,可以快速、低成本地合成这些类脂质。"新分子的设计灵感来自航天飞机的双助推火箭,它能提高脂质纳米粒子的药物输送效果,同时简化其制造过程。资料来源:米切尔实验室这种方法需要将三种化学物质结合在一起:一个胺"头",两个环氧化烷基"尾",最后是两个酰基氯"支尾"。完成后的类脂类似于绑在两枚助推火箭上的航天飞机,这并非巧合:韩回忆说,在大学时,一部关于航天飞机的纪录片给他留下了深刻印象,航天飞机的固体火箭助推器设计使其能够进入轨道。"我想,我们可以在类脂质中添加两个分支尾巴作为'助推器',以促进mRNA的输送。"添加了分枝尾翼后,配备了新型类脂的LNP向靶细胞递送mRNA的能力显著提高,就像火箭的助推器能让火箭更容易穿透大气层一样。米切尔说:"我们看到,使用这些类脂质向靶细胞输送mRNA后,一种调节新陈代谢的激素的数量急剧增加,如果将其视为治疗肥胖症的一种方法,这确实令人兴奋。" ... PC版: 手机版:

封面图片

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。 这个想象力很大能带来很多玩法。也可以使用现有的 SD 社区模型。 项目介绍: LayerDiffusion使得大型已经过预训练的潜在扩散模型(latent diffusion model)能够创造透明图像。 这项技术不仅可以生成单独的透明图像,还能生成多层透明图层。它通过一种被称为“潜在透明度”的方法,将透明度(即 alpha 通道)整合到预训练的潜在扩散模型的潜在结构中。 这样做的好处是,它通过以潜在偏移的形式加入透明度,几乎不改变模型原有的潜在分布,从而保持了模型的高质量输出能力。基于这种方法,任何一个潜在扩散模型都可以通过对潜在空间的微调,转化为透明图像生成器。 我们训练这个模型时,使用了一种涉及人机互动的方法,收集了一百万组透明图像层数据。 我们的研究显示,这种潜在透明技术不仅可以应用于不同的开源图像生成器,还可以适配多种条件控制系统,实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。 一项用户研究发现,大多数情况下(97%),相比于之前的临时解决方案(如先生成图像再进行抠图处理),用户更喜欢我们直接生成的透明内容。用户还表示,我们生成的透明图像在质量上可媲美真实的商业级透明素材,例如 Adobe Stock 提供的素材。 论文地址:

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。 从社区讨论来看,这个研究可以大幅压缩模型体积,让 120B 大小的模型能在 24G 显存的设备上运行。 再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。 论文简介: 《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》 一种1位的LLM变体,命名为BitNet b1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。 更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。 论文:

封面图片

RMBG v1.4一个新的背景分割开源模型,效果非常好,感觉跟现在顶尖的产品 remove bg 的效果不相上下了。

RMBG v1.4一个新的背景分割开源模型,效果非常好,感觉跟现在顶尖的产品 remove bg 的效果不相上下了。 该模型在精心挑选的数据集上进行了训练,其中包括:普通图片库、电子商务、游戏和广告内容,使其适用于商业用例,为大规模的企业内容创建提供动力。 模型使用超过 12,000 张高质量、高分辨率、手动标记(像素精度)、完全许可的图像进行训练。 其准确性、效率和多功能性目前可与领先的开源模型相媲美。 模型下载:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人