:大规模生成图像理解数据集,包含4,429,295个高分辨率的Midjourney生成图像,带有相应的文本提示、图像标题和视觉问

None

相关推荐

封面图片

:基于Gradio库的Stable Diffusion的浏览器界面,提供了各种功能,包括文本到图像、图像到图像模式、生成高分辨率

封面图片

用人脑活动的潜伏扩散模型进行高分辨率图像重建:

用人脑活动的潜伏扩散模型进行高分辨率图像重建: OpenAI 的 CTO Mira Murati 介绍: 微软将Windows 11的一堆功能加入了AI能力: OpenAI、TikTok 等公司签署 AI 透明协议: 为什么搜索引擎不以更有益的方式整合类似ChatGPT的机器人?: 有任何问题和想法欢迎随时与我交流。

封面图片

使用脑电波活动作为输入运行 Stable Diffusion 进行高分辨率图像重建

使用脑电波活动作为输入运行 Stable Diffusion 进行高分辨率图像重建 摘要 从人脑活动重建视觉体验为研究大脑如何表示世界、解释计算机视觉模型与我们的视觉系统之间关系提供了一种独特的方式。虽然近年来深度生成模型已被应用于此任务,但实现高语义保真度的真实图像重建仍是一个具有挑战性的问题。在本文中,我们提出了一种基于扩散模型(Diffusion Model,DM)的新方法,通过功能性磁共振成像(fMRI)获得的人脑活动来重建图像。我们依赖于一种名为 Stable Diffusion 的潜在空间扩散模型(Latent Diffusion Model,LDM)。该模型降低了扩散模型的计算成本,同时保持了其高生成性能。我们还通过研究LDM的不同组成部分(如潜在向量Z、条件输入C和去噪U-Net的不同元素)与不同的脑功能联系起来,表征了LDM的内部机制。我们展示了我们的方法可以简单地重建高保真度的高分辨率图像,无需进行任何额外的训练和微调复杂的深度学习模型。我们还从神经科学的角度提供了对不同LDM组件的定量解释。总体而言,我们的研究提出了一种有前景的从人脑活动恢复图像的方法,并为理解扩散模型提供了一个新的框架。 (摘要由 ChatGPT 翻译)

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。 论文简介: 我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。 高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。 得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。 此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。 项目地址:

封面图片

哈佛大学研制出大尺寸玻璃金属膜 用于捕捉天体的高分辨率图像

哈佛大学研制出大尺寸玻璃金属膜 用于捕捉天体的高分辨率图像 哈佛大学的科学家们利用先进的纳米制造技术,创造出一种突破性的 10 厘米玻璃金属膜,用于捕捉天体的高分辨率图像。这种适合大规模生产的大型金属膜为空间科学和电信领域带来了新的可能性,其成像性能可与传统镜头媲美。上图是 metalens 从马萨诸塞州剑桥市一栋大楼的屋顶拍摄的月球图像。图片来源:Capasso 实验室/哈佛 SEAS这项研究最近发表在《ACS Nano》杂志上。纳米加工技术的突破"利用最先进的半导体代工工艺在一个前所未有的大平面透镜上精确控制数百亿纳米柱尺寸的能力是一项纳米制造壮举,它为空间科学和技术带来了令人兴奋的新机遇,"SEAS应用物理学罗伯特-L-华莱士(Robert L. Wallace)教授兼电气工程文顿-海斯(Vinton Hayes)高级研究员、该论文的资深作者费德里科-卡帕索(Federico Capasso)说。大多数平面金属透镜利用数百万个柱状纳米结构聚焦光线,其大小与一块闪粉差不多。2019 年,卡帕索和他的团队利用一种名为深紫外(DUV)投影光刻的技术开发出了厘米级的金属透镜,这种技术可以投影形成纳米结构图案,直接蚀刻到玻璃晶片上,省去了以往金属透镜所需的耗时的写入和沉积过程。剑桥科学中心屋顶的 metalens 拍摄的天鹅座北美星云图像。图片来源:Capasso 实验室/哈佛 SEAS紫外投影光刻技术通常用于在智能手机和计算机的硅芯片上绘制精细的线条和形状。曾在 SEAS 就读研究生、现为 Capasso 团队博士后的 Joon-Suh Park 证明,该技术不仅可用于批量生产金属透镜,还能增大其尺寸,以应用于虚拟现实和增强现实。但是,要将金属膜做得更大,以便应用于天文学和自由空间光通信,这就带来了一个工程问题。克服工程挑战"光刻工具有一个很大的局限性,因为这些工具是用来制造计算机芯片的,所以芯片尺寸被限制在不超过20至30毫米,"论文共同第一作者Park说。"为了制造直径为 100 毫米的透镜,我们需要找到一种绕过这一限制的方法"。Park 和研究小组开发出了一种利用 DUV 投影光刻工具拼接多个纳米柱图案的技术。研究人员将透镜分为 25 个部分,但考虑到旋转对称性,只使用一个象限的 7 个部分,结果表明 DUV 投影光刻技术可以在几分钟内将 187 亿个设计好的纳米结构图案刻画到 10 厘米的圆形区域上。研究小组还开发了一种垂直玻璃蚀刻技术,可以在玻璃上蚀刻出高纵横比、光滑侧壁的纳米柱。SEAS 博士后研究员、论文共同第一作者 Soon Wei Daniel Lim 说:"使用相同的 DUV 投射光刻技术,我们可以在更大的玻璃直径晶片上生产大直径、像差校正元光学器件或更大的透镜,因为相应的 CMOS 制造工具在业内越来越多。"这种直径为 10 厘米的玻璃金属镜片能以高分辨率拍摄太阳、月亮和遥远星云的图像。图片来源:Capasso 实验室/哈佛大学 SEASLim 在全面模拟和描述大规模制造过程中可能出现的所有制造误差以及这些误差如何影响金属透镜的光学性能方面发挥了主导作用。在解决了可能存在的制造难题后,研究人员展示了金属膜在天体成像方面的强大功能。Park 和研究小组将 metalens 安装在带有彩色滤光片和相机传感器的三脚架上,然后登上哈佛大学科学中心的屋顶。在那里,他们拍摄了太阳、月球和北美星云的图像,北美星云是天鹅座的一个暗星云,距离地球约 2590 光年。卡帕索实验室的研究生、论文合著者阿尔曼-阿米尔詹(Arman Amirzhan)说:"我们能够获得非常详细的太阳、月球和星云图像,这些图像可与传统镜头拍摄的图像相媲美。"研究人员仅使用金属镜片,就能拍摄到与美国国家航空航天局当天拍摄的图像相同的太阳黑子群。这种透镜可以经受住极热、极冷和航天发射过程中的剧烈振动,而不会出现任何损坏或光学性能下降。由于其尺寸和单片玻璃成分,该透镜还可用于远距离电信和定向能量传输应用。编译来源:ScitechDaily ... PC版: 手机版:

封面图片

:提高任何大小图像的分辨率

:提高任何大小图像的分辨率 该项目使用了一个预训练的扩散模型,这个模型已经学习了如何生成高分辨率的图像。 通过这种方式,他们的方法可以从一个低分辨率图像生成一个高分辨率图像,而不需要任何关于图像内容的先验知识。非常适合用于真实世界的图像超分辨率任务。 1、使用一个名为"时间感知编码器"的工具,这个工具可将低分辨率图像转换为一个特征表示。这个特征表示包含了图像的重要信息,但是它的大小是固定的,不受图像分辨率的影响 在不改变预训练的合成模型的情况下,实现有前景的恢复结果,从而保留生成的先验并最小化训练成本。 2、使用一个名为"特征包装模块"的工具,这个工具可以将特征表示转换为一个高分辨率图像。这个工具可以通过调整一个参数来平衡生成图像的质量和保真度。 3、使用一个名为"渐进式聚合采样策略"的工具,这个工具可以生成任意大小的高分辨率图像。这个工具通过在不同的尺度上应用扩散模型,然后将结果聚合在一起,来生成高分辨率图像。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人