使用脑电波活动作为输入运行 Stable Diffusion 进行高分辨率图像重建
使用脑电波活动作为输入运行 Stable Diffusion 进行高分辨率图像重建 摘要 从人脑活动重建视觉体验为研究大脑如何表示世界、解释计算机视觉模型与我们的视觉系统之间关系提供了一种独特的方式。虽然近年来深度生成模型已被应用于此任务,但实现高语义保真度的真实图像重建仍是一个具有挑战性的问题。在本文中,我们提出了一种基于扩散模型(Diffusion Model,DM)的新方法,通过功能性磁共振成像(fMRI)获得的人脑活动来重建图像。我们依赖于一种名为 Stable Diffusion 的潜在空间扩散模型(Latent Diffusion Model,LDM)。该模型降低了扩散模型的计算成本,同时保持了其高生成性能。我们还通过研究LDM的不同组成部分(如潜在向量Z、条件输入C和去噪U-Net的不同元素)与不同的脑功能联系起来,表征了LDM的内部机制。我们展示了我们的方法可以简单地重建高保真度的高分辨率图像,无需进行任何额外的训练和微调复杂的深度学习模型。我们还从神经科学的角度提供了对不同LDM组件的定量解释。总体而言,我们的研究提出了一种有前景的从人脑活动恢复图像的方法,并为理解扩散模型提供了一个新的框架。 (摘要由 ChatGPT 翻译)
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人