[论文解读] UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activity
UniBrain 使用单一潜在扩散模型及多模态 CLIP 指导条件,将基于 fMRI 的图像重建和字幕生成统一于一个框架,在 NSD 数据集上对两项任务均达到最新状态,不需要额外训练。
Image reconstruction and captioning from brain activity evoked by visual stimuli allow researchers to further understand the connection between the human brain and the visual perception system. While deep generative models have recently been employed in this field, reconstructing realistic captions and images with both low-level details and high semantic fidelity is still a challenging problem. In this work, we propose UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activity. For the first time, we unify image reconstruction and captioning from visual-evoked functional magnetic resonance imaging (fMRI) through a latent diffusion model termed Versatile Diffusion. Specifically, we transform fMRI voxels into text and image latent for low-level information and guide the backward diffusion process through fMRI-based image and text conditions derived from CLIP to generate realistic captions and images. UniBrain outperforms current methods both qualitatively and quantitatively in terms of image reconstruction and reports image captioning results for the first time on the Natural Scenes Dataset (NSD) dataset. Moreover, the ablation experiments and functional region-of-interest (ROI) analysis further exhibit the superiority of UniBrain and provide comprehensive insight for visual-evoked brain decoding.
研究动机与目标
- 从人脑活动中解码视觉刺激以增进对脑-视觉关系的理解。
- 开发一个统一的、无需训练即可完成从 fMRI 信号到图像重建与字幕生成的框架。
- 利用具有多模态(文本与图像)条件的潜在扩散模型来提升语义保真度。
- 在 Natural Scenes Dataset(NSD)上展示该方法并分析感兴趣区域(ROI)为基础的脑解码。
提出的方法
- 以 Versatile Diffusion(潜在扩散模型)作为骨干,实现多模态生成(图像与文本)。
- 将 fMRI 的体素映射到四个潜在表示:Latent-Image Z_I、Latent-Text Z_T、CLIP-Image C_I、CLIP-Text C_T via tiny regression models。
- 通过在反向扩散过程中同时引导 C_I 与 C_T 条件并通过预训练的 AutoKL 解码器进行解码来进行图像重建。
- 通过引导反向扩散使其获得 Z_T(结合 C_I 与 C_T)来进行字幕生成,然后用预训练的 Optimus GPT-2 进行解码以生成字幕。
- 训练四个岭回归模型(fMRI -> Z_I、fMRI -> Z_T、fMRI -> C_I、fMRI -> C_T)且编码器保持冻结;不对大网络进行微调。
- 在扩散步骤中使用混合参数来混合 CLIP-Image 与 CLIP-Text 条件(混合值按任务调参)。
实验结果
研究问题
- RQ1单一的基于扩散的模型是否能够同时从视觉诱发的 fMRI 信号重建图像并生成字幕?
- RQ2多模态条件(CLIP-Image 与 CLIP-Text)如何影响重建质量和字幕的语义保真度?
- RQ3ROI 基于脑活动和跨受试者的一致性对 UniBrain 的性能有何影响?
- RQ4与现有方法相比,UniBrain 是否在基于 NSD 的脑解码方面提供定性与定量的提升?
主要发现
- UniBrain 在图像重建的低层指标(PixCorr、SSIM、AlexNet-2、AlexNet-5)和高层指标(Inception、CLIP 等)等多个量化指标上,较之前的方法达到最新状态。
- UniBrain 首次在 NSD 上实现了基于图像的字幕生成,且在低层与高层文本指标上表现具有竞争力。
- 消融研究表明 CLIP-Image 特征对低层视觉保真度贡献显著,CLIP-Text 特征提供高层语义细节,两者结合可获得最佳整体表现。
- 多模态条件(C_I 与 C_T)在重建和字幕任务上均显著优于单模态基线。
- ROI 分析表明 UniBrain 能生成与功能定义的脑区(Face-ROI、Word-ROI、Place-ROI、Body-ROI)相符的内容,为区域特异性解码提供洞见。
- 尽管是在单一受试者的数据上进行训练,UniBrain 仍保持了相当程度的跨受试者一致性,表明该扩散框架具有较强的泛化性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。