[論文レビュー] Brain Captioning: Decoding human brain activity into images and text
本論文は、 multimodal language model(GIT)を用いてfMRI脳活動をテキストキャプションへデコードし、予測されたテキストと深度/初期視覚手がかりに guided された潜在拡散パイプラインを用いて妥当な画像を再構成する方法を提示します。NSD-COCO刺激データに対して、以前の手法と比較してキャプション指標の改善と画像品質指標の競合力を示します。
Every day, the human brain processes an immense volume of visual information, relying on intricate neural mechanisms to perceive and interpret these stimuli. Recent breakthroughs in functional magnetic resonance imaging (fMRI) have enabled scientists to extract visual information from human brain activity patterns. In this study, we present an innovative method for decoding brain activity into meaningful images and captions, with a specific focus on brain captioning due to its enhanced flexibility as compared to brain decoding into images. Our approach takes advantage of cutting-edge image captioning models and incorporates a unique image reconstruction pipeline that utilizes latent diffusion models and depth estimation. We utilized the Natural Scenes Dataset, a comprehensive fMRI dataset from eight subjects who viewed images from the COCO dataset. We employed the Generative Image-to-text Transformer (GIT) as our backbone for captioning and propose a new image reconstruction pipeline based on latent diffusion models. The method involves training regularized linear regression models between brain activity and extracted features. Additionally, we incorporated depth maps from the ControlNet model to further guide the reconstruction process. We evaluate our methods using quantitative metrics for both generated captions and images. Our brain captioning approach outperforms existing methods, while our image reconstruction pipeline generates plausible images with improved spatial relationships. In conclusion, we demonstrate significant progress in brain decoding, showcasing the enormous potential of integrating vision and language to better understand human cognition. Our approach provides a flexible platform for future research, with potential applications in various fields, including neural art, style transfer, and portable devices.
研究の動機と目的
- 脳のデコードを画像の再構成からキャプション生成へ移行させ、より高レベルなシーン意味を捉えることを動機づける。
- fMRI由来の特徴からキャプション生成モデル(GIT)に適合させる脳-to-featuresマッピングを開発する。
- 予測テキスト、初期推定、深度マップを用いて潜在拡散モデルで妥当な画像を生成する画像再構成パイプラインを導入する。
- テキストベース指標(METEOR, CLIP, SentenceTransformer)と画像ベース指標(PixCorr, SSIM, AlexNet/Inception/CLIP, FID)を用いたベースラインと比較して評価する。
- 脳キャプション生成とマルチモーダルデコードの神経科学およびAI応用の実現性と可能性を示す。
提案手法
- NSDデータを8名の被験者で用い、subj01とsubj02に焦点を当てる。正則化付き線形回帰(alpha = 50,000)によりfMRIを画像特徴量へマップする。
- GIT(Generative Image-to-text Transformer)をキャプション生成の backbone として用い、予測画像特徴からキャプションを生成する。
- デコーディング前に予測特徴量を画像特徴量の分布に合わせて正規化する。
- 脳活動からVDVAEの潜在表現へマッピングした初期推定画像を凍結されたVDVAEで生成し、深度マップを推定してVDVAE潜在へマッピングすることで画像再構成パイプラインを構築する。
- ControlNetを用いてStable Diffusion v2を条件付けし、予測テキスト、初期推定、および深度情報を使って最終再構成を30ステップ、ガイダンススケール9(control net weight 0.8)で生成する。
- 訓練時には、脳活動から画像特徴の潜在表現およびVDVAE深度/初期潜在空間のリッジ回帰を学習する。脳駆動予測とターゲット潜在空間の分布を整合させるために再正規化を用いる。

実験結果
リサーチクエスチョン
- RQ1脳活動を意味のある画像キャプションへデコードすることは可能か、直接的な画像再構成ではなく?
- RQ2fMRI由来の特徴をキャプション生成モデルの潜在空間へ写像して、人間またはCOCOスタイルのキャプションを生成できるか?
- RQ3初期推定画像と深度情報を組み込むことで、拡散ベースの再構成の妥当性と空間的関係性は改善されるか?
- RQ4NSD-COCO刺激に対して、キャプションベースと画像ベースの指標はベースライン脳デコード法と比べてどうか?
- RQ5神経科学とAI分野における脳キャプション生成の限界と潜在的応用は何か?
主な発見
| 指標 | ベースライン subj01 | ベースライン subj02 | 我々の手法 (subj01) | 我々の手法 (subj02) |
|---|---|---|---|---|
| METEOR (画像キャプションと人間キャプション) | 0,176 | 0,174 | 0,404 | 0,404 |
| METEOR (brain captions and image captions) | 0,163 | 0,166 | 0,305 | 0,298 |
| Sentence (image captions and human captions) | 0,319 | 0,315 | 0,703 | 0,703 |
| Sentence (brain captions and image captions) | 0,280 | 0,281 | 0,447 | 0,418 |
| CLIP (image captions and human captions) | 0,672 | 0,673 | 0,831 | 0,831 |
| CLIP (brain captions and image captions) | 0,624 | 0,627 | 0,705 | 0,688 |
- 提案された脳キャプション生成法は、両被験者に対してテキストベース指標(例:METEOR、CLIP類似度、SentenceTransformer類似度)でベースラインCNN+LSTM手法を上回る。
- 脳キャプションの出力は、ベースラインおよび過去の研究と比較してCLIPおよび文ベースのスコアで高得点を達成。
- 深度マップとVDVAEベースの初期推定を用いた画像再構成パイプラインは、PixCorr、SSIMなどの低レベル指標で競争力を示し、初期CNN/Inception層での高い性能を発揮する一方、キャプションエラーの伝播により高レベル指標でのトレードオフが生じる。
- 定量的結果は、提案手法が複数の指標でベースラインより高い得点を示し、脳活動を意味のあるキャプションと妥当な再構成へ効果的にデコードできることを示している。
- 定性的な結果は、キャプションが主なシーン内容を捉えていることを示す一方、残る誤りは特定の物体の詳細やシーン表現に関連することが多く、キャプションモデルや脳-to-featureマッピングの限界を反映している可能性がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。