QUICK REVIEW

[論文レビュー] Brain decoding: toward real-time reconstruction of visual perception

Yohann Benchetrit, Hubert Banville|arXiv (Cornell University)|Oct 18, 2023

Functional Brain Connectivity Studies被引用数 27

ひとこと要約

この論文は、事前学習済みの画像埋め込みと拡散ベース生成器を条件づけ、MEG信号を画像埋め込みと整列させることで、脳活動から視覚像をリアルタイムにデコード・生成するMEGベースのパイプラインを提案します。

ABSTRACT

In the past five years, the use of generative and foundational AI systems has greatly improved the decoding of brain activity. Visual perception, in particular, can now be decoded from functional Magnetic Resonance Imaging (fMRI) with remarkable fidelity. This neuroimaging technique, however, suffers from a limited temporal resolution ($\approx$0.5 Hz) and thus fundamentally constrains its real-time usage. Here, we propose an alternative approach based on magnetoencephalography (MEG), a neuroimaging device capable of measuring brain activity with high temporal resolution ($\approx$5,000 Hz). For this, we develop an MEG decoding model trained with both contrastive and regression objectives and consisting of three modules: i) pretrained embeddings obtained from the image, ii) an MEG module trained end-to-end and iii) a pretrained image generator. Our results are threefold: Firstly, our MEG decoder shows a 7X improvement of image-retrieval over classic linear decoders. Second, late brain responses to images are best decoded with DINOv2, a recent foundational image model. Third, image retrievals and generations both suggest that high-level visual features can be decoded from MEG signals, although the same approach applied to 7T fMRI also recovers better low-level features. Overall, these results, while preliminary, provide an important step towards the decoding -- in real-time -- of the visual processes continuously unfolding within the human brain.

研究の動機と目的

時間的に豊富なMEGデータを用いた視覚知覚のリアルタイムデコードを調査する。
事前学習済みの画像埋め込みを活用して、MEG信号を視覚表現へマッピングする。
MEGからの画像検索と画像生成の両方を可能にする3モジュールのパイプラインを開発する。
MEGデコード性能をfMRIのベンチマークと比較し、表現される特徴の性質を評価する。

提案手法

MEGウィンドウを潜在画像表現 zへマッピングする脳モジュール f_theta を訓練する。
取得の最適化には CLIP 損失、潜在表現ベースの画像生成を可能にするには MSE 損失を用いる。
プーリング/アフィン/アテンション機構を用いて時系列のMEG出力を集約し、固定サイズの潜在を生成する。
MEG由来の埋め込みを条件として、事前学習済みの画像生成器（拡散ベース）を用いて画像を復元する。
取得指標（Top-5精度、相対中央値ランク）と生成指標（PixCorr、SSIM、SwAV、CLIP など）を用いて評価する。
跨参加者トレーニングと跨基準比較を含む THINGS-MEG データセットで評価する。

実験結果

リサーチクエスチョン

RQ1前もって学習済みの視覚埋め込みを用いて、リアルタイムでオープンセット画像を取得または生成するように、MEG信号をデコードできるか？
RQ2どの事前学習済み画像表現（ supervised、text-aligned、self-supervised ）が、取得のためにMEG活動と最も良く整合するか？
RQ3MEG信号はデコード中に高レベルの意味論的特徴と低レベルの視覚特徴のどの程度を保持するか？
RQ4MEGベースの再構成は、忠実度と粒度の点でfMRIベースの再構成とどのように比較されるか？
RQ5画像 onset および offset の周辺で、デコード性能の時系列ダイナミクスはどうなるか？

主な発見

データセット	PixCorr	SSIM	AlexNet(2)	AlexNet(5)	Inception	CLIP	SwAV
NSD (fMRI)	0.305	0.366	0.962	0.977	0.910	0.917	0.410
THINGS-MEG (per-trial average)	0.079	0.329	0.718	0.823	0.674	0.765	0.595
THINGS-MEG (per-subject average)	0.088	0.333	0.747	0.855	0.712	0.804	0.576
THINGS-MEG (no average)	0.069	0.308	0.668	0.733	0.613	0.668	0.636

深部MEGデコーディングは、画像検索において線形ベースラインと比較して最大約7倍の改善をもたらす。
Top-5検索精度は、VGG-19、CLIP-Vision、DINOv2 埋め込みを用いた小規模テストセットで約70％に達する。
取得から生成への移行は、カテゴリ意味論を捉えた生成画像を示す一方で低レベルの詳細は限られ、MEGが高レベル特徴をより強く保持しているが微細な詳細には限界があることを示す。
時系列ウィンドウは、画像の onset および offset 周辺で最高の取得性能を示し、offset関連の表現は特にDINOv2で強い。
7T fMRIと比較して、MEGは低レベル特徴の回復性が低いことを示しており、MEGの時間分解能は高いが空間的精度が低く、低レベルの再構成を制限することを示唆する。
本アプローチは、脳活動からのリアルタイムかつオープンセットの視覚デコードへ向かう道を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。