QUICK REVIEW

[논문 리뷰] Brain decoding: toward real-time reconstruction of visual perception

Yohann Benchetrit, Hubert Banville|arXiv (Cornell University)|2023. 10. 18.

Functional Brain Connectivity Studies인용 수 27

한 줄 요약

논문은 뇌 활동으로부터 실시간 MEG 기반 파이프라인으로 시각 이미지를 해독하고 생성하며, MEG 신호를 사전 학습된 이미지 임베딩과 정합하고 확산 기반 생성기를 조건화합니다.

ABSTRACT

In the past five years, the use of generative and foundational AI systems has greatly improved the decoding of brain activity. Visual perception, in particular, can now be decoded from functional Magnetic Resonance Imaging (fMRI) with remarkable fidelity. This neuroimaging technique, however, suffers from a limited temporal resolution ($\approx$0.5 Hz) and thus fundamentally constrains its real-time usage. Here, we propose an alternative approach based on magnetoencephalography (MEG), a neuroimaging device capable of measuring brain activity with high temporal resolution ($\approx$5,000 Hz). For this, we develop an MEG decoding model trained with both contrastive and regression objectives and consisting of three modules: i) pretrained embeddings obtained from the image, ii) an MEG module trained end-to-end and iii) a pretrained image generator. Our results are threefold: Firstly, our MEG decoder shows a 7X improvement of image-retrieval over classic linear decoders. Second, late brain responses to images are best decoded with DINOv2, a recent foundational image model. Third, image retrievals and generations both suggest that high-level visual features can be decoded from MEG signals, although the same approach applied to 7T fMRI also recovers better low-level features. Overall, these results, while preliminary, provide an important step towards the decoding -- in real-time -- of the visual processes continuously unfolding within the human brain.

연구 동기 및 목표

실시간으로 시간적으로 풍부한 MEG 데이터로 시각 인식을 해독하는 것을 조사합니다.
MEG 신호를 시각 표현으로 매핑하기 위해 사전 학습된 이미지 임베딩을 활용합니다.
MEG에서 이미지를 검색하고 생성할 수 있는 세 모듈 파이프라인을 개발합니다.
MEG 해독 성능을 fMRI 벤치마크와 비교하고 표현된 특징의 성질을 평가합니다.

제안 방법

MEG 윈도우를 잠재 이미지 표현 z로 매핑하는 뇌 모듈 f_theta를 학습합니다.
retrieval을 최적화하기 위해 CLIP 손실을, 잠재 기반 이미지 생성을 가능하게 하기 위해 MSE 손실을 사용합니다.
풀링/선형 변환/어텐션 메커니즘으로 시간적 MEG 출력들을 모아 고정된 크기의 잠재 표현을 생성합니다.
MEG 파생 임베딩으로 조건화된 사전 학습된 이미지 생성기(확산 기반)를 사용해 이미지를 재구성합니다.
검색 지표(상위 5개 정확도, 상대적 중앙값 순위)와 생성 지표(PixCorr, SSIM, SwAV, CLIP 등)를 사용해 평가합니다.
교차 참가자 학습 및 교차 기준 비교를 통해 THINGS-MEG 데이터셋에서 테스트합니다.

실험 결과

연구 질문

RQ1MEG 신호를 실시간으로 해독해 사전 학습된 시각 임베딩을 사용하여 오픈 세트 이미지를 검색하거나 생성할 수 있습니까?
RQ2검색을 위해 MEG 활동과 가장 잘 맞는 사전 학습된 이미지 표현(감독형, 텍스트 정렬, 자기지도) 은 무엇입니까?
RQ3해독 중 MEG 신호가 고수준 의미론적 특징과 저수준 시각 특징을 어느 정도 보존합니까?
RQ4MEG 기반 재구성이 해부학적 충실도와 세부 묘사 측면에서 fMRI 기반 재구성과 비교해 어떤 차이가 있습니까?
RQ5이미지 시작 및 종료 주변에서의 해독 성능의 시간적 역학은 어떠합니까?

주요 결과

데이터셋	PixCorr	SSIM	AlexNet(2)	AlexNet(5)	Inception	CLIP	SwAV
NSD (fMRI)	0.305	0.366	0.962	0.977	0.910	0.917	0.410
THINGS-MEG (per-trial average)	0.079	0.329	0.718	0.823	0.674	0.765	0.595
THINGS-MEG (per-subject average)	0.088	0.333	0.747	0.855	0.712	0.804	0.576
THINGS-MEG (no average)	0.069	0.308	0.668	0.733	0.613	0.668	0.636

Deep MEG 해독은 이미지 검색에 대해 선형 기저 대비 최대 약 7배의 개선을 보입니다.
상위 5개 검색 정확도는 VGG-19, CLIP-Vision, DINOv2 임베딩으로 작은 테스트 세트에서 약 70%에 도달합니다.
검색에서 생성으로의 이동은 카테고리 의미를 포착하는 생성 이미지를 보여주나 저수준 세부 정보는 제한적이며 MEG가 고수준 특징을 더 강하게 갖고 있음을 시사합니다.
시간적 윈도우는 이미지 시작 및 종료 주변에서 최고 검색 성능을 보이며, 종료 유도 표현은 특히 DINOv2에서 강합니다.
7T fMRI와 비교하면 MEG가 저수준 특징 회복력은 낮고 공간 해상도 한계가 있어 저수준 재구성은 제한적임을 시사합니다.
이 접근 방식은 뇌 활동으로부터 실시간의 오픈 세트 시각 해독으로 가는 경로를 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.