QUICK REVIEW

[논문 리뷰] Multimodal neural networks better explain multivoxel patterns in the hippocampus

Bhavin Choksi, Milad Mozafari|arXiv (Cornell University)|2021. 12. 10.

Visual Attention and Saliency Detection참고 문헌 23인용 수 24

한 줄 요약

이 연구는 CLIP와 같은 다중모odal 신경망이 인간 해마의 fMRI 다중체적 활동 패턴을 단모달(시각적 또는 언어적) 모델보다 더 잘 설명하는지 조사한다. Representational Similarity Analysis (RSA)를 사용하여 저자들은 다중모달 모델이 해마 활동에서 유의미하게 더 뛰어난 성능을 보이며, 소음 한계에 도달함으로써 뇌 반응에서 설명 가능한 변동성을 모두 설명하고 있음을 입증한다.

ABSTRACT

The human hippocampus possesses "concept cells", neurons that fire when presented with stimuli belonging to a specific concept, regardless of the modality. Recently, similar concept cells were discovered in a multimodal network called CLIP (Radford et at., 2021). Here, we ask whether CLIP can explain the fMRI activity of the human hippocampus better than a purely visual (or linguistic) model. We extend our analysis to a range of publicly available uni- and multi-modal models. We demonstrate that "multimodality" stands out as a key component when assessing the ability of a network to explain the multivoxel activity in the hippocampus.

연구 동기 및 목표

다중모달 신경망이 인간 해마의 fMRI 다중체적 활동 패턴을 단모달 모델보다 더 효과적으로 설명하는지 확인하는 것.
특히 '개념 세포'와 관련된 영역에서 다중모달성의 역할을 모델링한 뇌 표현 방식에 대해 조사하는 것.
다양한 감각 모odal(예: 시각 및 언어)을 기반으로 훈련된 모델이 순수 시각적 또는 언어적 모델보다 해마의 표현 구조를 더 잘 포괄하는지 평가하는 것.
Representational Similarity Analysis (RSA)에서 다양한 체적 선택 방법과 거리 측도에 대해 이러한 결과의 강인성(robustness)을 평가하는 것.

제안 방법

fMRI 데이터와 딥 뉴럴 네트워크 활성도에서의 표현 비유사성 행렬(RDM)을 비교하기 위해 Representational Similarity Analysis (RSA)를 적용하였다.
뇌 공간과 모델 공간에서 자극 간 표현 유사성을 측정하기 위해 피어슨 상관계수 거리(1 - 상관계수)를 사용하여 RDM을 구성하였다.
SPM12를 통해 사전처리하고 GLM 분석을 통해 베타 계수를 추출한 5명의 참가자가 시각한 ImageNet 이미지의 공개된 fMRI 데이터를 사용하였다.
모델 간 및 영역 간 비교를 가능하게 하기 위해 RSA 값을 소음 한계로 정규화하여 모델-뇌 유사성 추정의 신뢰성을 확보하였다.
훈련 목표와 모달리티에 따라 모델을 세 그룹으로 분류: 시각적, 언어적, 다중모달.
체적 선택 기준(베타 값 임계치 기반)에 따라 선택된 체적 수를 변화시켜 제어 분석을 수행하여 결과의 강인성 검증

실험 결과

연구 질문

RQ1다중모달 신경망이 인간 해마의 fMRI 활동 패턴을 단모달 시각적 또는 언어적 모델보다 더 잘 설명하는가?
RQ2모델의 다중모달성은 해마 다중체적 패턴을 설명하는 데 핵심 요소인가?
RQ3특히 해마와 후각 피질에서 다양한 뇌 영역에서 다중모달 모델의 성능은 단모달 모델과 어떻게 비교되는가?
RQ4RSA에서 체적 선택 및 거리 측도 선택에 대한 변동에 대해 관측된 결과는 강인한가?

주요 결과

다중모달 모델, 특히 CLIP가 해마의 fMRI 활동 패턴을 단모달 시각적 및 언어적 모델보다 유의미하게 뛰어나게 설명함(Welch’s t-test, p < 0.05).
다중모달 네트워크는 해마에서 소음 한계에 도달하였으며, 이는 뇌 반응에서 설명 가능한 변동성을 모두 설명하고 있음을 의미함 — 다른 어떤 모델 그룹이나 뇌 영역에서도 관찰되지 않음.
다양한 체적 선택 임계치에서 다중모달 모델의 성능 우위가 일관되게 유지되어 결과의 강인성이 확인됨.
후각 피질에서는 유사한 경향이 관찰되었지만 더 약하게 나타났으며, 다중모달 모델이 단모달 모델을 능가했지만 RSA 값은 낮고 변동성이 더 큼.
보조 자료에서 확인한 바와 같이, 다른 거리 측도를 사용한 결과도 유사하여 피어슨 상관계수 거리 선택의 신뢰성을 뒷받침함.
예상대로 시각적 및 시각-언어 모델이 순수 언어 모델보다 우수한 성능을 보였으며, 이는 자극의 시각적 성격 때문임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.