QUICK REVIEW

[논문 리뷰] Brain encoding models based on multimodal transformers can transfer across language and vision

Jerry Tang, Meng Du|PubMed|2023. 05. 20.

Language, Metaphor, and Cognition인용 수 16

한 줄 요약

이 논문은 BridgeTower 다중모달 트랜스포머를 이용하여 언어 이야기의 fMRI 반응으로 학습된 인코딩 모델이 영화에 대한 뇌 반응을 예측할 수 있고 그 반대도 가능하다고 보여주며, 교차 모달 전이는 공유된 의미 표현을 드러내고 다중 모달 특징이 단일 모달 정렬보다 우수하다는 것을 시사한다.

ABSTRACT

Encoding models have been used to assess how the human brain represents concepts in language and vision. While language and vision rely on similar concept representations, current encoding models are typically trained and tested on brain responses to each modality in isolation. Recent advances in multimodal pretraining have produced transformers that can extract aligned representations of concepts in language and vision. In this work, we used representations from multimodal transformers to train encoding models that can transfer across fMRI responses to stories and movies. We found that encoding models trained on brain responses to one modality can successfully predict brain responses to the other modality, particularly in cortical regions that represent conceptual meaning. Further analysis of these encoding models revealed shared semantic dimensions that underlie concept representations in language and vision. Comparing encoding models trained using representations from multimodal and unimodal transformers, we found that multimodal transformers learn more aligned representations of concepts in language and vision. Our results demonstrate how multimodal transformers can provide insights into the brain's capacity for multimodal processing.

연구 동기 및 목표

한 모달리티(언어 또는 시각)에서 학습된 인코딩 모델이 다른 모달리티의 뇌 반응을 예측할 수 있는지 조사한다.
다중 모달 트랜스포머 표현이 언어와 시각 개념이 뇌에서 정렬되는지 판단한다.
언어와 시각 표현 간 공유되는 의미 차원을 식별한다.
다중 모달 학습이 단일 모달 특징 정렬보다 더 나은 교차 모달 전이를 제공하는지 평가한다.

제안 방법

이미지-텍스트 데이터로 학습된 다중 모달 트랜스포머 BridgeTower를 사용하여 이야기와 영화에 대한 자극 특성을 추출한다.
BridgeTower 특징을 사용하여 이야기-fMRI에서 언어 인코딩 모델을, 영화-fMRI에서 시각 인코딩 모델을 학습한다.
이야기 특징으로 영화-fMRI를 예측하고 영화 특징으로 이야기-fMRI를 예측하여 교차 모달 전이를 평가한다.
교차 모달 프로젝션을 가능하게 하기 위해 Flickr30K에서 추정한 선형 매핑으로 BridgeTower 특징 공간을 정렬한다.
자극을 뇌 반응에 매핑하기 위해 뇌공간의 각 보셀에 대해 혈역학 지연 보정을 포함한 L2-정규화 회귀를 수행한다.

실험 결과

연구 질문

RQ1언어 반응에서 학습된 인코딩 모델이 시각적 영화 자극에 대한 fMRI 반응을 예측할 수 있으며 그 반대도 가능한가?
RQ2교차 모달 전이가 피질에서 언어와 시각 간의 정렬된 의미 표현을 드러내는가?
RQ3다중 모달 트랜스포머 특징이 단일 모달 특징보다 더 나은 교차 모달 전이를 제공하는가?
RQ4뇌에서 공유된 언어-시각 표현의 기반이 되는 의미 차원은 무엇인가?

주요 결과

주요 감각 영역 밖의 다수의 두정엽, 측두엽, 전두엽 영역에서 교차 모달 인코딩 성능이 양수이다.
시각 피질의 반전 조정은 교차 모달 전이 추정치를 개선하기 위해 필요하다.
여러 영역에서 교차 모달 성능이 동일 모달 성능에 근접하여 모달 간 유사한 개념 표현을 시사한다.
시각/청각 피질 외부의 교차 모달 전이에서 다중 모달 BridgeTower 특징이 단일 모달 RoBERTa 및 ViT 특징을 능가한다.
인코딩 가중치에 대한 PCA는 다중 모달 뇌구획에서 언어와 시각 간 공유된 의미 차원을 드러내며, 특히 PC 1, 3, 5에서 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.