[논문 리뷰] Visual representations in the human brain are aligned with large language models
본 연구는 대형 언어 모델(LLMs)의 장면 자막 임베딩이 자연 장면에 의해 유발된 뇌 활동을 특징지낼 수 있으며, 이미지를 LLM 공간으로 변환하면 뇌 데이터와 높은 정렬성을 갖는 표현을 얻는다는 것을 보여준다.
The human brain extracts complex information from visual inputs, including objects, their spatial and semantic interrelations, and their interactions with the environment. However, a quantitative approach for studying this information remains elusive. Here, we test whether the contextual information encoded in large language models (LLMs) is beneficial for modelling the complex visual information extracted by the brain from natural scenes. We show that LLM embeddings of scene captions successfully characterise brain activity evoked by viewing the natural scenes. This mapping captures selectivities of different brain areas, and is sufficiently robust that accurate scene captions can be reconstructed from brain activity. Using carefully controlled model comparisons, we then proceed to show that the accuracy with which LLM representations match brain representations derives from the ability of LLMs to integrate complex information contained in scene captions beyond that conveyed by individual words. Finally, we train deep neural network models to transform image inputs into LLM representations. Remarkably, these networks learn representations that are better aligned with brain representations than a large number of state-of-the-art alternative models, despite being trained on orders-of-magnitude less data. Overall, our results suggest that LLM embeddings of scene captions provide a representational format that accounts for complex information extracted by the brain from visual inputs.
연구 동기 및 목표
- LLMs에 인코딩된 맥락 정보가 뇌의 복합적 시각 표현 모델링에 이점을 주는지 조사한다.
- 장면 자막의 LLM 임베딩이 자연 장면으로 유발된 뇌 활동에 어떻게 매핑되는지 특성화한다.
- LLM 기반 표현이 개별 단어를 넘어 정보를 포착하고 뇌 영역 간 선호도와 관련되는지 평가한다.
- 이미지를 LLM 공간으로 매핑하도록 학습된 딥 네트워크가 제한된 데이터로도 강한 뇌 정렬을 달성하는지 탐구한다.
제안 방법
- 자연 장면을 기술하는 자막의 LLM 임베딩을 계산하고 이를 장면 관찰 중 측정된 뇌 활동 패턴과 관련시킨다.
- LLM 유도 표현에 대한 서로 다른 뇌 영역의 선택성을 평가한다.
- 뇌 활동으로부터 정확한 장면 자막의 재구성을 시도한다.
- 이미지 입력을 LLM 표현으로 변환하도록 딥 뉴럴 네트워크를 학습하고 뇌 정렬을 여러 기준선과 비교한다.
- 통합된 자막 수준 정보를 분리하기 위한 엄밀히 통제된 모델 비교를 수행한다.
실험 결과
연구 질문
- RQ1장면 자막의 LLM 임베딩이 자연 장면에 대한 뇌 반응을 계량적으로 특징지을 수 있는가?
- RQ2LLM 기반 표현이 개별 단어 또는 지역 특징을 넘어 뇌 선택성을 포착하는가?
- RQ3LLM 표현을 사용하여 뇌 활동으로부터 장면 자막을 재구성하는 것이 가능한가?
- RQ4이미지-대-LLM 변환 모델이 기존의 최첨단 모델보다 더 강한 뇌 정렬을 달성하는가?
주요 결과
- 자연 장면을 관찰하여 유발된 뇌 활동을 LLM 자막 임베딩이 성공적으로 특징지닌다.
- 이 매핑은 서로 다른 뇌 영역의 선택성을 포착한다.
- 정확한 장면 자막을 뇌 활동으로부터 재구성할 수 있다.
- 뇌-LLM 정렬의 정확성은 LLM이 자막에 담긴 복잡한 정보를 단어 하나를 넘어서 통합하는 능력에서 비롯된다.
- 이미지를 LLM 표현으로 매핑하도록 학습된 심층 네트워크는 훨씬 적은 학습 데이터에도 불구하고 많은 대체 모델보다 뇌 데이터와 더 잘 정렬되는 표현을 생성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.