QUICK REVIEW

[논문 리뷰] Pixels to Voxels: Modeling Visual Representation in the Human Brain

Pulkit Agrawal, Dustin Stansbury|arXiv (Cornell University)|2014. 07. 18.

Visual Attention and Saliency Detection참고 문헌 20인용 수 76

한 줄 요약

이 논문은 수작업으로 레이블링된 의미적 레이블에 의존하지 않고, 이미지 픽셀에서 직접 시각 피각의 인간 뇌 활동을 예측하는 새로운 프레임워크를 제안한다. 피셔 벡터(Fisher Vectors)와 컨volutional 신경망(ConvNets)을 사용하여, 초기, 중간, 고차원 시각 영역에서 fMRI 반응을 정확하게 예측함으로써, 외측 뇌체 영역(EBA) 내에서의 功能적 아형구역(subregions)을 규명한다.

ABSTRACT

The human brain is adept at solving difficult high-level visual processing problems such as image interpretation and object recognition in natural scenes. Over the past few years neuroscientists have made remarkable progress in understanding how the human brain represents categories of objects and actions in natural scenes. However, all current models of high-level human vision operate on hand annotated images in which the objects and actions have been assigned semantic tags by a human operator. No current models can account for high-level visual function directly in terms of low-level visual input (i.e., pixels). To overcome this fundamental limitation we sought to develop a new class of models that can predict human brain activity directly from low-level visual input (i.e., pixels). We explored two classes of models drawn from computer vision and machine learning. The first class of models was based on Fisher Vectors (FV) and the second was based on Convolutional Neural Networks (ConvNets). We find that both classes of models accurately predict brain activity in high-level visual areas, directly from pixels and without the need for any semantic tags or hand annotation of images. This is the first time that such a mapping has been obtained. The fit models provide a new platform for exploring the functional principles of human vision, and they show that modern methods of computer vision and machine learning provide important tools for characterizing brain function.

연구 동기 및 목표

저수준의 시각 입력(픽셀)에서 직접 인간의 시각 뇌 활동을 예측할 수 있는 계산 모델을 개발하는 것.
이미지 카테고리에 대한 주관적이고 시간이 오래 걸리는 수작업 레이블에 의존하는 이전의 인코딩 모델의 한계를 극복하는 것.
최신 컴퓨터 비전 특징인 피셔 벡터와 컨volutional 신경망(ConvNets)이 코티컬 계층 구조 전반에서 인간의 시각 시스템의 기능적 조직을 어떻게 포착하는지 조사하는 것.
기존의 시각 영역 관심영역(ROIs)인 외측 뇌체 영역(EBA) 내에서 세밀한 기능적 조직을 탐색하는 것.

제안 방법

원시 픽셀 입력에서 국소 이미지 기술자(예: SIFT)의 피셔 벡터(FV) 인코딩을 사용하여 고차원적이고 구분력 있는 특징을 생성한다.
동일한 픽셀 입력에서 계층적 특징 표현을 추출하기 위해 사전에 훈련된 컨volutional 신경망(ConvNet)을 사용한다.
정규화된 선형 회귀를 적용하여 FV 및 ConvNet 특징을 시각 피각의 fMRI 보크셀 반응으로 매핑하고, 각 보크셀마다 한 모델을 피팅한다.
피팅된 모델을 사용하여 새로운, 본 적 없는 이미지의 뇌 활동을 예측하고, 설명된 분산(R²)을 통해 성능을 평가한다.
EBA 내 보크셀들에 걸쳐 ConvNet 모델 가중치에 대해 K-평균 클러스터링을 수행하여, 보크셀의 기능적으로 다른 하위집단을 식별한다.
기능적 클러스터를 코티컬 평면도에 투영하여 공간적 분리성과 다양한 피실험자 간의 해부학적 일관성을 평가한다.

실험 결과

연구 질문

RQ1의미적 레이블 없이 픽셀 수준의 특징에서만 훈련된 모델이 수작업 레이블 기반 모델과 비슷한 정확도로 인간 시각 피각의 fMRI 반응을 예측할 수 있는가?
RQ2피셔 벡터와 ConvNet 특징이 인간 뇌 활동 패턴과 일치하는 저수준 및 고수준의 시각 표현을 모두 포착하는가?
RQ3인코딩 모델이 EBA와 같은 전통적인 시각 ROIs 내에서 기능적 하위구조를 드러낼 수 있는가?
RQ4EBA 내에서 식별된 기능적 클러스터는 공간적으로 일관되며 다양한 피실험자 간에 일관된가?
RQ5EBA 내에서 클러스터 내 ConvNet 모델이 다른 클러스터의 모델보다 해당 보크셀 클러스터의 활동을 유의미하게 더 잘 예측하는가?

주요 결과

피셔 벡터(FV) 및 ConvNet 모델은 수작업 레이블 기반의 이전 모델과 비슷한 설명된 분산(R²)을 통해 고차원 시각 영역의 fMRI 반응을 예측했다.
FV 및 ConvNet 모델은 이전에 의미 레이블 기반 모델이 수행하지 못했던 초기 및 중간 시각 영역에서도 뇌 활동을 성공적으로 예측했다.
ConvNet 모델 가중치에 대한 K-평균 클러스터링을 통해 EBA 내에서 두 개의 안정적이고 기능적으로 다른 클러스터를 식별했다: 하나는 전신 운동에 반응하고, 다른 하나는 단일 인물에 반응한다.
기능적 클러스터는 코티컬 평면도에서 공간적으로 분리되어 있었으며, 두 피실험자 간에 해부학적으로 일관된 위치를 보였다.
클러스터 내 ConvNet 모델은 다른 클러스터의 모델보다 해당 보크셀 클러스터의 분산을 유의미하게 더 많이 설명했다(예: 피실험자-1의 경우 C1은 24.9% 대비 C2의 19.3%; 피실험자-2의 경우 C2는 23.0% 대비 C1의 16.2%).
결과는 EBA가 시각 자극에 대한 반응 특성이 다른 기능적이고 공간적으로 구분된 두 개의 하위구역을 포함하고 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.