QUICK REVIEW

[논문 리뷰] Generic decoding of seen and imagined objects using hierarchical visual features

Tomoyasu Horikawa, Yukiyasu Kamitani|arXiv (Cornell University)|2015. 10. 22.

Visual Attention and Saliency Detection참고 문헌 53인용 수 51

한 줄 요약

이 논문은 fMRI 뇌 활동과 딥 컨volution 네트워크(CNN)에서 유도된 계층적 시각적 특징을 활용하여 훈련 데이터셋 외의 볼 수 있는 물체와 상상한 물체를 식별하는 일반적인 디코딩 프레임워크를 제시한다. 코티컬 영역 전반에 걸쳐 fMRI 패턴을 다수 수준의 시각적 특징과 정렬함으로써, 이 방법은 정확한 교차 카테고리 물체 식별을 달성하고 정신적 이미지화 과정에서 뇌의 고차원 영역에서 저차원 영역으로 시각적 표현이 점진적으로 동원됨을 드러낸다.

ABSTRACT

Object recognition is a key function in both human and machine vision. While recent studies have achieved fMRI decoding of seen and imagined contents, the prediction is limited to training examples. We present a decoding approach for arbitrary objects, using the machine vision principle that an object category is represented by a set of features rendered invariant through hierarchical processing. We show that visual features including those from a convolutional neural network can be predicted from fMRI patterns and that greater accuracy is achieved for low/high-level features with lower/higher-level visual areas, respectively. Predicted features are used to identify seen/imagined object categories (extending beyond decoder training) from a set of computed features for numerous object images. Furthermore, the decoding of imagined objects reveals progressive recruitment of higher to lower visual representations. Our results demonstrate a homology between human and machine vision and its utility for brain-based information retrieval.

연구 동기 및 목표

훈련 예제를 초월하는 봉우리적 디코딩 방법을 개발하여 봉우리적 물체와 상상한 물체를 모두 처리하는 것.
기계 시각 모델에서 유도된 계층적 시각적 특징이 다양한 물체 카테고리 전반에서 fMRI 패턴을 예측할 수 있는지 조사하는 것.
뇌의 시각 영역에서의 활동과 시각적 특징의 계층적 구조 사이의 관계를 탐색하는 것.
상상한 물체 표현이 본래의 물체와 유사한 진행 방식을 따르는지 확인하는 것.
카테고리에 특화되지 않은 디코딩을 통해 뇌 기반 정보 검색을 가능하게 하는 것.

제안 방법

대규모 물체 이미지 세트에서 사전 훈련된 컨volution 네트워크(CNN)로부터 계층적 시각적 특징을 추출한다.
다중 비올록 패턴 분석(MVPA)을 사용하여 인간의 시각皮질에서의 fMRI 활동 패턴으로부터 이러한 시각적 특징을 예측한다.
fMRI 패턴을 CNN 계층의 특정 수준의 시각적 특징으로 매핑하는 선형 디코더를 훈련시킨다.
훈련된 디코더를 사용하여 새로운, 볼 수 없거나 상상한 물체에 대해 fMRI 데이터 기반으로 특징을 예측한다.
예측된 특징을 사용하여 훈련 데이터를 초월하는 일반적인, 제로샷 방식으로 물체 카테고리를 분류한다.
시각 영역 전반에 걸친 디코딩 정확도의 공간 분포를 분석하여 코티컬 처리 단계와의 계층적 일치도를 평가한다.

실험 결과

연구 질문

RQ1fMRI 패턴을 사용하여 훈련 데이터에 포함되지 않은 새로운 물체까지도 다양한 물체 카테고리 전반에서 일반적인 시각적 특징을 디코딩할 수 있는가?
RQ2디코딩 정확도는 시각적 계층의 다양한 수준(저수준 대 고수준 특징)과 해당 뇌 영역에서 어떻게 달라지는가?
RQ3물체의 정신적 이미지화 과정에서 뇌의 고차원 영역에서 저차원 영역으로 시각적 표현이 점진적으로 동원되는가?
RQ4딥 네트워크에서 유도된 계층적 시각적 특징이 인간 뇌의 물체 표현과 얼마나 일치하는가?
RQ5이 프레임워크는 각 새로운 카테고리에 대해 재훈련이 필요 없이 뇌 활동에서 일반적인, 교차 카테고리 물체 식별을 가능하게 하는가?

주요 결과

이 방법은 훈련 데이터에 포함되지 않은 물체까지도 fMRI 패턴을 사용하여 예측된 시각적 특징을 기반으로 정확하게 물체 카테고리를 디코딩하는 데 성공했다.
조기 시각 영역(예: V1)의 활동을 사용할 경우 저수준 시각적 특징에서 더 높은 디코딩 정확도를 기록했고, 고수준 영역(예: IT 피질)의 활동을 사용할 경우 고수준 특징에서 더 높은 정확도를 기록했다.
상상한 물체의 디코딩 결과는 고차원 영역에서 저차원 영역으로 점진적으로 활성화되는 패턴을 보였으며, 이는 시각 처리의 계층과 일치했다.
fMRI 패턴과 CNN에서 유도된 계층적 시각적 특징 간의 일치는 인간 시각과 기계 시각 표현 간의 강력한 유사성을 보여주었다.
이 프레임워크는 카테고리에 특화된 재훈련 없이도 뇌 활동에서 일반적인 물체 인식을 가능하게 하여 제로샷 일반화를 입증했다.
연구는 fMRI 패턴이 시각적 특징의 계층적 구조를 재구성하는 데 충분한 정보를 포함하고 있음을 확인했으며, 이는 뇌 활동을 콘텐츠 기반 정보 검색에 활용할 수 있음을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.