Skip to main content
QUICK REVIEW

[논문 리뷰] Generic decoding of seen and imagined objects using hierarchical visual features

Tomoyasu Horikawa, Yukiyasu Kamitani|arXiv (Cornell University)|2015. 10. 22.
Visual Attention and Saliency Detection참고 문헌 53인용 수 51
한 줄 요약

이 논문은 fMRI 뇌 활동과 딥 컨volution 네트워크(CNN)에서 유도된 계층적 시각적 특징을 활용하여 훈련 데이터셋 외의 볼 수 있는 물체와 상상한 물체를 식별하는 일반적인 디코딩 프레임워크를 제시한다. 코티컬 영역 전반에 걸쳐 fMRI 패턴을 다수 수준의 시각적 특징과 정렬함으로써, 이 방법은 정확한 교차 카테고리 물체 식별을 달성하고 정신적 이미지화 과정에서 뇌의 고차원 영역에서 저차원 영역으로 시각적 표현이 점진적으로 동원됨을 드러낸다.

ABSTRACT

Object recognition is a key function in both human and machine vision. While recent studies have achieved fMRI decoding of seen and imagined contents, the prediction is limited to training examples. We present a decoding approach for arbitrary objects, using the machine vision principle that an object category is represented by a set of features rendered invariant through hierarchical processing. We show that visual features including those from a convolutional neural network can be predicted from fMRI patterns and that greater accuracy is achieved for low/high-level features with lower/higher-level visual areas, respectively. Predicted features are used to identify seen/imagined object categories (extending beyond decoder training) from a set of computed features for numerous object images. Furthermore, the decoding of imagined objects reveals progressive recruitment of higher to lower visual representations. Our results demonstrate a homology between human and machine vision and its utility for brain-based information retrieval.

연구 동기 및 목표

  • 훈련 예제를 초월하는 봉우리적 디코딩 방법을 개발하여 봉우리적 물체와 상상한 물체를 모두 처리하는 것.
  • 기계 시각 모델에서 유도된 계층적 시각적 특징이 다양한 물체 카테고리 전반에서 fMRI 패턴을 예측할 수 있는지 조사하는 것.
  • 뇌의 시각 영역에서의 활동과 시각적 특징의 계층적 구조 사이의 관계를 탐색하는 것.
  • 상상한 물체 표현이 본래의 물체와 유사한 진행 방식을 따르는지 확인하는 것.
  • 카테고리에 특화되지 않은 디코딩을 통해 뇌 기반 정보 검색을 가능하게 하는 것.

제안 방법

  • 대규모 물체 이미지 세트에서 사전 훈련된 컨volution 네트워크(CNN)로부터 계층적 시각적 특징을 추출한다.
  • 다중 비올록 패턴 분석(MVPA)을 사용하여 인간의 시각皮질에서의 fMRI 활동 패턴으로부터 이러한 시각적 특징을 예측한다.
  • fMRI 패턴을 CNN 계층의 특정 수준의 시각적 특징으로 매핑하는 선형 디코더를 훈련시킨다.
  • 훈련된 디코더를 사용하여 새로운, 볼 수 없거나 상상한 물체에 대해 fMRI 데이터 기반으로 특징을 예측한다.
  • 예측된 특징을 사용하여 훈련 데이터를 초월하는 일반적인, 제로샷 방식으로 물체 카테고리를 분류한다.
  • 시각 영역 전반에 걸친 디코딩 정확도의 공간 분포를 분석하여 코티컬 처리 단계와의 계층적 일치도를 평가한다.

실험 결과

연구 질문

  • RQ1fMRI 패턴을 사용하여 훈련 데이터에 포함되지 않은 새로운 물체까지도 다양한 물체 카테고리 전반에서 일반적인 시각적 특징을 디코딩할 수 있는가?
  • RQ2디코딩 정확도는 시각적 계층의 다양한 수준(저수준 대 고수준 특징)과 해당 뇌 영역에서 어떻게 달라지는가?
  • RQ3물체의 정신적 이미지화 과정에서 뇌의 고차원 영역에서 저차원 영역으로 시각적 표현이 점진적으로 동원되는가?
  • RQ4딥 네트워크에서 유도된 계층적 시각적 특징이 인간 뇌의 물체 표현과 얼마나 일치하는가?
  • RQ5이 프레임워크는 각 새로운 카테고리에 대해 재훈련이 필요 없이 뇌 활동에서 일반적인, 교차 카테고리 물체 식별을 가능하게 하는가?

주요 결과

  • 이 방법은 훈련 데이터에 포함되지 않은 물체까지도 fMRI 패턴을 사용하여 예측된 시각적 특징을 기반으로 정확하게 물체 카테고리를 디코딩하는 데 성공했다.
  • 조기 시각 영역(예: V1)의 활동을 사용할 경우 저수준 시각적 특징에서 더 높은 디코딩 정확도를 기록했고, 고수준 영역(예: IT 피질)의 활동을 사용할 경우 고수준 특징에서 더 높은 정확도를 기록했다.
  • 상상한 물체의 디코딩 결과는 고차원 영역에서 저차원 영역으로 점진적으로 활성화되는 패턴을 보였으며, 이는 시각 처리의 계층과 일치했다.
  • fMRI 패턴과 CNN에서 유도된 계층적 시각적 특징 간의 일치는 인간 시각과 기계 시각 표현 간의 강력한 유사성을 보여주었다.
  • 이 프레임워크는 카테고리에 특화된 재훈련 없이도 뇌 활동에서 일반적인 물체 인식을 가능하게 하여 제로샷 일반화를 입증했다.
  • 연구는 fMRI 패턴이 시각적 특징의 계층적 구조를 재구성하는 데 충분한 정보를 포함하고 있음을 확인했으며, 이는 뇌 활동을 콘텐츠 기반 정보 검색에 활용할 수 있음을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.