Skip to main content
QUICK REVIEW

[논문 리뷰] On Numerosity of Deep Convolutional Neural Networks

Xiaolin Wu, Xi Zhang|arXiv (Cornell University)|2018. 02. 09.
Cognitive and developmental aspects of mathematical skills인용 수 2
한 줄 요약

이 논문은 데이터 기반 학습에 의존하는 바탕으로, 딥 컨volution 신경망(DCNN)이 소수의 물체를 즉각적으로 인식하는 천재적 능력인 서브잇징(subitizing)을 수행할 수 있는지 조사한다. 수학적 형태학을 순환형 DCNN에 통합함으로써, 저자들은 성공적으로 서브잇징을 수행하는 모델을 설계하였으며, 이는 인지적 사전 지식(cognitive priors)이 추상적 수 이해 능력에 한계를 가진 딥 러닝의 문제를 극복할 수 있음을 보여준다.

ABSTRACT

Subitizing, or the sense of small natural numbers, is an innate cognitive function of humans and primates; it responds to visual stimuli prior to the development of any symbolic skills, language or arithmetic. Given successes of deep learning (DL) in tasks of visual intelligence and given the primitivity of number sense, a tantalizing question is whether DL can comprehend numbers and perform subitizing. But somewhat disappointingly, extensive experiments of the type of cognitive psychology demonstrate that the examples-driven black box DL cannot see through superficial variations in visual representations and distill the abstract notion of natural number, a task that children perform with high accuracy and confidence. The failure is apparently due to the learning method not the CNN computational machinery itself. A recurrent neural network capable of subitizing does exist, which we construct by encoding a mechanism of mathematical morphology into the CNN convolutional kernels. Also, we investigate, using subitizing as a test bed, the ways to aid the black box DL by cognitive priors derived from human insight. Our findings are mixed and interesting, pointing to both cognitive deficit of pure DL, and some measured successes of boosting DL by predetermined cognitive implements. This case study of DL in cognitive computing is meaningful for visual numerosity represents a minimum level of human intelligence.

연구 동기 및 목표

  • 시각적 자극을 통해 딥 러닝 모델이 자연수의 추상적 개념을 학습할 수 있는지 조사하기.
  • 표준 데이터 기반 컨volution 신경망(CNN)이 소수의 패턴에서 시각적 변형에 대해 일반화하지 못하는 이유를 규명하기.
  • 인간의 수 감각에서 유래한 인지적 사전 지식을 도입함으로써 딥 러닝 모델의 서브잇징 작업 성능을 향상시킬 수 있는지 탐색하기.
  • 수학적 형태학을 활용한 순환 신경망 아키텍처를 개발하여 강력한 서브잇징을 달성하기.
  • 인지적 사전 지식이 추상적 시각 추론을 위한 블랙박스 딥 러닝 시스템의 성능을 향상시키는 데 얼마나 효과적인지 평가하기.

제안 방법

  • 수학적 형태학의 원리를 명시적으로 코딩한 컨볼루션 커널을 갖춘 순환형 CNN 아키텍처를 설계하여 번호 인식을 지원하기.
  • 인지심리학 실험을 모방하기 위해 1~4개의 물체를 포함한 시각 자극을 사용하여 모델를 훈련 및 테스트하기.
  • 학습을 추상적 수 표현으로 이끄는 데 도움이 되도록 네트워크의 인덕티브 바이어스에 인간 유사 인지 사전 지식을 통합하기.
  • 다양한 시각적 외관을 가진 서브잇징 작업에서 표준 CNN과 비교하여 형태학을 통합한 모델의 성능 평가하기.
  • 정적 컨볼루션 레이어보다 더 나은 패턴 추상화를 위해 시퀀셜한 시각 특징 처리를 가능하게 하는 순환 구조를 활용하기.
  • 물체의 형태, 크기, 배열과 같은 시각적 변형에 대한 일반화 성능 평가를 통해 암기 초과의 개념적 이해도 테스트하기.

실험 결과

연구 질문

  • RQ1표준 딥 컨volution 신경망은 데이터 기반 성향에도 불구하고 소수의 물체를 서브잇징할 수 있는가?
  • RQ2다양한 예제로 훈련된 상태에서도 표준 딥 러닝 모델이 소수 패턴의 시각적 변형에 대해 일반화하지 못하는 이유는 무엇인가?
  • RQ3인간의 수 감각에서 유래한 인지적 사전 지식이 딥 러닝 모델의 추상적 수의 개념 인식 능력을 향상시킬 수 있는가?
  • RQ4컨볼루션 커널에 수학적 형태학을 통합함으로써 신경망이 강력한 서브잇징을 달성할 수 있는가?
  • RQ5순환 아키텍처가 딥 러닝 모델의 추상적 수 이해 능력을 얼마나 향상시킬 수 있는가?

주요 결과

  • 표준 딥 러닝 모델은 높은 정확도를 보이지만, 자연수의 근본 개념을 추상화하지 못하기 때문에 서브잇징에 실패한다.
  • 실패 원인은 CNN 아키텍처 자체의 한계가 아니라 딥 러닝의 데이터 기반적이고 블랙박스 성향 때문임이 밝혀졌다.
  • 컨볼루션 커널에 수학적 형태학을 통합한 순환 신경망은 다양한 시각적 변형에 걸쳐 성공적으로 서브잇징을 수행한다.
  • 특히 수학적 형태학의 구조적 원리를 반영한 인지적 사전 지식을 통합함으로써 딥 러닝의 일반화 능력과 개념적 이해도가 크게 향상된다.
  • 연구는 인간의 인지 통찰을 통합함으로써 딥 러닝이 추상적 추론으로 이끌릴 수 있음을 보여주며, 더 해석 가능하고 강력한 AI로의 길을 제시한다.
  • 서브잇징은 시각 인식에서 최소한의 인간 유사 지능을 평가할 수 있는 의미 있는 기준이 되며, 현재 딥 러닝의 한계와 잠재력을 동시에 드러낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.