QUICK REVIEW

[논문 리뷰] Binding and Perspective Taking as Inference in a Generative Neural Network Model

Mahdi Sadeghi, Fabian Schrodt|arXiv (Cornell University)|2020. 12. 09.

Action Observation and Synchronization참고 문헌 28인용 수 3

한 줄 요약

이 논문은 매개변수화된 편향 뉴런에 대한 후행적, 기울기 기반 추론을 통해 시점 취득 및 특징 바인딩 문제를 해결하는 생성적 신경망 모델을 제안한다. 표준 운동 패턴으로 훈련하고 예측 오차 역전파를 통해 바인딩 및 시점 매개변수를 적응시키면서, 왜곡된 시각 입력에서도 생물학적 운동의 강력한 게슈탈 인식을 달성하며, 인구군 인코딩이 성능을 크게 향상시킨다.

ABSTRACT

The ability to flexibly bind features into coherent wholes from different perspectives is a hallmark of cognition and intelligence. Importantly, the binding problem is not only relevant for vision but also for general intelligence, sensorimotor integration, event processing, and language. Various artificial neural network models have tackled this problem with dynamic neural fields and related approaches. Here we focus on a generative encoder-decoder architecture that adapts its perspective and binds features by means of retrospective inference. We first train a model to learn sufficiently accurate generative models of dynamic biological motion or other harmonic motion patterns, such as a pendulum. We then scramble the input to a certain extent, possibly vary the perspective onto it, and propagate the prediction error back onto a binding matrix, that is, hidden neural states that determine feature binding. Moreover, we propagate the error further back onto perspective taking neurons, which rotate and translate the input features onto a known frame of reference. Evaluations show that the resulting gradient-based inference process solves the perspective taking and binding problem for known biological motion patterns, essentially yielding a Gestalt perception mechanism. In addition, redundant feature properties and population encodings are shown to be highly useful. While we evaluate the algorithm on biological motion patterns, the principled approach should be applicable to binding and Gestalt perception problems in other domains.

연구 동기 및 목표

신경망 접근을 통해 인지적 인식에서 시점 취득과 특징 바인딩이라는 이중 과제를 해결한다.
왜곡되거나 뒤섞인 시각 입력으로부터 표준 시점을 추론하고 일관된 특징 바인딩을 수행할 수 있는 모델을 개발한다.
운동 특징의 분해(위치, 방향, 크기)와 인구군 인코딩이 바인딩 및 시점 추론에 어떻게 기여하는지 조사한다.
시점과 바인딩을 위한 매개변수화된 편향 뉴런이 예측 오차 역전파를 통해 온라인으로 적응할 수 있음을 보여준다.
생물학적 운동을 넘어서도 유연한 특징 통합과 시점 변환을 요구하는 다른 분야로의 모델 적용 가능성을 확장한다.

제안 방법

시점 취득(회전 및 이동 행렬)과 특징 바인딩(바인딩 행렬)을 별도의 모듈로 갖는 생성적 오토인코더 아키텍처를 사용한다.
각 관절의 운동을 상대적 위치, 운동 방향, 운동 크기의 세 가지 하모드로 분해하고, 각각을 인구군 코드로 인코딩한다.
표준 운동 패턴(예: 진동, 걷기 자세)으로 훈련하여 정확한 생성 모델을 학습한다.
재구성 오차를 시점 및 바인딩 매개변수에 역전파하여 후행적 추론을 적용함으로써 온라인으로 매개변수를 적응시킨다.
기울기 하강법으로 튜닝 가능한 학습 가능한 매개변수로, 매개변수화된 편향 뉴런(특히 회전, 이동, 바인딩 행렬)을 사용한다.
다양한 왜곡(회전, 이동) 조건에서 성능을 평가하고, 인구군 인코딩 유무를 비교한다.

실험 결과

연구 질문

RQ1신경망 모델은 동적 운동 패턴의 왜곡된 시각 입력으로부터 표준 시점을 추론할 수 있는가?
RQ2시점 왜곡 조건 하에서 모델은 개별 운동 특징을 얼마나 효과적으로 일관된 게슈탈 인식으로 바인딩할 수 있는가?
RQ3위치, 방향, 크기로의 하모드 분해와 인구군 인코딩이 바인딩 및 시점 추론에 미치는 영향은 무엇인가?
RQ4시점과 바인딩을 위한 매개변수화된 편향 뉴런이 후행적 오차 역전파를 통해 얼마나 잘 적응할 수 있는가?
RQ5모델은 뚜렷한 시점 변화가 있는 3차원 인간의 걷기와 같은 복잡한 운동 패턴으로 일반화될 수 있는가?

주요 결과

모델은 세 축에 대해 거의 90도의 회전과 같은 강한 왜곡 조건에서도 정확한 표준 시점(회전 및 이동)을 성공적으로 추론한다.
이동 및 회전 왜곡이 동시에 최적화되며, 극단적인 변형 조건일수록 수렴 지연이 증가한다.
운동 특징의 인구군 인코딩은 복잡하거나 노이즈가 많은 조건에서 특히 효과적으로, 모델의 정확한 시점 및 바인딩 추론 능력을 크게 향상시킨다.
정규화, 잔류 연결, 또는 딥 네트워크에서 흔히 사용하는 기타 스케일링 기법 없이도 모델이 신뢰할 수 있는 특징 바인딩과 시점 취득을 달성한다.
위치, 방향, 크기로의 하모드 분해는 모델의 강건성과 바인딩 메커니즘의 해석 가능성 향상에 기여한다.
후행적 추론 메커니즘은 바인딩 및 시점 매개변수의 온라인 적응을 가능하게 하며, 생물학적으로 타당한 방식으로 근사 베이지안 추론을 모방한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.