[논문 리뷰] The Consciousness Prior
이 논문은 의식의 글로벌 워크스페이스 이론에서 영감을 받은 학습 프라이어를 제안한다. 저차원 의식 상태가 광범위한 표현에서 희소한 고수준 변수 집합을 선택하여 예측, 추론, 언어 유사 지식 공유를 안내한다.
A new prior is proposed for learning representations of high-level concepts of the kind we manipulate with language. This prior can be combined with other priors in order to help disentangling abstract factors from each other. It is inspired by cognitive neuroscience theories of consciousness, seen as a bottleneck through which just a few elements, after having been selected by attention from a broader pool, are then broadcast and condition further processing, both in perception and decision-making. The set of recently selected elements one becomes aware of is seen as forming a low-dimensional conscious state. This conscious state is combining the few concepts constituting a conscious thought, i.e., what one is immediately conscious of at a particular moment. We claim that this architectural and information-processing constraint corresponds to assumptions about the joint distribution between high-level concepts. To the extent that these assumptions are generally true (and the form of natural language seems consistent with them), they can form a useful prior for representation learning. A low-dimensional thought or conscious state is analogous to a sentence: it involves only a few variables and yet can make a statement with very high probability of being true. This is consistent with a joint distribution (over high-level concepts) which has the form of a sparse factor graph, i.e., where the dependencies captured by each factor of the factor graph involve only very few variables while creating a strong dip in the overall energy function. The consciousness prior also makes it natural to map conscious states to natural language utterances or to express classical AI knowledge in a form similar to facts and rules, albeit capturing uncertainty as well as efficient search mechanisms implemented by attention mechanisms.
연구 동기 및 목표
- 의식적 처리와 글로벌 워크스페이스 이론에서 영감을 받은 기계 학습 프라이어를 제시한다.
- 저차원 의식 상태 c_t가 고수준 표현 h_t에서 어떻게 선택하는지 정의한다.
- 희소한 인자 그래프가 고수준 개념의 공동분포를 모델링한다고 주장한다.
- 의식 상태를 언어 유사 표현으로 매핑하는 교육 목표와 메커니즘을 제안한다.
제안 방법
- x_t를 관측으로, h_t를 표현 RNN이 생성하는 고수준 비의식 표현으로 정의한다 (h_t = F(x_t, h_{t-1}).
- h_t에 대한 주의(attention)에서 도출된 의식 상태 c_t = C(h_t, c_{t-1}, m_{t-1}, z_t)를 도입한다.
- 고수준 개념의 공동분포를 희소 인자 그래프로 모델링한다 P(S) = (∏ f_j(S_j)) / Z.
- 현재 표현과 과거 의식 내용의 일관성을 평가하기 위한 검증기 V(h_t, c_{t-k})를 제안한다.
- 주목(attention)이 정보적으로 유용한 요소를 선택하여 미래를 예측하거나 입력을 재구성하는 학습 목표를 설명하고, 상호정보량 또는 다양성 항을 사용할 수 있다.
실험 결과
연구 질문
- RQ1희소하고 주의 기반의 의식 상태 c_t가 해리된(구분된) 고수준 표현을 향상시킬 수 있는가?
- RQ2의식 상태를 언어 유사 발화로 매핑하는 것이 해석과 학습에 도움을 주는가?
- RQ3검증기 네트워크가 의식 내용의 미래 상태와의 일관성을 신뢰할 수 있게 판단할 수 있는가?
- RQ4의식 주의 목표를 어떻게 구성하여 유용하고 다양한 주의 대상 요소를 촉진할 수 있는가?
- RQ5의식적 처리가 픽셀 수준 예측을 넘어 계획, 추론, 장기 예측을 향상시킬 수 있는가?
주요 결과
- 의식적 사고가 주의에 의해 선택된 고수준 변수의 작은 부분집합에 대응한다는 것을 제안한다.
- 고수준 개념의 공동분포의 구조적 형태로서 희소 인자 그래프를 주장한다.
- 의식 상태가 자연어 발화로 매핑될 수 있어 해석 가능한 표현을 가능하게 한다고 제안한다.
- 재구성, 예측 및 RL 유사 목표를 검증기와 함께 일관성을 위한 학습으로 결합할 수 있음을 설명한다.
- 언어 유사 표현을 통한 체계적 일반화 및 조합적 추론의 잠재적 이점을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.