Skip to main content
QUICK REVIEW

[논문 리뷰] The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest

Michael Timothy Bennett|arXiv (Cornell University)|2023. 01. 30.
Computability, Logic, AI Algorithms참고 문헌 21인용 수 14
한 줄 요약

논문은 형식적 enactive-cognition 프레임워크 하에서 일반화의 확률을 극대화하는 것은 가장 약한 가설이지, 가장 짧은(descriptor length) 가설(minimum description length)이 아님을 주장합니다. 또한 약점을 프록시로 도입하고, 이론적으로와 실험적으로 약점이 일반화를 위한 Description Length보다 더 우수함을 보입니다. 이는 child에서 parent 작업으로 일반화하는 과정에서 약점이Description Length를 능가한다는 것을 보여줍니다.

ABSTRACT

If $A$ and $B$ are sets such that $A \subset B$, generalisation may be understood as the inference from $A$ of a hypothesis sufficient to construct $B$. One might infer any number of hypotheses from $A$, yet only some of those may generalise to $B$. How can one know which are likely to generalise? One strategy is to choose the shortest, equating the ability to compress information with the ability to generalise (a proxy for intelligence). We examine this in the context of a mathematical formalism of enactive cognition. We show that compression is neither necessary nor sufficient to maximise performance (measured in terms of the probability of a hypothesis generalising). We formulate a proxy unrelated to length or simplicity, called weakness. We show that if tasks are uniformly distributed, then there is no choice of proxy that performs at least as well as weakness maximisation in all tasks while performing strictly better in at least one. In experiments comparing maximum weakness and minimum description length in the context of binary arithmetic, the former generalised at between $1.1$ and $5$ times the rate of the latter. We argue this demonstrates that weakness is a far better proxy, and explains why Deepmind's Apperception Engine is able to generalise effectively.

연구 동기 및 목표

  • Enactive cognition 내에서 subset에서 더 큰 집합으로의 추론으로 일반화를 동기화합니다.
  • 더 짧은 설명(MDL)이 최상의 일반화 프록시라는 표준 관점을 도전합니다.
  • 일반화를 극대화하는 프록시로서의 지능의 대체 지표로서 약점(weakness)을 도입하고 형식화합니다.
  • 균일한 작업 분포 하에서 일반화 확률을 최대화하는데 있어 약점이 필요하고 충분하다는 이론적 증명을 제공합니다.
  • 단순한 8비트 문자열 과제에서 약점과 MDL을 비교하는 실험적 증거를 제공합니다.

제안 방법

  • 환경을 선언적 프로그램의 집합으로 표현하고 구현 가능한 언어와 작업을 정의합니다.
  • 일반화를 v-task 격자 내에서 child 작업에서 parent 작업으로 확장되는 가설로 정의합니다.
  • 지능의 두 가지 프록시로 약점(확장 Z_l의 크기)과 설명 길이(|l|)를 도입하고 이들의 수학적 역할을 설명합니다.
  • 약점이 일반화 확률을 최대화하는 충분조건(Prop. 1)과 필요조건(Prop. 2)을 증명하고, 설명 길이가 필요하거나 충분하지 않음을 보이는(Prop. 3) 증거를 제공합니다.
  • 구현 가능 언어 가설에 대한 보편적 사전(universal prior)을 제시하고 균일한 작업 분포를 논의합니다.
  • PyTorch/SymPy를 이용한 8비트 이진 덧셈/곱셈 과제에서 약점과 MDL를 비교하고 일반화 비율과 평균 일반화 범위를 측정합니다.

실험 결과

연구 질문

  • RQ1균일한 작업 분포 하에서 child 작업에서 parent 작업으로의 일반화를 가정할 때 약점이 일반화 가능성을 최대화합니까?
  • RQ2약점이 일반화를 위한 필요 프록시이며, 설명 길이가 프록시로서 충분하거나 필요한지 여부는 무엇입니까?
  • RQ3단순한 산술 과제에 대한 실험이 MDL보다 약점을 우수한 일반화 프록시로 지지합니까?
  • RQ4이러한 발견이 DeepMind의 Apperception Engine과 같은 일부 AI 시스템이 왜 잘 일반화하는지에 대해 어떤 시사점을 제공합니까?
  • RQ5실용적 설정에서 과제 어휘 선택이 약점을 통한 귀납에 어떤 영향을 줍니까?

주요 결과

  • 약점은 자녀 작업에서 부모 작업으로의 일반화 확률을 최대화하기 위한 충분한 프록시입니다.
  • 균일한 작업 분포 하에서 일반화 확률을 최대화하려면 약점이 필요하고 설명 길이는 필요하지 않습니다.
  • 8비트 이진 덧셈 및 곱셈에 대한 실험은 약점이 일반화 비율을 더 높게 만들고( MDL의 110-500%), 평균 일반화 범위도 더 큽니다(103-156%).
  • MDL(minimum description length)은 일반화를 최대화하지 못하며, 테스트된 모든 작업 구성에서 약점에 의해 능가될 수 있습니다.
  • 실험 결과는 Apperception Engine과 같은 시스템에서 약하지만 유효한 가설이 일반화를 촉진하는 경향이 있기 때문에 효과적인 일반화를 설명하는 데 기여합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.