[논문 리뷰] On the Turing Completeness of Modern Neural Network Architectures
논문은 Transformer 및 Neural GPU 아키텍처가 내부 밀집 표현의 계산 및 접근 능력으로, 외부 메모리 없이, 임의의 정밀도 가정 하에 튜링 완전하다는 것을 보인다. 또한 위치 인코딩의 역할을 분석하고 이전 결과와 비교한다.
Alternatives to recurrent neural networks, in particular, architectures based on attention or convolutions, have been gaining momentum for processing input sequences. In spite of their relevance, the computational properties of these alternatives have not yet been fully explored. We study the computational power of two of the most paradigmatic architectures exemplifying these mechanisms: the Transformer (Vaswani et al., 2017) and the Neural GPU (Kaiser & Sutskever, 2016). We show both models to be Turing complete exclusively based on their capacity to compute and access internal dense representations of the data. In particular, neither the Transformer nor the Neural GPU requires access to an external memory to become Turing complete. Our study also reveals some minimal sets of elements needed to obtain these completeness results.
연구 동기 및 목표
- 학습 알고리즘을 위한 비순환 신경망(주의 메커니즘과 합성곱)의 계산 능력 연구를 동기 부여한다.
- 합리적 정밀도 프레임워크 내에서 seq-to-seq 신경망의 튜링 완전성을 형식적으로 정의한다.
- Transformer와 Neural GPU가 외부 메모리 없이, 임의의 내부 정밀도 아래에서 튜링 완전함을 달성한다는 것을 보여준다.
- 이러한 아키텍처에서 튜링 완전성을 얻기 위해 필요한 최소 요소를 식별한다.
제안 방법
- seq-to-seq 인식기와 튜링 완전성의 형식적 정의를 제공한다(임베딩, 시드, 최종 벡터 집합).
- 제한된 자원과 특정 활성화 하에서 인코더–디코더 RNN이 튜링 완전하다는 것을 보인다(Siegelmann & Sontag의 결과).
- 증명에서 하드 어텐션을 사용하여 주의, 인코더/디코더, 위치 인코딩을 포함한 Transformer 아키텍처를 형식화한다.
- 위치 인코딩이 있는 Transformer가 튜링 머신을 시뮬레이션함으로써 튜링 완전함을 입증한다.
- seq-to-seq 모델로서의 Neural GPU를 분석하고, 균일한 Neural GPU가 RNN 인코더–디코더를 시뮬레이션하여 튜링 완전함을 증명한다.
- 표준 Transformer 구현과의 차이점 및 임의의 정밀도의 필요성에 대해 논의한다.
실험 결과
연구 질문
- RQ1현대의 주의 기반 또는 합성곱 기반 아키텍처가 외부 메모리 없이 튜링 완전성을 달성할 수 있는가?
- RQ2Transformer가 튜링 완전성을 달성하기 위해 필요한 최소한의 구조적 구성요소(예: 위치 인코딩, 하드 어텐션)는 무엇인가?
- RQ3Neural GPU의 구조가 RNN 기반 계산의 시뮬레이션을 경계가 있는 아키텍처 내에서 어떻게 가능하게 하는가?
- RQ4완전성을 확립하는 데 있어 실제 유한 정밀 하드웨어와 이론적 무제한 정밀도 사이의 트레이드오프는 무엇인가?
주요 결과
- 위치 인코딩이 있는 Transformer 네트워크는 임의의 정밀도 가정하에 튜링 완전하다.
- 위치 인코딩 없이의 Transformer는 순서- 및 비례-불변이며 특정 정규 언어를 인식할 수 없어 위치 정보가 없으면 힘이 제한적이다.
- 논문은 특정 조밀한 표현 크기를 사용하여 하나의 인코더 층과 세 개의 디코더 층으로 Transformer가 튜링 머신을 시뮬레이션할 수 있음을 구성적 증명으로 제시한다.
- 균일한 Neural GPUs는 seq-to-seq RNN을 시뮬레이션함으로써 튜링 완전하며, Neural GPU 계산을 고전적 RNN 기반 인식기와 연결한다.
- 결과는 형식적 증명으로 제시되며(부록에 전체 세부 내용 포함), 합리적 활성화와 합리값의 내부 표현에 의존한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.