[논문 리뷰] Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective
논문은 Chain-of-Thought 프롬프트가 왜 LLM에 도움이 되는지 분석하고, 복잡도 이론적 결과를 통해 CoT가 직접 생성으로는 해결할 수 없는 수학 및 DP 문제를 해결하게 함을 보여주고, 이를 뒷받침하는 실험을 제공한다.
Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this paper, we take a first step towards theoretically answering these questions. Specifically, we examine the expressivity of LLMs with CoT in solving fundamental mathematical and decision-making problems. By using circuit complexity theory, we first give impossibility results showing that bounded-depth Transformers are unable to directly produce correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, we then prove by construction that autoregressive Transformers of constant size suffice to solve both tasks by generating CoT derivations using a commonly used math language format. Moreover, we show LLMs with CoT can handle a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks. Finally, an extensive set of experiments show that, while Transformers always fail to directly predict the answers, they can consistently learn to generate correct solutions step-by-step given sufficient CoT demonstrations.
연구 동기 및 목표
- CoT 없이 기본 수학 과제에 대한 경계 깊이 트랜스포머의 표현력 한계를 평가한다.
- 상수 크기 자회귀 트랜스포머가 산술 및 방정식 과제에 대해 CoT 해법을 생성할 수 있음을 보여준다.
- CoT를 가진 LLM이 공식적 프레임워크 하에서 동적 프로그래밍 문제를 해결할 수 있음을 시연한다.
- CoT가 올바른 단계별 해법과 더 긴 입력에 대한 일반화를 가능하게 한다는 경험적 증거를 제공한다.
제안 방법
- 깊이/크기 트레이드오프를 연구하기 위해 트랜스포머를 로그 정밀도 자회귀 회로로 모델링한다.
- 불가능성 결과를 증명한다: TC0 대 NC1 가정하에서 CoT 없이 경계 깊이 트랜스포머가 Arithmetic(n,p) 및 Equation(m,p)를 해결할 수 없다고 한다.
- 구성적 증명: 상수 크기 자회귀 트랜스포머가 Arithmetic(n,p) 및 Equation(m,p)에 대해 CoT 해법을 생성할 수 있음을 보인다(깊이 5 또는 4 및 다항적으로 한정된 매개변수).
- DP 문제를 상태 공간, 전이 및 집계를 갖는 프레임으로 구성하고 CoT가 활성화된 트랜스포머가 올바른 DP 출력을 생성할 수 있음을 증명한다(정리 4.7).
- CoT 없이 CFG 멤버십 테스트와 같은 DP에 대한 불가능성 결과를 제시한다(정리 4.8).
- 산술, 방정식, LIS, 편집 거리 과제에 대한 실험을 보완하여 CoT의 이점을 시사한다.
실험 결과
연구 질문
- RQ1CoT 없이 경계 깊이 트랜스포머가 산술 표현식과 선형 방정식에 대해 직접 올바른 해답을 출력할 수 있는가?
- RQ2CoT를 생성하는 것이 트랜스포머 회로의 유효 깊이를 충분히 증가시켜 이러한 작업을 해결하게 하는가?
- RQ3LLMs가 CoT로 DP 문제를 해결할 수 있는가, 어떤 가정 하에서?
- RQ4네트워크 깊이를 증가시키지 않고 CFG 멤버십 테스트와 같은 문제에 대해 CoT의 한계는 무엇인가?
주요 결과
- 경계 깊이 로그-정밀 트랜스포머가 CoT 없이 TC0≠NC1 하에서 Arithmetic(n,p) 또는 Equation(m,p)를 해결할 수 없다는 불가능성 결과.
- 상수 크기 자회귀 트랜스포머가 깊이 5 또는 4와 다항적으로 한정된 매개변수로 Arithmetic(n,p) 및 Equation(m,p)에 대해 CoT 해법을 생성할 수 있다.
- CoT를 가진 LLM은 일반 DP 문제를 해결할 수 있으며, 정리 4.7은 완전성을 입력 크기 n까지의 경우를 완화된 가정하에 입증한다.
- CoT 없이 CFG 멤버십 테스트와 같은 DP 문제는 경계 깊이 트랜스포머에게 어렵다(정리 4.8).
- Arithmetic, Equation, LIS, 및 편집 거리 전체에 걸친 실험에서 CoT-학습 모델은 높은 정확도를 달성하고 더 긴 입력으로 일반화하는 반면, 직접 출력 모델은 그렇지 않다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.