[논문 리뷰] Reasoning Beyond Words ? Exploring framework for hidden state reasoning
이 논문은 Coconut을 소개하며, 언어 공간이 아닌 연속 잠재 공간에서 추론할 수 있는 연쇄적 연쇄 사고(잠재 추론) 패러다임을 제시하고, 다단계 커리큘럼과 잠재 탐색 패턴으로 전통적인 CoT를 계획 중심 작업에서 능가할 수 있습니다.
Large language models (LLMs) are typically constrained to reason in the language space, where they express the reasoning process through a chain-of-thought (CoT) to solve complex problems. However, the language space may not always be optimal for reasoning. Most word tokens primarily ensure textual coherence and are not essential for reasoning, while some critical tokens require complex planning and pose challenges to LLMs. To explore the potential of reasoning beyond language, we introduce a new paradigm called Coconut (Chain of Continuous Thought). Coconut utilizes the last hidden state of the LLM as a representation of the reasoning state, termed "continuous thought." Instead of decoding this state into words, we feed it back to the model as the next input embedding directly in the continuous space. This latent reasoning paradigm enables an advanced reasoning pattern, where continuous thoughts can encode multiple alternative next steps, allowing the model to perform a breadth-first search (BFS) rather than committing prematurely to a single deterministic path as in CoT. Coconut outperforms CoT on logical reasoning tasks that require substantial search during planning and achieves a better trade-off between accuracy and efficiency.
연구 동기 및 목표
- 단어 토큰 기반 추론의 한계를 다루기 위해 잠재적이고 언어 프리 공간에서의 추론을 모티베이트한다.
- 계속되는 숨겨진 상태를 모델의 다음 입력으로 공급하는 Coconut 프레임워크를 제안한다.
- 잠재 추론이 폭넓은 탐색과 같은 계획 수립을 가능하게 하며 특정 작업에서 표준 CoT를 능가할 수 있음을 입증한다.
- 다단계 커리큘럼이 언어 기반 CoT 감독으로부터 잠재 추론을 효과적으로 학습시킨다는 것을 보여준다.
제안 방법
- Coconut을 언어 모드와 잠재 모드 사이를 번갈아 정의하고, 잠재 모드에서 마지막 숨겨진 상태를 다음 입력 임베딩으로 사용한다.
- 잠재 추론 간격을 표시하고 학습 및 추론 중에 연속 생각을 감싸기 위해 <bot> 및 <eot> 토큰을 도입한다.
- 언어 추론 단계를 점진적으로 대체하는 다단계 커리큘럼으로 학습하며, 각 단계에서 c개의 연속 Thought를 사용하도록 한다(여기서 c는 단계당 잠재 Thought 수를 제어한다).
- 표준 교차 엔트로피 손실을 마스킹과 함께 사용해 학습하되, 연속 Thought를 통해 역전파가 가능하도록 한다.
- 그리디 디코딩으로 추론하며 잠재 모드와 언어 모드를 전환하고, 잠재 모드 길이에 대해 고정 혹은 분류기 가이드 결정으로 진행한다.
- 수학 추론에서 GSM8k, 논리 추론에서 ProntoQA, 계획 집중 추론에서 ProsQA를 평가하고 CoT, No-CoT, iCoT, Pause-token 베이스라인과 비교한다.
실험 결과
연구 질문
- RQ1잠재적 연속 Thought가 LLM에서 언어 기반 체인보다 더 효율적이고 효과적인 추론을 가능하게 할 수 있는가?
- RQ2다단계 커리큘럼이 엔드 투 엔드 잠재 학습보다 잠재 추론을 더 효과적으로 학습시키는가?
- RQ3어떤 추론 작업에서 잠재 공간 추론이 전통적 Chain-of-Thought를 능가하는가?
- RQ4잠재 추론이 계획 수립과 백트래킹을 어떻게 표현하며, 이를 잠재 탐색 트리로 해석할 수 있는가?
주요 결과
- 연속 Thought는 세 데이터셋 전반에서 No-CoT보다 추론 정확도를 향상시킨다.
- ProntoQA와 ProsQA에서 Coconut 변형은 최종 정확도에서 CoT를 능가하며 더 적은 토큰을 생성해 효율성과 계획 수립이 향상됨을 보여준다.
- GSM8k에서 잠재 Thought 수 c를 증가시키면 성능이 향상되며, 이는 잠재 공간의 사슬 효과를 시사한다.
- ProsQA는 CoT가 저조한 계획 집중 작업에서 잠재 추론의 이점을 보여준다.
- 다단계 커리큘럼은 중요하며, 커리큘럼 제거(w/o curriculum) 시 특히 잠재 Thought가 없을 때 성능이 악화된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.