Skip to main content
QUICK REVIEW

[논문 리뷰] Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

Xuan Zhang, Chao Du|arXiv (Cornell University)|2024. 06. 13.
Business Process Modeling and Analysis인용 수 6
한 줄 요약

CPO는 Tree-of-Thought 검색에서 매 단계의 선호/비선호 생각을 활용하여 Chain-of-Thought 추론을 개선하고 ToT에 비해 추론 지연이 훨씬 낮은 상태에서 LLM을 미세조정한다.

ABSTRACT

The recent development of chain-of-thought (CoT) decoding has enabled large language models (LLMs) to generate explicit logical reasoning paths for complex problem-solving. However, research indicates that these paths are not always deliberate and optimal. The tree-of-thought (ToT) method employs tree-searching to extensively explore the reasoning space and find better reasoning paths that CoT decoding might overlook. This deliberation, however, comes at the cost of significantly increased inference complexity. In this work, we demonstrate that fine-tuning LLMs leveraging the search tree constructed by ToT allows CoT to achieve similar or better performance, thereby avoiding the substantial inference burden. This is achieved through Chain of Preference Optimization (CPO), where LLMs are fine-tuned to align each step of the CoT reasoning paths with those of ToT using the inherent preference information in the tree-search process. Extensive experimental results show that CPO significantly improves LLM performance in solving a variety of complex problems, including question answering, fact verification, and arithmetic reasoning, demonstrating its effectiveness. Our code is available at https://github.com/sail-sg/CPO.

연구 동기 및 목표

  • 최종 경로를 넘어 ToT 유도 선호를 포함함으로써 Chain-of-Thought 추론 개선을 촉진한다.
  • 감독을 위한 매 단계의 선호 정보를 추출하기 위해 tree-search 과정을 활용한다.
  • 각 단계에서 선호 생각과 비선호 생각을 직접 최적화하는 학습 목표를 개발한다.
  • 추가 추론 지연 없이 QA, 사실 검증, 산술 추론 전반에서 CPO가 주목할 만한 이점을 제공함을 보여준다.

제안 방법

  • 각 단계에서 여러 생각을 생성하여 ToT search 트리에서 선호 생각의 체인을 구성한다.
  • LLM으로 각 생각을 평가하여 진행 점수를 할당하고 BFS 가지치기를 통해 상위 n개의 생각을 선택한다.
  • 각 단계에서 선호 생각과 그 비선호 이웃(형제)를 짝지어 매 단계의 선호 데이터를 생성한다.
  • Direct Preference Optimization (DPO) 목표를 사용하여 선호 생각 대 비선호 생각의 가능도 비를 최대화하도록 LLM을 훈련한다.
  • 다수의 데이터셋과 LoRA-미세조정된 LLM을 사용하는 기본 모델에서 CPO를 CoT, ToT, 및 TS-SFT와 비교한다.

실험 결과

연구 질문

  • RQ1매 단계 선호 감독이 Chain-of-Thought 추론을 개선하기 위한 전체 경로 감독에 비해 이점을 제공하는가?
  • RQ2CPO가 상당히 낮은 추론 지연으로 ToT와 유사한 이점을 달성할 수 있는가?
  • RQ3CPO가 서로 다른 추론 작업(QA, 사실 검증, 산술)에 걸쳐 및 모델 크기에 대해 견고한가?

주요 결과

  • CPO는 작업과 모델 전반에서 평균 정확도 향상을 4.3% 달성하며 최대 9.7%에 이른다.
  • CPO는 ToT와 동등하거나 더 나은 성능을 달성하는 동시에 추론 지연이 훨씬 더 낮다(평균 57.5배 빨름).
  • CPO는 TS-SFT보다 평균 2.7% 더 높은 성능을 달성하고 경우에 따라 최대 10.3% 향상, 선호 생각과 비선호 생각을 모두 활용하여.
  • 매 단계 선호 데이터가 유익하며, 훈련 중 비선호 데이터의 비율을 증가시키면 일관되게 성능이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.