[논문 리뷰] Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models
Buffer of Thoughts (BoT) 는 고수준 사고-템플릿의 메타 버퍼와 사고 지침을 동적으로 정제하고 재사용하기 위한 버퍼 관리자를 도입하여 10개의 도전적인 과제에서 최첨단 개선을 달성하는 동시에 다중 질의 프롬핑 비용을 감소시킵니다.
We introduce Buffer of Thoughts (BoT), a novel and versatile thought-augmented reasoning approach for enhancing accuracy, efficiency and robustness of large language models (LLMs). Specifically, we propose meta-buffer to store a series of informative high-level thoughts, namely thought-template, distilled from the problem-solving processes across various tasks. Then for each problem, we retrieve a relevant thought-template and adaptively instantiate it with specific reasoning structures to conduct efficient reasoning. To guarantee the scalability and stability, we further propose buffer-manager to dynamically update the meta-buffer, thus enhancing the capacity of meta-buffer as more tasks are solved. We conduct extensive experiments on 10 challenging reasoning-intensive tasks, and achieve significant performance improvements over previous SOTA methods: 11% on Game of 24, 20% on Geometric Shapes and 51% on Checkmate-in-One. Further analysis demonstrate the superior generalization ability and model robustness of our BoT, while requiring only 12% of the cost of multi-query prompting methods (e.g., tree/graph of thoughts) on average. Notably, we find that our Llama3-8B+BoT has the potential to surpass Llama3-70B model. Our project is available at: https://github.com/YangLing0818/buffer-of-thought-llm
연구 동기 및 목표
- LLM 추론에서 단일-질의 프롬 prompting 및 다중 질의 프롬 prompting의 한계와 동기를 제시합니다.
- 사고-템플릿의 메타 버퍼와 사고 지침을 증류하고 재사용하기 위한 버퍼-매니저를 도입합니다.
- 현재 과제에 맞춘 사고-템플릿의 인스턴스화를 가능하게 하여 정확성 및 효율성을 향상시킵니다.
- 10개의 추론 중심 과제에서 최첨단 성능 향상을 입증하고 강건성 및 효율성을 분석합니다.
제안 방법
- 문제 디스틸러 모듈이 reasoning 전에 필수 과제 정보와 제약을 추출합니다.
- 메타 버퍼는 여섯 유형으로 분류된 보편적 고수준 사고(생각-템플릿)를 저장하고 임베딩 유사성으로 검색합니다.
- 인스턴스화된 추론은 현재 과제에 맞게 검색된 사고-템플릿을 적용시키는 인스턴에이션 프롬프트를 통해 조정합니다.
- 버퍼-매니저는 해결된 문제들로부터 템플릿을 정제하고 메타 버퍼를 업데이트하여 향후 과제 해결을 개선합니다.
- robust 사고-템플릿을 증류하고 일반화능력을 높이기 위해 두-과제와 교차-과제 예시를 사용합니다.
- 평가에서는 GPT-4를 기본 모델로 사용하고(Llama3-8B/70B 분석도 포함) 10개의 벤치마크를 대상으로 표준, 단일 질의, 다중 질의, 메타 프롬핑 베이스라인과 비교합니다.
실험 결과
연구 질문
- RQ1Buffer of Thoughts가 단일 및 다중 질의 프롬 prompting 베이스라인에 비해 도전적이고 추론 중심의 과제에서 정확도를 향상시킬 수 있는가?
- RQ2메타 버퍼가 과제 간 고수준 사고를 재사용함으로써 일반화 및 강건성을 향상시킬 수 있는가?
- RQ3BoT가 기존 다중 질의 접근법과 비교했을 때 효율성에 미치는 영향은 무엇이며 더 작은 모델도 BoT의 이점을 얻을 수 있는가?
주요 결과
- BoT는 Game of 24에서 11%, Geometric Shapes에서 20%, Checkmate-in-One에서 51%를 포함한 여러 과제에서 기존 방법에 비해 상당한 정확도 향상을 달성합니다.
- BoT는 다중 질의 프롬 prompting 방법에 비해 비용이 현저히 낮아 평균적으로 그 비용의 약 12% 수준입니다.
- BoT는 기준선에 비해 벤치마크 전반에서 성공률이 더 높아 강건성 개선을 보여줍니다.
- Llama3-8B를 사용한 BoT는 여러 과제에서 Llama3-70B를 능가할 잠재력이 있어 효율성-정확도 트레이드를 개선합니다.
- 버퍼-매니저는 연속적인 메타 버퍼 확장을 가능하게 하여 더 많은 문제 해결이 이루어질수록 추론 효율이 향상됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.