QUICK REVIEW

[논문 리뷰] Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Ling Yang, Zhaochen Yu|arXiv (Cornell University)|2024. 06. 06.

Topic Modeling인용 수 7

한 줄 요약

Buffer of Thoughts (BoT) 는 고수준 사고-템플릿의 메타 버퍼와 사고 지침을 동적으로 정제하고 재사용하기 위한 버퍼 관리자를 도입하여 10개의 도전적인 과제에서 최첨단 개선을 달성하는 동시에 다중 질의 프롬핑 비용을 감소시킵니다.

ABSTRACT

We introduce Buffer of Thoughts (BoT), a novel and versatile thought-augmented reasoning approach for enhancing accuracy, efficiency and robustness of large language models (LLMs). Specifically, we propose meta-buffer to store a series of informative high-level thoughts, namely thought-template, distilled from the problem-solving processes across various tasks. Then for each problem, we retrieve a relevant thought-template and adaptively instantiate it with specific reasoning structures to conduct efficient reasoning. To guarantee the scalability and stability, we further propose buffer-manager to dynamically update the meta-buffer, thus enhancing the capacity of meta-buffer as more tasks are solved. We conduct extensive experiments on 10 challenging reasoning-intensive tasks, and achieve significant performance improvements over previous SOTA methods: 11% on Game of 24, 20% on Geometric Shapes and 51% on Checkmate-in-One. Further analysis demonstrate the superior generalization ability and model robustness of our BoT, while requiring only 12% of the cost of multi-query prompting methods (e.g., tree/graph of thoughts) on average. Notably, we find that our Llama3-8B+BoT has the potential to surpass Llama3-70B model. Our project is available at: https://github.com/YangLing0818/buffer-of-thought-llm

연구 동기 및 목표

LLM 추론에서 단일-질의 프롬 prompting 및 다중 질의 프롬 prompting의 한계와 동기를 제시합니다.
사고-템플릿의 메타 버퍼와 사고 지침을 증류하고 재사용하기 위한 버퍼-매니저를 도입합니다.
현재 과제에 맞춘 사고-템플릿의 인스턴스화를 가능하게 하여 정확성 및 효율성을 향상시킵니다.
10개의 추론 중심 과제에서 최첨단 성능 향상을 입증하고 강건성 및 효율성을 분석합니다.

제안 방법

문제 디스틸러 모듈이 reasoning 전에 필수 과제 정보와 제약을 추출합니다.
메타 버퍼는 여섯 유형으로 분류된 보편적 고수준 사고(생각-템플릿)를 저장하고 임베딩 유사성으로 검색합니다.
인스턴스화된 추론은 현재 과제에 맞게 검색된 사고-템플릿을 적용시키는 인스턴에이션 프롬프트를 통해 조정합니다.
버퍼-매니저는 해결된 문제들로부터 템플릿을 정제하고 메타 버퍼를 업데이트하여 향후 과제 해결을 개선합니다.
robust 사고-템플릿을 증류하고 일반화능력을 높이기 위해 두-과제와 교차-과제 예시를 사용합니다.
평가에서는 GPT-4를 기본 모델로 사용하고(Llama3-8B/70B 분석도 포함) 10개의 벤치마크를 대상으로 표준, 단일 질의, 다중 질의, 메타 프롬핑 베이스라인과 비교합니다.

실험 결과

연구 질문

RQ1Buffer of Thoughts가 단일 및 다중 질의 프롬 prompting 베이스라인에 비해 도전적이고 추론 중심의 과제에서 정확도를 향상시킬 수 있는가?
RQ2메타 버퍼가 과제 간 고수준 사고를 재사용함으로써 일반화 및 강건성을 향상시킬 수 있는가?
RQ3BoT가 기존 다중 질의 접근법과 비교했을 때 효율성에 미치는 영향은 무엇이며 더 작은 모델도 BoT의 이점을 얻을 수 있는가?

주요 결과

BoT는 Game of 24에서 11%, Geometric Shapes에서 20%, Checkmate-in-One에서 51%를 포함한 여러 과제에서 기존 방법에 비해 상당한 정확도 향상을 달성합니다.
BoT는 다중 질의 프롬 prompting 방법에 비해 비용이 현저히 낮아 평균적으로 그 비용의 약 12% 수준입니다.
BoT는 기준선에 비해 벤치마크 전반에서 성공률이 더 높아 강건성 개선을 보여줍니다.
Llama3-8B를 사용한 BoT는 여러 과제에서 Llama3-70B를 능가할 잠재력이 있어 효율성-정확도 트레이드를 개선합니다.
버퍼-매니저는 연속적인 메타 버퍼 확장을 가능하게 하여 더 많은 문제 해결이 이루어질수록 추론 효율이 향상됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.