QUICK REVIEW

[논문 리뷰] Thread of Thought Unraveling Chaotic Contexts

Yucheng Zhou, Xiubo Geng|arXiv (Cornell University)|2023. 11. 15.

Topic Modeling인용 수 10

한 줄 요약

ThoT 프롬프트가 혼란스러운 맥락을 구분하고 분석하며, LLM과 플러그 앤 플레이로 작동하고, PopQA, EntityQ, MTCR 데이터셋에서 CoT 및 일반 프롬프트 대비 더 우수한 추론 성능을 달성한다.

ABSTRACT

Large Language Models (LLMs) have ushered in a transformative era in the field of natural language processing, excelling in tasks related to text comprehension and generation. Nevertheless, they encounter difficulties when confronted with chaotic contexts (e.g., distractors rather than long irrelevant context), leading to the inadvertent omission of certain details within the chaotic context. In response to these challenges, we introduce the "Thread of Thought" (ThoT) strategy, which draws inspiration from human cognitive processes. ThoT systematically segments and analyzes extended contexts while adeptly selecting pertinent information. This strategy serves as a versatile "plug-and-play" module, seamlessly integrating with various LLMs and prompting techniques. In the experiments, we utilize the PopQA and EntityQ datasets, as well as a Multi-Turn Conversation Response dataset (MTCR) we collected, to illustrate that ThoT significantly improves reasoning performance compared to other prompting techniques.

연구 동기 및 목표

검색 강화 및 다중 턴 대화에서 혼란스러운 맥락 문제의 동기를 제시한다.
ThoT 프롬프트 전략을 플러그 앤 플레이 솔루션으로 제안한다.
ThoT가 롱테일 QA 및 MTCR 작업에서 CoT 및 일반 프롬프트 대비 추론 성능을 향상시킴을 보여준다.
프롬프트 설계와 모델 규모가 ThoT의 효과에 어떤 영향을 미치는지 시연한다.

제안 방법

확장된 맥락에서 인간과 유사한 추론을 모방하기 위한 두 단계 프롬프트.
첫 번째 단계에서 맥락을 관리 가능한 부분으로 나누어 요약 및 분석을 통해 모델이 순서대로 탐색하도록 한다.
두 번째 단계에서 구조화된 추론 출력으로부터 최종 정답을 추출한다.
템플릿 기반 프롬프트가 혼란스러운 맥락 X, 질의 Q, 그리고 ThoT 추론을 시작하는 트리거 문장을 결합한다.
여러 LLM(GPT-3.5-turbo, GPT-4, LLaMA 2 Chat, Vicuna)에서 프롬프트 전략(Vanilla, Retrieval, CoT, ThoT) 간 비교.
평가 데이터셋에는 PopQA, EntityQ, 그리고 다중 턴 대화를 위한 커스텀 MTCR 데이터셋이 포함된다.

실험 결과

연구 질문

RQ1ThoT가 CoT 및 일반 프롬프트에 비해 혼란한 맥락 조건에서 추론 능력을 향상시킬 수 있는가?
RQ2기존 프롬프트 방법에 비해 검색 강화 및 다중 턴 대화 시나리오에서 ThoT의 성능은 어떤가?
RQ3다양한 아키텍처에 걸쳐 모델 규모가 ThoT의 이점을 증폭시키는가?
RQ4어떤 프롬프트 설계가 작업 간 ThoT의 효과와 일관성을 극대화하는가?

주요 결과

ThoT는 평가된 모델 전반에서 PopQA와 EntityQ에서 정확 일치(EM) 지표로 Vanilla, Retrieval, CoT를 능가한다.
MTCR에서 ThoT는 GPT-4, GPT-3.5-turbo 및 LLaMA 2 70B를 대상으로 다른 프롬프트에 비해 우수한 성능을 달성한다.
ThоT의 이득은 모델 크기의 증가와 상관관계가 있으며 검색-강화 맥_CONTEXT에서 현저한 개선을 보인다.
단계별 분석과 섹션별 요약을 명시적으로 지시하는 프롬프트 설계가 더 높은 EM 점수를 초래하며, 더 지시적인 프롬프트가 향상된 성능으로 이어진다.
사례 연구는 CoT가 실패할 수 있는 상황에서 ThoT가 소스 간 정보를 종합하는 능력을 보여준다(예: 밴드가 게러지 펑크를 연주한다는 추론).
오류 분석은 암시적 관계 추론의 도전 과제를 식별하고 향후 개선 영역을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.