Skip to main content
QUICK REVIEW

[論文レビュー] Thread of Thought Unraveling Chaotic Contexts

Yucheng Zhou, Xiubo Geng|arXiv (Cornell University)|Nov 15, 2023
Topic Modeling被引用数 10
ひとこと要約

ThoT プロンプトは混沌とした文脈をセグメント化して分析し、LLM とプラグアンドプレイ可能に統合し、PopQA、EntityQ、および MTCR データセットで CoT や vanilla プロンプティングより高度な推論性能を実現します。

ABSTRACT

Large Language Models (LLMs) have ushered in a transformative era in the field of natural language processing, excelling in tasks related to text comprehension and generation. Nevertheless, they encounter difficulties when confronted with chaotic contexts (e.g., distractors rather than long irrelevant context), leading to the inadvertent omission of certain details within the chaotic context. In response to these challenges, we introduce the "Thread of Thought" (ThoT) strategy, which draws inspiration from human cognitive processes. ThoT systematically segments and analyzes extended contexts while adeptly selecting pertinent information. This strategy serves as a versatile "plug-and-play" module, seamlessly integrating with various LLMs and prompting techniques. In the experiments, we utilize the PopQA and EntityQ datasets, as well as a Multi-Turn Conversation Response dataset (MTCR) we collected, to illustrate that ThoT significantly improves reasoning performance compared to other prompting techniques.

研究の動機と目的

  • retrieval-augmented and multi-turn conversations.
  • Note: The original objective text is already in English and should be translated. Please replace with a faithful translation of each item into Japanese.

提案手法

  • Two-step prompting to emulate human-like reasoning across extended contexts.
  • First step prompts the model to walk through the context in manageable parts with summarization and analysis.
  • Second step extracts the final answer from the structured reasoning output.
  • A template-based prompt integrates chaotic context X, query Q, and a trigger sentence to initiate ThoT reasoning.
  • Comparison across prompting strategies (Vanilla, Retrieval, CoT, ThoT) on multiple LLMs (GPT-3.5-turbo, GPT-4, LLaMA 2 Chat, Vicuna).
  • Evaluation datasets include PopQA, EntityQ, and a custom MTCR dataset for multi-turn conversations.

実験結果

リサーチクエスチョン

  • RQ1ThoT は CoT および vanilla プロンプトと比較して、混乱した文脈条件下で推論を改善できるか?
  • RQ2ThoT は既存の prompting 方法と比較して、取得拡張および多ターン対話シナリオでどのように性能を示すか?
  • RQ3モデル規模は、異なるアーキテクチャ全体でThoT の利点を拡大するか?
  • RQ4どのプロンプト設計がThoT の有効性と一貫性を最大化するか?

主な発見

  • ThoT は評価されたモデル間で、PopQA および EntityQ における exact-match 指標で Vanilla、Retrieval、CoT を上回る。
  • MTCR では、ThoT が GPT-4、GPT-3.5-turbo、LLaMA 2 70B に対して他のプロンプトと比較して優れた性能を達成。
  • ThoT の利得は大きなモデルサイズと相関し、取得拡張文脈に対して顕著な改善を示す。
  • 明示的に段階的分析とセクションごとの要約を指示するプロンプト設計は EM スコアを高め、より指示的なプロンプトはパフォーマンスを向上させる。
  • ケーススタディでは、ThoT が複数の情報源を統合して推論する能力を示す(例:バンドがガレージ・パンクを演奏していると推定する)一方、CoT は失敗する場合がある。
  • エラー分析は、暗黙の関係推論の課題を特定し、将来の改善の領域を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。