[論文レビュー] Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves
本論文は RaR を紹介する。これは LLM が人間の質問を言い換えた後に回答するプロンプト法であり、言い換えを1つの LLM が行い、別の LLM が回答するという2段階バリアントを含む。
Misunderstandings arise not only in interpersonal communication but also between humans and Large Language Models (LLMs). Such discrepancies can make LLMs interpret seemingly unambiguous questions in unexpected ways, yielding incorrect responses. While it is widely acknowledged that the quality of a prompt, such as a question, significantly impacts the quality of the response provided by LLMs, a systematic method for crafting questions that LLMs can better comprehend is still underdeveloped. In this paper, we present a method named `Rephrase and Respond' (RaR), which allows LLMs to rephrase and expand questions posed by humans and provide responses in a single prompt. This approach serves as a simple yet effective prompting method for improving performance. We also introduce a two-step variant of RaR, where a rephrasing LLM first rephrases the question and then passes the original and rephrased questions together to a different responding LLM. This facilitates the effective utilization of rephrased questions generated by one LLM with another. Our experiments demonstrate that our methods significantly improve the performance of different models across a wide range to tasks. We further provide a comprehensive comparison between RaR and the popular Chain-of-Thought (CoT) methods, both theoretically and empirically. We show that RaR is complementary to CoT and can be combined with CoT to achieve even better performance. Our work not only contributes to enhancing LLM performance efficiently and effectively but also sheds light on a fair evaluation of LLM capabilities. Data and codes are available at https://github.com/uclaml/Rephrase-and-Respond.
研究の動機と目的
- LLM に投げられる質問の誤解を生む人間-LLM フレームのずれを強調する。
- 1段階または2段階のプロンプトでモデルに言い換えと回答をさせることで LLM の理解を改善する RaR を提案する。
- 多様な推論タスクで RaR を評価し、CoT(Chain-of-Thought)と比較する。
- RaR が CoT と互換性があり、性能を向上させるために組み合わせ可能であることを示す。
- LLM 能力の公正な評価への移植性と含意を議論する。
提案手法
- One-step RaR を定義する: Rephrase and expand the question、そして respond instruction を含む単一のプロンプトで LLM に質問を言い換え、回答させる。
- Two-step RaR を定義する: まず言い換え用 LLM で言い換えられた質問を生成し、次に元の質問と言い換えられた質問の両方を用いて回答を生成する回答用 LLM をプロンプトする。
- RaR を理論的・経験的に CoT(Chain-of-Thought)と比較する。
- RaR が監視学習なし・トレーニング不要であること、CoT と補完的であることを示す。
- 言い換えられた質問が LLMs across に転用可能であることと、強力モデルと弱いモデルの組み合わせを用いた場合の潜在的な改善を示す。
実験結果
リサーチクエスチョン
- RQ1LLM に質問の言い換えを任せることで、さまざまなタスクにおける回答の正確性は向上するか。
- RQ2性能向上と効率の観点で One-step RaR と Two-step RaR はどう比較されるか。
- RQ3RaR は Chain-of-Thought(CoT)手法とどう関連し、組み合わせられるか。
- RQ4言い換えられた質問は異なる LLM 間で転用可能か、強力なモデルからの言い換えは弱いモデルを支援できるか。
- RQ5複数の言い換えは、より明確な質問形式へ収束するか。
主な発見
- One-step RaR は一般的なタスク全般に普遍的な、プラグアンドプレイの改善を提供する。
- Two-step RaR は varied tasks にわたり GPT-4 の性能を一貫して向上させ、難問で大きな改善をもたらすことが多い。
- 異なる LLM が RaR の恩恵を受け、より強力なモデルはより大きな向上を示し、弱いモデルは強力なモデルによる高品質な言い換えの恩恵を受ける。
- GPT-4 が生成した言い換えられた質問は Vicuna のような弱いモデルの改善に転用可能。
- RaR は CoT と補完的であり、さらなる性能向上のために組み合わせ可能。
- RaR は監視なし・訓練不要で、LLM の能力評価と公正な比較を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。