[論文レビュー] Explanations from Large Language Models Make Small Reasoners Better
本論文は、マルチタスク微調整フレームワークで使用されるLLM生成の説明が、小規模言語モデルの推論を著しく改善し、ベースラインを上回るだけでなく、CommonsenseQAにおいては60倍大規模なGPT-3に匹敵する水準にも達しうることを、最大9.5%の精度向上という形で示しているとともに、高品質な説明も同時に生成する。
Integrating free-text explanations to in-context learning of large language models (LLM) is shown to elicit strong reasoning capabilities along with reasonable explanations. In this paper, we consider the problem of leveraging the explanations generated by LLM to improve the training of small reasoners, which are more favorable in real-production deployment due to their low cost. We systematically explore three explanation generation approaches from LLM and utilize a multi-task learning framework to facilitate small models to acquire strong reasoning power together with explanation generation capabilities. Experiments on multiple reasoning tasks show that our method can consistently and significantly outperform finetuning baselines across different settings, and even perform better than finetuning/prompting a 60x larger GPT-3 (175B) model by up to 9.5% in accuracy. As a side benefit, human evaluation further shows that our method can generate high-quality explanations to justify its predictions, moving towards the goal of explainable AI.
研究の動機と目的
- 小さな推論エンジンにLLM生成の説明を与えることで、巨大で高コストなモデルへの依存を削減する動機づけ。
- LLMによる3つの説明生成戦略を系統的に比較し、マルチタスク学習で統合する。
- 複数の推論データセットを横断して、ファインチューニングベースラインに対して一貫した性能向上を示す。
- MT-CoTが優れた結果をもたらし、説明可能AIの目的を支える説明を提供することを示す。
提案手法
- 3つのLLMベースの説明生成アプローチを検討: COTE(正解を拒否する連鎖思考)、RP(ゴールデンラベルを条件とした合理化プロンプティング)、CROP(COTEを基にRPをバックアップとして併用するハイブリッド)
- 小規模モデルをトレーニングするためのマルチタスク学習フレームワークを用い、(i) 直接回答、(ii) 説明と回答を生成する (MT-CoT)、または関連するバリアント MT-Re および MT-Ra を用いる。
- 説明は7ショットのデモでインコンテキスト学習を用いてGPT-3により生成され、その後T5ベースの小型モデルの訓練に使用される。
- 実験はCommonsenseQA、StrategyQA、OpenBookQAを対象とし、STファインチューニング、MTバリアント、およびさまざまなモデルサイズ(T5-small から T5-3B)を比較する。
- 人間評価は、qtrタスクのために生成された説明の質をGPT-3の説明と比較して評価する。
実験結果
リサーチクエスチョン
- RQ1LLMによって生成された説明は、小規模言語モデルの推論能力を改善できるか?
- RQ2どの説明生成とマルチタスク学習の構成が、データセット全体で最も強い性能向上を生むか?
- RQ3小型モデルへの説明利得の移転において、MT-CoTはMT-ReおよびMT-Raとどう比較されるか?
- RQ4大規模LLMプロンプティングと比較して、モデルサイズの拡大やfew-shot/ファインチューニング設定で顕著な利得が観察されるか?
- RQ5生成された説明は、人間の観点から見て競争力のある品質を提供するか?
主な発見
- LLM生成の説明を用いたマルチタスク学習は、3つのデータセット全体で一貫して単一タスクのファインチューニングベースラインを上回る。
- MT-CoTはしばしば最高の結果を達成し、3データセットのうち2つでMT-ReおよびMT-Raを上回る。
- CommonsenseQAでは、MTアプローチが、いくつかの設定で175BのGPT-3によるファインチューニング/プロンプティングを最大9.5%の精度で上回ることがある。
- MTと説明戦略は、データサイズが異なる場合でも堅牢性を提供し、少数ショット設定を含むデータが少ない場合に顕著な利得をもたらす。
- 人間評価は、説明の品質が高く予測を正当化できることを示し、Explainable AIの目的を支持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。