[論文レビュー] TALM: Tool Augmented Language Models
TALM は言語モデルにテキスト対テキストのツールインターフェースと反復自己対話ループを追加してツール使用をブートストラップし、より小さなモデルが非拡張LMより知識・数学タスクで上回り、分布外入力への一般化を実現します。
Transformer based language models (LMs) demonstrate increasing performance with scale across a wide variety of tasks. Scale alone however cannot enable models to solve tasks that require access to ephemeral, changing, or private data that was unavailable at training time. Many useful tasks may also benefit from LMs being able to access APIs that read or modify state. In this work, we present Tool Augmented Language Models (TALM), combining a text-only approach to augment language models with non-differentiable tools, and an iterative "self-play" technique to bootstrap performance starting from few tool demonstrations. TALM exhibits strong performance on both a knowledge-heavy QA task and a reasoning oriented math task with simple tools. At a given model scale, TALM significantly outperforms non-augmented LMs. We further demonstrate that TALM successfully performs out-of-distribution inferences on both QA and math tasks, where non-augmented LMs fail. Our results suggest that Tool Augmented Language Models are a promising direction to enrich LMs' capabilities, with less dependence on scale.
研究の動機と目的
- トレーニング時の知識を超える最新の、プライベートな、あるいは状態を変更するデータにアクセスするためのツール拡張の必要性を動機づける。
- 言語モデルから任意のツールを呼び出すテキスト対テキストのインターフェースを提案する。
- 少数のラベルでツール使用デモンストレーションをブートストラップするための反復自己対話を導入する。
- 知識が豊富なQAと数学的推論タスクで TALM を評価し、スケーラビリティと一般化を評価する。
提案手法
- テキスト対テキストのツールインターフェース全体でファインチューニング、推論、評価のために事前学習済み T5 モデル(base, large, XL)を使用する。
- モデルがツール入力と区切り文字(例: |result)を出力してツールを呼び出し、出力をテキスト列に追加するテキスト対テキストのツールインターフェースを実装する。
- ツール使用データをブートストラップし、自己対話中に多様なツールクエリをサンプリングして、ツール拡張性能を段階的に改善する反復自己対話パイプラインを採用する。
- ツール使用を方策勾配に似た学習の特殊ケースとして扱い、自己対話のラウンドから構築されたツール使用データセットでモデルを更新する。
実験結果
リサーチクエスチョン
- RQ1言語モデルは微分不可能なツールをテキスト対テキストインターフェースを介して効果的に拡張できるか。
- RQ2反復自己対話によるブートストラップは、さまざまなモデル規模でツール使用とタスク性能の改善につながるか。
- RQ3ツール拡張LMは、非拡張LMと比較して分布外入力と変化する知識に対して一般化するか。
- RQ4自然問答や数学の文章題のような知識集約的推論タスクに対するツール拡張の影響は何か。
主な発見
- TALM は特定のモデル規模で、知識タスクと数学タスクの双方で非拡張LMを大きく上回る。
- 初回の自己対話ラウンドで substantial gains, その後3回までのラウンドでモデルサイズ 220M から 3B の範囲でさらなる利得。
- 小型の TALM モデルは知識集約タスクでリトリーブ型ツールの恩恵を大きく受け、より大きなモデルとの性能差を縮める。
- TALM は変更される知識へアクセスするツール(例: ウェブ/検索)を用い、素のLMが苦手な大規模数値演算を扱うことで分布外一般化を示す。
- このアプローチは少数のラベル付きツールデモンストレーション(ブートストラップセットは約150のツールデモンストレーション)でブートストラップし、自己対話によって反復的な改善を行う。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。