QUICK REVIEW

[論文レビュー] Toolformer: Language Models Can Teach Themselves to Use Tools

Timo Schick, Jane Dwivedi-Yu|arXiv (Cornell University)|Feb 9, 2023

Topic Modeling被引用数 370

ひとこと要約

Toolformerは、自己教師ありループでAPIを介して外部ツールを呼ぶ時期と方法を決定するよう言語モデルを訓練し、タスク全体で強力なゼロショット成果をもたらしつつ、コアとなる言語モデリング能力を維持します。

ABSTRACT

Language models (LMs) exhibit remarkable abilities to solve new tasks from just a few examples or textual instructions, especially at scale. They also, paradoxically, struggle with basic functionality, such as arithmetic or factual lookup, where much simpler and smaller models excel. In this paper, we show that LMs can teach themselves to use external tools via simple APIs and achieve the best of both worlds. We introduce Toolformer, a model trained to decide which APIs to call, when to call them, what arguments to pass, and how to best incorporate the results into future token prediction. This is done in a self-supervised way, requiring nothing more than a handful of demonstrations for each API. We incorporate a range of tools, including a calculator, a Q\&A system, two different search engines, a translation system, and a calendar. Toolformer achieves substantially improved zero-shot performance across a variety of downstream tasks, often competitive with much larger models, without sacrificing its core language modeling abilities.

研究の動機と目的

言語モデルが自律的に、どの外部ツールをAPI経由で呼ぶべきかをいつ学習するかを学習できるようにする。
人間の注釈を用いずにツール呼び出しをデータに追加することで、ゼロショットおよび少数ショットのタスク性能を向上させる。
ツール使用動作を追加しつつ、モデルの一般的な言語モデリング能力を維持する。
ツール使用が、タスク特化の監督なしで多様なタスクとツールに跨ってスケールできることを示す。

提案手法

各API呼び出しを <API> ... </API> アノテーションを用いてテキスト埋め込みトークン列として表現する。
LMに候補API呼び出しでデータを注釈させ、実行させ、将来のトークン予測利得を測定する自己教師付き損失に基づいてフィルタリングして C* を作成する。
L_i^+ を API 呼び出しと結果を含む場合の損失として計算する；L_i^- は API 呼び出しなし、または入力のみの場合の最小損失とする。
十分な損失低減（τ_f）を達成する API 呼び出しのみを保持し、有用な呼び出しを元のテキストに挿入して C* を形成し、標準的な LM 目的で C* 上で LM をファインチューニングする。
推論時には、モデルが → を出力するまで通常に生成し、API 結果を取得して、API 応答を挿入してデコーディングを続ける。

実験結果

リサーチクエスチョン

RQ1言語モデルは、人間の監督なしに外部ツールをいつ呼ぶべきかを判断することを学べるか。
RQ2どのツール（QA、検索、計算機、翻訳、カレンダー）が、多様なタスク全般で最も一貫した利得をもたらすのか。
RQ3ツール付与データでのファインチューニングは、基盤の言語モデリング能力を低下させるのか、それとも維持するのか。
RQ4ゼロショット設定でツールを活用する能力に対するモデルサイズの影響はどのようなものか。

主な発見

Toolformerは、同程度のサイズのベースラインと比較して、さまざまなタスクでゼロショット性能を大幅に向上させる。
LAMAサブセット（SQuAD、Google-RE、T-REx）では、ToolformerはGPT-Jベースラインを上回り、GPT-3（175B）と競合する。
数学ベンチマーク（ASDiv、SVAMP、MAWPS）では、計算機呼び出しを含む Toolformer がベースラインを大幅に上回り、しばしば大きな差をつけ、ほとんどの例で計算機が使用される。
QAデータセット（WebQuestions、Natural Questions、TriviaQA）では、ToolformerはGPT-Jベースラインを改善し、検索による取得にはWikipedia検索を大いに活用している。
Multilingual QA（MLQA）では、機械翻訳の利用からToolformerの利点が見られるが、言語によって利得は異なる；より大きなモデルは一部の設定でToolformerを上回る。
Temporalデータセット（TempLAMA、Dateset）では、カレンダーツールが有用な場合にToolformerが優れており、Datesetではカレンダーが使用されたときに強い利得を示す。
WikiTextとCCNetのサブセットでのパープレキシティは、推論時に API の使用が無効化されている場合、API 呼び出しを追加してもLMのパープレキシティが上昇せず、コアのLM能力を保持することを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。