[論文レビュー] GPT3-to-plan: Extracting plans from text using GPT-3
この論文は、GPT-3を用いて自然言語テキストから構造化されたアクションシーケンスを抽出することを検討し、3つのデータセットに対してタスク固有の計画抽出手法との性能を比較している。
Operations in many essential industries including finance and banking are often characterized by the need to perform repetitive sequential tasks. Despite their criticality to the business, workflows are rarely fully automated or even formally specified, though there may exist a number of natural language documents describing these procedures for the employees of the company. Plan extraction methods provide us with the possibility of extracting structure plans from such natural language descriptions of the plans/workflows, which could then be leveraged by an automated system. In this paper, we investigate the utility of generalized language models in performing such extractions directly from such texts. Such models have already been shown to be quite effective in multiple translation tasks, and our initial results seem to point to their effectiveness also in the context of plan extractions. Particularly, we show that GPT-3 is able to generate plan extraction results that are comparable to many of the current state of the art plan extraction methods.
研究の動機と目的
- 一般目的の言語モデル(GPT-3)が自然言語テキストから計画のようなアクションシーケンスを抽出できるか。
- GPT-3の性能を標準データセット上でタスク固有の計画抽出手法と比較する。
- GPT-3のfew-shot学習能力がアクション名と引数の抽出にどう影響するかを評価する。
- テキストから計画の順序を推測するGPT-3の能力を検討し、計画アプリケーションへの実務的影響について論じる。
提案手法
- GPT-3(4つのエンジン:Davinci、Curie、Babbage、Ada)を用いてfew-shotのサンプルで自然言語の説明を構造化された計画表現へマッピングする。
- 機能的な計画表記でラベル付けされた自然言語テキストとして訓練例を提供する; テストテキストは特定のタグの後に予想される計画出力とともに続く。
- 正確さ、再現率、F1を、基本的/排他的/任意のアクションタイプ付けに従うグラウンドトゥルース注釈と比較して評価する。
- GPT-3の出力を、三つのデータセット(WHS、WHG、CT)で最先端のタスク特化モデル(EAD、BLCC、STFC、EASDRL、cEASDRL)と比較する。
- F1スコアに対するfew-shot学習効果を評価するため、1〜4ショット promptingを実験する。
実験結果
リサーチクエスチョン
- RQ1Proceduresの自然言語記述から構造化されたアクションシーケンスをGPT-3が抽出できるか。
- RQ2GPT-3は標準データセットで最先端のタスク固有の計画抽出手法と比較してどうか。
- RQ3GPT-3のような一般的な言語モデルはテキストから計画のアクションの順序を捉えるか。
- RQ4few-shot promptingがGPT-3の計画抽出性能に与える影響は何か。
- RQ5GPT-3の引数抽出とより多様な計画記述には限界があるか。
主な発見
| Model | WHS (Action names) | CT (Action names) | WHG (Action names) | WHS (Action arguments) | CT (Action arguments) | WHG (Action arguments) |
|---|---|---|---|---|---|---|
| EAD | 86.25 | 64.74 | 53.49 | 57.71 | 51.77 | 37.70 |
| CMLP | 83.15 | 83.00 | 67.36 | 47.29 | 34.14 | 32.54 |
| BLCC | 90.16 | 80.50 | 69.46 | 93.30 | 76.33 | 70.32 |
| STFC | 62.66 | 67.39 | 62.75 | 38.79 | 43.31 | 42.75 |
| EASDRL | 93.46 | 84.18 | 75.40 | 95.07 | 74.80 | 75.02 |
| cEASDRL | 97.32 | 89.18 | 82.59 | 92.78 | 75.81 | 76.99 |
| GPT-3 Davinci | 86.32 | 58.14 | 43.36 | 22.90 | 29.63 | 22.25 |
| GPT-3 Curie | 75.80 | 35.57 | 22.41 | 31.75 | 22.16 | 13.79 |
| GPT-3 Babbage | 62.59 | 20.62 | 14.95 | 22.91 | 12.59 | 7.33 |
| GPT-3 Ada | 60.68 | 14.68 | 8.90 | 17.91 | 4.13 | 2.27 |
- GPT-3は特にDavinciエンジンが、アクション名の抽出において最先端のタスク固有の抽出器と競合するF1スコアを達成する。
- DavinciはWHS、WHG、CTデータセット全体でアクション名抽出において複数のタスク固有モデルよりも優れている。
- GPT-3は引数抽出で専門手法と比べて性能は低いが、ランダムベースラインを上回っている。
- モデルはテキストから計画の順序を推測するある程度の能力を示す。これは従来の手法が固定文の順序を前提とする領域での強みである。
- few-shotの例を増やすと、特に大きいエンジンで性能が向上する傾向があり、DavinciはWHSで80%超のF1を達成。
- 最良とされる設定では、DavinciはWHSで86.32、CTで58.14、WHGで43.36のアクション名F1、22.90(WHS)、29.63(CT)、22.25(WHG)のアクション引数F1を達成。
- Curieや小型エンジンは収益が限られ、Davinciの性能に近づくにはより多くの例が必要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。