[論文レビュー] Explaining Question Answering Models through Text Generation
この論文は、生成器–分類器QAモデルを提案する。言語モデルベースの生成器がテキストの仮説を出力し、それを分類器が回答を選択するために用いる。LM が用いる知識の解釈可能性を損なうことなく競争力のある性能を維持する。
Large pre-trained language models (LMs) have been shown to perform surprisingly well when fine-tuned on tasks that require commonsense and world knowledge. However, in end-to-end architectures, it is difficult to explain what is the knowledge in the LM that allows it to make a correct prediction. In this work, we propose a model for multi-choice question answering, where a LM-based generator generates a textual hypothesis that is later used by a classifier to answer the question. The hypothesis provides a window into the information used by the fine-tuned LM that can be inspected by humans. A key challenge in this setup is how to constrain the model to generate hypotheses that are meaningful to humans. We tackle this by (a) joint training with a simple similarity classifier that encourages meaningful hypotheses, and (b) by adding loss functions that encourage natural text without repetitions. We show on several tasks that our model reaches performance that is comparable to end-to-end architectures, while producing hypotheses that elucidate the knowledge used by the LM for answering the question.
研究の動機と目的
- 説明可能な LM ベースのモデルを用いたマルチチョイス QA の調査、回答に用いられる知識を明らかにする。
- 質問を条件として人間が解釈できるテキスト仮説を出力する生成器を開発する。
- 生成された仮説に依存する分類器を訓練し、仮説を意味のある自然なものとして制約する。
提案手法
- 事前学習済みの自己回帰LM(GPT-2 または XLNet)を生成器として用い、質問からテキスト仮説を生成する。
- 質問、仮説、選択肢を用いて正解を予測する分類器と生成器を結合する。
- 離散生成の微分不可性を、エンドツーエンド訓練のために straight-through Gumbel-Softmax で対処する。
- 意味のある仮説を促進するため、下流モデルが用いる必要のある意味的な仮説を促す類似度分類器(語彙埋め込みベース)を組み込む。
- 仮説が意思決定に情報を提供するよう、類似度分類器と組み合わせてより強力なLMベースの分類器を共同訓練する。
- KLダイバージェンス正則化、反復ペナルティ、Top-K デコードなどの追加の説明可能性メカニズムを適用して、仮説の質と多様性を向上させる。
実験結果
リサーチクエスチョン
- RQ1言語モデルにエンコードされたどの知識が、QAタスクで実際に質問に答える際に使用されているのか?
- RQ2LM の内部知識を反映しつつ、人間が解釈可能なテキスト仮説を生成して、競争力のある QA 性能を達成できるか?
- RQ3訓練目的とデコード戦略が、生成された仮説の有用性と解釈性にどのように影響するか?
- RQ4共同訓練と補助損失が、分類器が生成された仮説を無視するのを防ぐか?
- RQ5このアプローチは他のQA領域やゼロショット転送に一般化できるか?
主な発見
| モデル | 精度 | % 再現 |
|---|---|---|
| |c|=1 | 53.3 | - |
| |c|=3 | 54.0 | 63 |
| |c|=3$+$KLD | 51.3 | 42 |
| |c|=3$+$KLD$+$REP | 49.0 | 19 |
| |c|=5 | 52.8 | 78 |
| |c|=5$+$KLD | 52.2 | 68 |
| |c|=5$+$KLD$+$REP | 50.7 | 14 |
| Top-$K=3$ ST | 58.0 | - |
| Top-$K=5$ ST | 56.2 | - |
| SupGen $|c|=3$ | 50.8 | 0.9 |
| Comparable End2End | 63.7 | - |
- 提案された生成器–分類器のセットアップは CSQA でエンドツーエンドモデルと同等の QA 性能を達成し、ゼロショット設定で QASC への転移能力を示す。
- 生成された仮説は LM の知識への窓を提供し、欠落知識、意味的誤り、仮説が予測にどう影響するかを明らかにできる。
- 単純な類似度分類器は意味のある仮説を促進し、LMベースの分類器が仮説を用いて予測することを助ける。
- LMベースの分類器との共同訓練は仮説への依存を維持する一方、類似度分類器のみに依存すると仮説を無視する予測につながることがある。
- Top-K ST デコードは、弱監視生成器の中でしばしば最も高い QA 精度をもたらし、多様で人間が解釈できる仮説を提供する。一方、過度な目的上の圧力は精度を下げるが自然さを向上させる。
- 人間評価はトレードオフを示す。QA に最適化された仮説は「自然さ」が低くなりがちで、より自然な仮説は精度をわずかに下げる可能性があるが解釈可能性を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。