Skip to main content
QUICK REVIEW

[論文レビュー] General-Purpose Question-Answering with Macaw

Oyvind Tafjord, Peter E. Clark|arXiv (Cornell University)|Sep 6, 2021
Topic Modeling参考文献 17被引用数 32
ひとこと要約

Macawは、多角的な入力/出力機能と説明を備えた、汎用的でゼロショットのT5ベースQAシステムです。Challenge300およびARCで強力なゼロショット性能を示し、コミュニティ利用のために公開されています。

ABSTRACT

Despite the successes of pretrained language models, there are still few high-quality, general-purpose QA systems that are freely available. In response, we present Macaw, a versatile, generative question-answering (QA) system that we are making available to the community. Macaw is built on UnifiedQA, itself built on T5, and exhibits strong performance, zero-shot, on a wide variety of topics, including outperforming GPT-3 by over 10% (absolute) on Challenge300, a suite of 300 challenge questions, despite being an order of magnitude smaller (11 billion vs. 175 billion parameters). In addition, Macaw allows different permutations ("angles") of its inputs and outputs to be used, for example Macaw can take a question and produce an answer; or take an answer and produce a question; or take an answer and question, and produce multiple-choice options. We describe the system, and illustrate a variety of question types where it produces surprisingly good answers, well outside the training setup. We also identify question classes where it still appears to struggle, offering insights into the limitations of pretrained language models. Macaw is freely available, and we hope that it proves useful to the community. Macaw is available at https://github.com/allenai/macaw

研究の動機と目的

  • 自由に利用できる高品質な汎用QAシステムのニーズに対応する。
  • ,
  • ],
  • 目的?
  • ノート

提案手法

  • 複数のQAデータセット上でUnifiedQAの多角版を訓練し、柔軟な入力/出力角度を作成する。
  • 角度の入力/出力ペアを、シンプルなテキスト形式のslot/value文字列としてエンコードする。
  • モデルを複数のサイズ(11B、3B、large)で訓練し、主に最初の角度で評価する。
  • WorldTreeから取得した文脈と説明を追加してARCおよびARC-DA上でMacawをファインチューニングする。
  • 決定論的出力のために貪欲デコード(オプションのビーム探索付き)を使用し、オープンエンドなスロットにはサンプリングを使用する。
  • 回答、質問、選択肢(MC)、説明を含む複数の出力形式を提供する。

実験結果

リサーチクエスチョン

  • RQ1Macawは大規模言語モデルと比較して、多様なQAタスクに対してゼロショットでどの程度の性能を発揮しますか?
  • RQ2多角訓練がQA性能と汎用性に与える影響はどの程度ですか?
  • RQ3新しいドメインへの一般化を最大化するデータセットと角度は何ですか?
  • RQ4説明と入力/出力の置換が精度と信頼性にどう影響しますか?

主な発見

  • MacawはChallenge300で強力なゼロショット性能を達成し、GPT-3を絶対精度で10ポイント以上上回りつつ、サイズははるかに小さい(11B対175B)です。
  • Macawは複数の入力/出力角度をサポートしており、さまざまな入力から質問の生成、説明、MC選択肢の生成などのタスクを可能にします。
  • 入力角度に説明を含めるとARCでの回答精度が向上し、データセットに説明が含まれている場合により大きな改善が得られます。
  • 多角UnifiedQAは単一角モデルと競争力のある性能を維持しつつ、BoolQ、NarrativeQA、SQuAD 2.0、ARC、MCTest、OBQA、RACEなどのデータセットに対してより広い能力を可能にします。
  • MacawのARC結果は強力な性能を示しており、より大きなモデルほど精度が高く、説明を用いてスコアを向上させる能力があります。
  • Challenge300の結果は、Macawが他の手法よりも不整合な回答が少なく優れていることを示しており、難易度の高い質問に対するロバスト性を強調しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。