[論文レビュー] How Context Affects Language Models' Factual Predictions
この論文は、事前学習済み言語モデル(BERT/RoBERTa)をテスト時に retrieved contexts を用いて完全に教師なし設定で強化することで、事実的 clo ze-style QAを著しく改善し、監督付きベースラインに匹敵すること、またBERTのNext Sentence Predictionが文脈のノイズをフィルタリングするのに役立つことを示している。
When pre-trained on large unsupervised textual corpora, language models are able to store and retrieve factual knowledge to some extent, making it possible to use them directly for zero-shot cloze-style question answering. However, storing factual knowledge in a fixed number of weights of a language model clearly has limitations. Previous approaches have successfully provided access to information outside the model weights using supervised architectures that combine an information retrieval system with a machine reading component. In this paper, we go a step further and integrate information from a retrieval system with a pre-trained language model in a purely unsupervised way. We report that augmenting pre-trained language models in this way dramatically improves performance and that the resulting system, despite being unsupervised, is competitive with a supervised machine reading baseline. Furthermore, processing query and context with different segment tokens allows BERT to utilize its Next Sentence Prediction pre-trained classifier to determine whether the context is relevant or not, substantially improving BERT's zero-shot cloze-style question-answering performance and making its predictions robust to noisy contexts.
研究の動機と目的
- テスト時に文脈を取得することが、教師なしで事前学習済み言語モデルの事実知識を解き放つことができることを実証する。
- 文脈タイプ(oracle、retrieved、generated、adversarial)がLAMAベースのcloze QA性能に与える影響を定量化する。
- BERT/RoBERTaのノイズのある文脈への頑健性と文脈関連性のフィルタリングにおけるNSPの役割を評価する。
- unsupervised retrieval-augmented LMの性能を supervised open-domain QAベースライン(DrQA)と比較する。
提案手法
- BERT-largeとRoBERTa-largeをLAMA relational probesのclozeスタイルの質問で評価する。
- clozeプロンプトを異なる文脈タイプで拡張する:oracle(Wikipediaからのスニペット)、retrieved(DrQA風TF-IDF段落)、generated(オートレグレッシブLM文脈)、adversarial(無関係な文脈)。
- 質問と文脈をモデル固有のセグメントトークン(BERT)または適用可能な場合はeos/セパレータで分離する。
- Google-RE、T-REx、SQuAD由来のサブセット全体で単語1つの回答に対するP@1を測定する。
- NSP分類器の活性化と文脈有用性の入力分割の重要性を分析する。
- DrQAを監督付きopen-domain QAベースラインとして比較し、教師なしQAの含意を議論する。
実験結果
リサーチクエスチョン
- RQ1教師なしのretrieval-augmented言語モデルは事実知識タスクで監督付きQAの性能に到達できるか。
- RQ2文脈のタイプ(oracle、retrieved、generated、adversarial)はLMベースのcloze QAの正確性にどのように影響するか。
- RQ3BERTのNSP目的と入力分割は文脈を活用する上でどのような役割を果たすか。
- RQ4取得した文脈からの改善は関係とデータセットを跨いでロバストか。
主な発見
- 文脈で強化されたプロンプトはLMの事実QAを大幅に向上させる:B-ora(oracle)は文脈なし入力に対する大幅な利益を生み、B-ret(retrieved)は多くの場合監督付きベースラインに匹敵または上回る。
- BERTは retrieved 文脈と共に Google-RE および SQuAD で DrQA と競合し、文脈なしベースラインよりも关系ごとに大きな差で上回る。
- Adversarial文脈は、2セグメント入力を使用した場合にBERTが頑健であることを示唆し、NSPが関連性の低い文脈をフィルタするのに役立つ;連結は性能を大幅に劣化させる。
- Generated contextsは一部の関係で役立つことがあるが、retrievedやoracle文脈ほど効果的でなく、ノイズがあると誤導することがある。
- BERTのNSPベースの関連性シグナルは文脈への頑健な条件付けを可能にし、教師付き微調整なしでの精度向上に寄与する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。