QUICK REVIEW

[論文レビュー] A Memory Efficient Baseline for Open Domain Question Answering

Gautier Izacard, Fabio Petroni|arXiv (Cornell University)|Dec 30, 2020

Topic Modeling参考文献 22被引用数 29

ひとこと要約

本稿では、次元削減、ベクトル量子化、およびパassageフィルタリングを組み合わせることで、メモリ効率の良いオープンドメイン質問応答のベースラインを提案する。この手法により、6GB未満のメモリを用いてNaturalQuestionsで53.6%のEM、TriviaQAで71.3%のEMを達成し、高い精度が顕著に小さいインデックスサイズで実現可能であることを示している。

ABSTRACT

Recently, retrieval systems based on dense representations have led to important improvements in open-domain question answering, and related tasks. While very effective, this approach is also memory intensive, as the dense vectors for the whole knowledge source need to be kept in memory. In this paper, we study how the memory footprint of dense retriever-reader systems can be reduced. We consider three strategies to reduce the index size: dimension reduction, vector quantization and passage filtering. We evaluate our approach on two question answering benchmarks: TriviaQA and NaturalQuestions, showing that it is possible to get competitive systems using less than 6Gb of memory.

研究の動機と目的

オープンドメイン質問応答のためのドレッドリトリーバー・リーダーシステムのメモリ容量を著しく削減し、性能の著しい低下を防ぐ。
次元削減、ベクトル量子化、およびパassageフィルタリングがドレッドリトリーブインデックスの圧縮戦略としてどれほど有効であるかを調査する。
6GB未満のメモリで競争力のある性能を達成できることを示し、リソース制約のあるハードウェアへのデプロイを可能にする。
複数の圧縮技術の相乗効果を、標準ベンチマークであるTriviaQAおよびNaturalQuestions上で評価する。

提案手法

質問およびWikipediaのパassageをd次元ベクトルに埋め込むために、BERT-baseに基づくドレッドリトリーバーを用いる。
8ビットのサブベクトルを用いたプロダクト量子化を適用し、ベクトルの離散化によってインデックスのメモリ使用量を削減する。
埋め込み次元を256から128に削減することで、次元削減を実施し、インデックスサイズと計算コストを低減する。
タイトルおよびカテゴリ特徴を用いた自己学習線形分類器を実装し、低有用なWikipediaアーティクルをフィルタリングする。
推論時における効率的な最大内積検索を実現するため、Faissを用いる。これにより、圧縮されたインデックスからの高速な検索が可能になる。
1つの質問に対して最大100個のパassageを取得するように、T5-baseから初期化されたFusion-in-Decoderアーキテクチャを用いてリーダーモデルを学習する。

実験結果

リサーチクエスチョン

RQ1次元削減とベクトル量子化をどの程度組み合わせることで、性能の低下を最小限に抑えつつインデックスサイズを削減できるか？
RQ2パassageフィルタリングは、検索品質を維持しつつ、低有用なWikipediaアーティクルをどれほど効果的に削除できるか？
RQ3圧縮されたシステムは、TriviaQAやNaturalQuestionsといった標準ベンチマークで競争力のある性能を達成できるか？
RQ4複数の圧縮技術を適用した際の、インデックスサイズとエンドツーエンドQA性能のトレードオフはいかなるものか？

主な発見

次元削減（128Dに）とプロダクト量子化（64個のサブベクトル、1サブベクトルあたり8ビット）を組み合わせることで、インデックスサイズを1.67GBにまで削減し、NaturalQuestionsではEMが0.2%低下、TriviaQAでは1.1%低下にとどめた。
パassageフィルタリングにより、Wikipediaアーティクルの顕著な削減が可能となり、インデックスサイズは2600万パassageから1000万パassageにまで削減されたが、依然として高い性能を維持した。
2.1GBのインデックスを有する圧縮システムは、NaturalQuestionsで44.0%のEM、TriviaQAで56.8%のEMを達成し、トップラインベースラインと比べてはるかに小さいにもかかわらず、競争力のある性能を示した。
5.1GBの圧縮システムは、NaturalQuestionsで53.6%のEM、TriviaQAで71.3%のEMを達成し、トップラインモデルの54.7%および73.3%に非常に近い性能を示した。
次元削減、量子化、およびフィルタリングの3つの技術の組み合わせは、相乗効果を示し、顕著なメモリ節約が可能であり、精度の低下も最小限に抑えられた。
最終的な圧縮モデルは6GB未満のメモリ使用量に抑えられ、大規模なGPUメモリを必要とせず、標準的なハードウェアでも高性能なオープンドメインQAシステムのデプロイが可能であることを実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。