QUICK REVIEW

[論文レビュー] Simple and Scalable Nearest Neighbor Machine Translation

Yuhan Dai, Zhirui Zhang|arXiv (Cornell University)|Feb 23, 2023

Natural Language Processing Techniques被引用数 9

ひとこと要約

SK-MT は動的な文レベルの小さなデータストアと距離認識アダプターを構築し、kNN-MT を高速化しストレージを削減しつつ翻訳品質を維持する。

ABSTRACT

$k$NN-MT is a straightforward yet powerful approach for fast domain adaptation, which directly plugs pre-trained neural machine translation (NMT) models with domain-specific token-level $k$-nearest-neighbor ($k$NN) retrieval to achieve domain adaptation without retraining. Despite being conceptually attractive, $k$NN-MT is burdened with massive storage requirements and high computational complexity since it conducts nearest neighbor searches over the entire reference corpus. In this paper, we propose a simple and scalable nearest neighbor machine translation framework to drastically promote the decoding and storage efficiency of $k$NN-based models while maintaining the translation performance. To this end, we dynamically construct an extremely small datastore for each input via sentence-level retrieval to avoid searching the entire datastore in vanilla $k$NN-MT, based on which we further introduce a distance-aware adapter to adaptively incorporate the $k$NN retrieval results into the pre-trained NMT models. Experiments on machine translation in two general settings, static domain adaptation and online learning, demonstrate that our proposed approach not only achieves almost 90% speed as the NMT model without performance degradation, but also significantly reduces the storage requirements of $k$NN-MT.

研究の動機と目的

ニューラル機械翻訳のための完全なモデル再学習を伴わない、迅速で実用的なドメイン適応を動機づける。
全文データストア検索を回避することで、kNN-MT のストレージとデコーディングコストを削減する。
文レベルの検索を活用して、入力ごとに極めて小さく動的なデータストアを構築する。
距離認識アダプターを導入し、kNN の検索と NMT モデルを適応的に統合する。
静的ドメイン適応とオンライン学習のシナリオにおける有効性を示す。

提案手法

訓練コーパス上で BM25 を使用して、入力ごとに上位64対のバイリンガル文を取得する。
取得した文を類似度スコアでランク付けし、上位 m 対の文を保持して入力のための小さなデータストアを形成する。
選択された文対に対して事前学習済み NMT モデルを回すことで、デコード用の (key, value) ペアを得て、入力ごとのデータストアを構築する。
現在の文脈へのユークリッド距離に基づいて取得分布 p_kNN を計算し、補間係数を使って NMT 分布と組み合わせる。
補間係数 lambda を適応的にする。lambda = ReLU(1 - d0 / tau) とし、d0 はトップ1距離、tau は温度パラメータ。
任意で、ハイパーパラメータ (k, m, tau) を学習または調整し、SK-MT のバリアントを比較する（SK-MT1 は m=2, k=1、SK-MT2 は m=16, k=2）。

実験結果

リサーチクエスチョン

RQ1動的に構築された非常に小さな入力ごとのデータストアは、全データストアを使用する場合と比較して kNN-MT の性能を維持または改善できるか。
RQ2距離認識の適応的結合による kNN 検索と NMT モデルの統合は、ドメイン適応とオンライン学習全般で堅牢な性能を生むか。
RQ3現実的なデコード設定下で、従来の kNN-MT および高速バリアントに対する SK-MT の速度向上とストレージ利得はどれくらいか。
RQ4低頻度語やドメイン外語に対する翻訳品質に、文レベル検索はどのような影響を与えるか。

主な発見

SK-MT は基礎 NMT モデルのデコード速度のおよそ90%を達成し、速度とストレージ効率の点で標準的な kNN-MT を上回る。
入力ごとの上位 m 対の文から構築された小さな動的データストアは、 tens of gigabytes から megabytes へと大幅にストレージを削減しつつ性能を維持する。
SK-MT2（m=16、k=2）は AK-MT と同等またはそれ以上の BLEU/ChrF スコアを達成し、IT、Medical、Koran、Law のマルチドメインデータセットにおいて FK-MT、EK-MT、CK-MT のベースラインを上回る。
適応的な lambda 戦略は、距離が大きい場合にノイズの多い kNN の寄与を抑制し、近傍が有効な場合には kNN を活用することで翻訳品質を向上させる。
人間のフィードバックを含むオンライン学習シナリオで、SK-MT のバリアントは kNN-MT を上回り KoK と競合し、新しい訂正への適応がより速いことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。