QUICK REVIEW

[論文レビュー] Constraint Translation Candidates: A Bridge between Neural Query Translation and Cross-lingual Information Retrieval

Tianchi Bi, Yao Liang|arXiv (Cornell University)|Oct 26, 2020

Natural Language Processing Techniques参考文献 27被引用数 29

ひとこと要約

本論文では、検索インデックスのクリックストラックデータから抽出した高インパクト語を用いてNMT出力を制限する制約ベースのニューラルクエリ翻訳手法を提案する。トレーニングおよび推論の両段階でこれらの制約翻訳候補を統合することで、翻訳品質を損なわずにリtrieval最適化された翻訳を生成し、AliExpressの電子商取引検索エンジンにおいて優れたリtrieval精度を達成する。

ABSTRACT

Query translation (QT) is a key component in cross-lingual information retrieval system (CLIR). With the help of deep learning, neural machine translation (NMT) has shown promising results on various tasks. However, NMT is generally trained with large-scale out-of-domain data rather than in-domain query translation pairs. Besides, the translation model lacks a mechanism at the inference time to guarantee the generated words to match the search index. The two shortages of QT result in readable texts for human but inadequate candidates for the downstream retrieval task. In this paper, we propose a novel approach to alleviate these problems by limiting the open target vocabulary search space of QT to a set of important words mined from search index database. The constraint translation candidates are employed at both of training and inference time, thus guiding the translation model to learn and generate well performing target queries. The proposed methods are exploited and examined in a real-word CLIR system--Aliexpress e-Commerce search engine. Experimental results demonstrate that our approach yields better performance on both translation quality and retrieval accuracy than the strong NMT baseline.

研究の動機と目的

クロスリンガル情報検索（CLIR）における高品質なニューラルクエリ翻訳と下流のリtrieval性能の不一致を是正すること。
ドメイン外データで訓練されたNMTモデルがドメイン内クエリペアではなくドメイン外データで学習することで生じる語彙およびスタイルの不一致を軽減すること。
生成された翻訳に検索インデックスに頻出する可能性の高い語が含まれることを保証し、リtrievalの関連性を向上させること。
ユーザーのクリックストラックデータから導出された制約翻訳候補を用いて、トレーニングおよび推論の両段階でNMTモデルをガイドすること。
翻訳出力をターゲット検索インデックスの語彙と一致させるようにすることで、ニューラルクエリ翻訳と情報検索を統合すること。

提案手法

大規模なクロスリンガルクリックストラックデータから制約翻訳候補を抽出し、ターゲット言語における高頻度でリtrieval関連の語を同定する。
抽出された候補を損失推定時のスムージングラベルとして用い、NMTモデルが検索インデックスの語分布を学習するように誘導する。
推論時に重み付きソフトマックスを適用し、出力トークンを制約翻訳候補に限定することで、生成クエリがリtrievalに配慮したものになるようにする。
シーケンス・ツー・シーケンス翻訳のためのアテンションメカニズムを活用するため、モデルをTransformerアーキテクチャに基づいて構築する。
トレーニングおよび推論段階の両方で制約候補を統合し、NMT出力を下流のリtrieval目的と一致させる。
実世界の電子商取引クリックデータを活用し、低コストでスケーラブルかつドメイン特化された制約候補を生成する。

実験結果

リサーチクエスチョン

RQ1検索インデックス関連語に限定したNMT出力語彙の制限が、クロスリンガル情報検索におけるリtrieval性能の向上に寄与するか。
RQ2ドメイン内、検索インデックス由来の制約候補をトレーニング段階で使用することで、翻訳クエリとリtrievalインデックス語との整合性が向上するか。
RQ3推論段階での制約候補統合が、リtrievalタスクにおける生成翻訳の関連性にどのように影響するか。
RQ4このアプローチは、強力なNMTベースラインと比較して、どの程度リtrieval精度を向上させつつ翻訳品質を維持できるか。
RQ5制約ベースの翻訳が、実世界の電子商取引検索システムにおいて、標準NMTおよび他のリtrieval最適化手法を上回るか。

主な発見

提案手法は強力なNMTベースラインと比較して顕著にリtrieval精度を向上させ、下流のCLIRタスクで優れたパフォーマンスを示した。
質的分析により、'meizu'のようなレア語やドメイン固有語の正しく処理されていることから、翻訳品質が維持またはわずかに向上したことが裏付けられた。
一般ドメインの訓練データに頻度が低いトークンが含まれるため、ベースラインで見られるような語彙外または誤った翻訳（例：'meizu'の翻訳として'maize'）を正しく回避した。
ユーザーのクリックストラックデータから抽出した制約候補は、リtrieval関連語彙を効果的に捉えており、インデックスに適合するクエリを生成するのに有効である。
トレーニングおよび推論段階の両方で制約候補を統合することで、電子商取引検索に特化したより安定的で関連性の高い翻訳出力が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。