QUICK REVIEW

[论文解读] Constraint Translation Candidates: A Bridge between Neural Query Translation and Cross-lingual Information Retrieval

Tianchi Bi, Yao Liang|arXiv (Cornell University)|Oct 26, 2020

Natural Language Processing Techniques参考文献 27被引用 29

一句话总结

本文提出了一种基于约束的神经查询翻译方法，通过将神经机器翻译（NMT）输出限制在从搜索索引点击数据中挖掘出的高影响力术语集合中，从而提升跨语言信息检索（CLIR）的性能。通过在训练和推理阶段均集成这些约束翻译候选，模型生成的翻译更具检索优化性，在不牺牲阿里速卖通电商平台翻译质量的前提下，显著提升了检索准确率。

ABSTRACT

Query translation (QT) is a key component in cross-lingual information retrieval system (CLIR). With the help of deep learning, neural machine translation (NMT) has shown promising results on various tasks. However, NMT is generally trained with large-scale out-of-domain data rather than in-domain query translation pairs. Besides, the translation model lacks a mechanism at the inference time to guarantee the generated words to match the search index. The two shortages of QT result in readable texts for human but inadequate candidates for the downstream retrieval task. In this paper, we propose a novel approach to alleviate these problems by limiting the open target vocabulary search space of QT to a set of important words mined from search index database. The constraint translation candidates are employed at both of training and inference time, thus guiding the translation model to learn and generate well performing target queries. The proposed methods are exploited and examined in a real-word CLIR system--Aliexpress e-Commerce search engine. Experimental results demonstrate that our approach yields better performance on both translation quality and retrieval accuracy than the strong NMT baseline.

研究动机与目标

解决高质量神经查询翻译与下游检索性能在跨语言信息检索（CLIR）中的不匹配问题。
缓解在域外数据上训练NMT模型而非在域内查询对上训练所导致的词汇和风格不匹配问题。
确保生成的翻译包含可能出现在搜索索引中的术语，从而提升检索相关性。
利用从用户点击数据中提取的约束翻译候选，在训练和推理阶段引导NMT模型。
通过对齐翻译输出与目标搜索索引词汇，弥合神经查询翻译与信息检索之间的鸿沟。

提出的方法

从大规模跨语言点击数据中挖掘约束翻译候选，识别目标语言中高频且与检索相关的术语。
在损失估计过程中将挖掘出的候选作为平滑标签，引导NMT模型学习搜索索引中术语的分布。
在推理阶段应用加权Softmax，将输出词元限制在仅约束翻译候选范围内，确保生成的查询具备检索感知能力。
基于Transformer架构构建模型，利用注意力机制实现序列到序列的翻译。
在训练和推理阶段同时集成约束候选，使NMT输出与下游检索目标对齐。
利用真实电商点击数据生成低成本、可扩展且领域特定的约束候选。

实验结果

研究问题

RQ1将NMT输出词表限制在索引相关术语是否能提升跨语言信息检索中的检索性能？
RQ2在训练过程中使用源自域内搜索索引的约束候选是否能增强翻译查询与检索索引术语之间的对齐？
RQ3在推理阶段集成约束候选如何影响生成翻译对于检索任务的相关性？
RQ4与强基线NMT模型相比，该方法在保持翻译质量的前提下，能在多大程度上提升检索准确率？
RQ5在真实电商搜索系统中，基于约束的翻译是否能超越标准NMT及其他检索优化方法？

主要发现

所提方法相较于强基线NMT模型显著提升了检索准确率，证明其在下游CLIR任务中表现更优。
翻译质量得以保持甚至略有提升，定性分析显示模型能正确处理罕见或领域特定术语（如'mezu'）。
模型正确避免了生成词汇表外或错误翻译（如将'mezu'误译为'maize'）的问题，而这些问题在基线模型中因通用领域训练数据中低频词而出现。
从用户点击数据中挖掘出的约束候选能有效捕捉与检索相关的词汇，使模型生成更具索引兼容性的查询。
在训练和推理阶段同时集成约束候选，可生成更稳定、更相关且专为电商搜索优化的翻译输出。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。