Skip to main content
QUICK REVIEW

[论文解读] Exploiting Neural Query Translation into Cross Lingual Information Retrieval

Yao Liang, Baosong Yang|arXiv (Cornell University)|Oct 26, 2020
Natural Language Processing Techniques参考文献 45被引用 28
一句话总结

本文提出了一种新颖的方法,通过利用用户点击日志进行领域内数据增强,并设计一种异步系统架构,将统计机器翻译(SMT)的低延迟与神经机器翻译(NMT)的翻译质量相结合,将神经机器翻译(NMT)集成到跨语言信息检索(CLIR)中。该方法在真实世界电商搜索中显著提升了检索性能,优于SMT和当前最先进基线模型。

ABSTRACT

As a crucial role in cross-language information retrieval (CLIR), query translation has three main challenges: 1) the adequacy of translation; 2) the lack of in-domain parallel training data; and 3) the requisite of low latency. To this end, existing CLIR systems mainly exploit statistical-based machine translation (SMT) rather than the advanced neural machine translation (NMT), limiting the further improvements on both translation and retrieval quality. In this paper, we investigate how to exploit neural query translation model into CLIR system. Specifically, we propose a novel data augmentation method that extracts query translation pairs according to user clickthrough data, thus to alleviate the problem of domain-adaptation in NMT. Then, we introduce an asynchronous strategy which is able to leverage the advantages of the real-time in SMT and the veracity in NMT. Experimental results reveal that the proposed approach yields better retrieval quality than strong baselines and can be well applied into a real-world CLIR system, i.e. Aliexpress e-Commerce search engine. Readers can examine and test their cases on our website: https://aliexpress.com .

研究动机与目标

  • 解决传统SMT在CLIR中的局限性,特别是短查询翻译不足以及缺乏领域内训练数据的问题。
  • 探索在计算成本较高的情况下,将NMT部署于实时、低延迟CLIR系统中的可行性和有效性。
  • 开发一种可扩展、数据高效的高阶方法,从隐式用户反馈中获取高质量的领域内双语查询对。
  • 设计一种混合系统架构,通过异步缓存机制,利用SMT实现实时响应,同时借助NMT实现更优的翻译质量。

提出的方法

  • 提出一种数据增强技术,从用户点击日志中挖掘高质量的双语查询对,其中成功的点击表明翻译的可靠性。
  • 利用挖掘出的点击日志数据联合微调NMT模型,提升其领域适应能力,并增强对罕见或歧义术语的覆盖能力。
  • 设计一种异步查询翻译架构:SMT提供即时响应,而NMT异步更新共享的翻译缓存。
  • 采用缓存机制存储NMT翻译结果,减少冗余计算,并实现对频繁访问查询的低延迟推理。
  • 将NMT模型集成到真实世界电商搜索系统(AliExpress)中,实现在生产环境下的端到端评估。

实验结果

研究问题

  • RQ1尽管对短查询的流畅性和充分性存在担忧,NMT是否能在CLIR的查询翻译中优于SMT?
  • RQ2用户点击日志能否有效用于挖掘高质量、领域相关的双语查询对,以用于NMT训练?
  • RQ3在实时生产系统中,异步架构能否在SMT的低延迟与NMT的高精度之间实现平衡?
  • RQ4从点击日志中进行数据增强,在低资源、特定领域查询翻译任务中,能在多大程度上提升NMT性能?

主要发现

  • 在CLEF 2018多语言任务4中,NMT在检索质量上优于SMT,证明其在处理词义消歧和罕见词汇方面具有优势。
  • 基于点击日志的数据挖掘方法显著提升了训练数据中的词汇覆盖率,增强了NMT对未登录词和领域特定术语的鲁棒性。
  • 所提出的异步架构实现了与SMT相当的平均延迟(约10ms),使NMT在实时部署中具备可行性。
  • 与挖掘数据联合训练后,NMT性能得到提升,且在CLEF基准测试中优于当前最先进系统CUNI。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。