Skip to main content
QUICK REVIEW

[논문 리뷰] Constraint Translation Candidates: A Bridge between Neural Query Translation and Cross-lingual Information Retrieval

Tianchi Bi, Yao Liang|arXiv (Cornell University)|2020. 10. 26.
Natural Language Processing Techniques참고 문헌 27인용 수 29
한 줄 요약

이 논문은 검색 인덱스 클릭트로우 데이터에서 추출한 고영향도 용어 집합으로 NMT 출력을 제한함으로써, 크로스링구얼 인포메이션 리트리ieval(CLIR) 성능을 향상시키는 제약 기반 신경 쿼리 번역 방법을 제안한다. 훈련 및 추론 과정에서 이러한 제약 번역 후보를 통합함으로써, 더 나은 검색 최적화 번역을 생성하며, 알리익스프레스 전자상거래 검색 엔진에서 번역 품질을 희생시키지 않고도 우수한 검색 정확도를 달성한다.

ABSTRACT

Query translation (QT) is a key component in cross-lingual information retrieval system (CLIR). With the help of deep learning, neural machine translation (NMT) has shown promising results on various tasks. However, NMT is generally trained with large-scale out-of-domain data rather than in-domain query translation pairs. Besides, the translation model lacks a mechanism at the inference time to guarantee the generated words to match the search index. The two shortages of QT result in readable texts for human but inadequate candidates for the downstream retrieval task. In this paper, we propose a novel approach to alleviate these problems by limiting the open target vocabulary search space of QT to a set of important words mined from search index database. The constraint translation candidates are employed at both of training and inference time, thus guiding the translation model to learn and generate well performing target queries. The proposed methods are exploited and examined in a real-word CLIR system--Aliexpress e-Commerce search engine. Experimental results demonstrate that our approach yields better performance on both translation quality and retrieval accuracy than the strong NMT baseline.

연구 동기 및 목표

  • 크로스링구얼 인포메이션 리트리ieval(CLIR)에서 고품질 신경 쿼리 번역과 최종 검색 성능 사이의 괴리 문제를 해결하기 위해.
  • 도메인 외 데이터로 훈련된 NMT 모델이 도메인 내 쿼리 쌍이 아닌 데이터를 사용할 경우 발생하는 어휘 및 스타일 괴리 문제를 완화하기 위해.
  • 생성된 번역문에 검색 인덱스에 자주 등장할 가능성이 높은 용어가 포함되도록 보장하여, 검색 관련성 향상.
  • 사용자 클릭트로우 데이터에서 유도된 제약 번역 후보를 사용하여 훈련 및 추론 과정에서 NMT 모델을 안내하기 위해.
  • 번역 출력을 대상 검색 인덱스 어휘와 일치시킴으로써 신경 쿼리 번역과 정보 검색을 연결하기 위해.

제안 방법

  • 대규모 크로스링구얼 클릭트로우 데이터에서 제약 번역 후보를 추출하여 대상 언어에서 고빈도이고 검색에 관련성이 높은 용어를 식별하기 위해.
  • 손실 추정 과정에서 추출된 후보를 보정된 레이블로 사용하여 NMT 모델이 검색 인덱스 내 용어 분포를 학습하도록 이끌기 위해.
  • 추론 시 가중치가 부여된 소프트맥스를 적용하여 출력 토큰을 제약 번역 후보로만 제한함으로써, 생성된 쿼리가 검색 인식형이 되도록 보장하기 위해.
  • 시퀀스-투-시퀀스 번역을 위해 어텐션 메커니즘을 활용할 수 있도록 트랜스포머 아키텍처를 기반으로 모델을 구축하기 위해.
  • 훈련 및 추론 단계에서 제약 후보를 통합하여 NMT 출력을 최종 검색 목표와 일치시킴으로써, 모델의 성능을 향상시키기 위해.
  • 실제 전자상거래 클릭 데이터를 활용하여 저비용, 확장 가능하고 도메인 특화된 제약 후보를 생성하기 위해.

실험 결과

연구 질문

  • RQ1검색 인덱스와 관련된 용어로 NMT 출력 어휘를 제약함으로써 크로스링구얼 인포메이션 리트리ieval에서 검색 성능 향상이 가능한가?
  • RQ2도메인 내, 검색 인덱스에서 유래한 제약 후보를 훈련 과정에서 사용할 경우, 번역된 쿼리와 검색 인덱스 용어 간의 일치도가 향상되는가?
  • RQ3추론 시 제약 후보를 통합할 경우, 번역 결과의 검색 작업 관련성에 어떤 영향을 미치는가?
  • RQ4이 방법은 강력한 NMT 기준 모델 대비 검색 정확도를 얼마나 향상시키는가? 동시에 번역 품질은 유지되는가?
  • RQ5이러한 제약 기반 번역 방식이 실제 전자상거래 검색 시스템에서 표준 NMT 및 기타 검색 최적화 방법을 능가할 수 있는가?

주요 결과

  • 제안된 방법은 강력한 NMT 기준 모델 대비 검색 정확도를 크게 향상시켜, 최종 CLIR 작업에서 더 우수한 성능을 보였다.
  • 번역 품질은 유지되거나 약간 향상되었으며, 'meizu'와 같은 희귀어 또는 도메인 특화어를 정확히 처리하는 것으로 확인되어 정성적 분석에서 입증되었다.
  • 일반 도메인 훈련 데이터에서 빈도가 낮은 토큰으로 인해 기준 모델에서 나타나는 OOV(Out-of-Vocabulary) 또는 잘못된 번역(예: 'meizu'에 대해 'maize')을 모델이 정확히 방지하였다.
  • 사용자 클릭트로우 데이터에서 추출한 제약 후보는 검색 관련 어휘를 효과적으로 포착하여, 더 인덱스 호환성 있는 쿼리를 생성할 수 있도록 모델을 지원하였다.
  • 훈련 및 추론 단계에서 제약 후보를 통합함으로써, 전자상거래 검색에 특화된 더 안정적이고 관련성 있는 번역 출력이 도출되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.