Skip to main content
QUICK REVIEW

[논문 리뷰] Simple and Scalable Nearest Neighbor Machine Translation

Yuhan Dai, Zhirui Zhang|arXiv (Cornell University)|2023. 02. 23.
Natural Language Processing Techniques인용 수 9
한 줄 요약

SK-MT는 동적이고 문장 수준의 작은 데이터 저장소와 거리 인식 어댑터를 구축하여 kNN-MT를 빠르게 하고 저장소 사용을 줄이면서 번역 품질을 유지합니다.

ABSTRACT

$k$NN-MT is a straightforward yet powerful approach for fast domain adaptation, which directly plugs pre-trained neural machine translation (NMT) models with domain-specific token-level $k$-nearest-neighbor ($k$NN) retrieval to achieve domain adaptation without retraining. Despite being conceptually attractive, $k$NN-MT is burdened with massive storage requirements and high computational complexity since it conducts nearest neighbor searches over the entire reference corpus. In this paper, we propose a simple and scalable nearest neighbor machine translation framework to drastically promote the decoding and storage efficiency of $k$NN-based models while maintaining the translation performance. To this end, we dynamically construct an extremely small datastore for each input via sentence-level retrieval to avoid searching the entire datastore in vanilla $k$NN-MT, based on which we further introduce a distance-aware adapter to adaptively incorporate the $k$NN retrieval results into the pre-trained NMT models. Experiments on machine translation in two general settings, static domain adaptation and online learning, demonstrate that our proposed approach not only achieves almost 90% speed as the NMT model without performance degradation, but also significantly reduces the storage requirements of $k$NN-MT.

연구 동기 및 목표

  • 신경망 기계 번역에서 전체 모델 재학습 없이 빠르고 실용적인 도메인 적응을 촉진한다.
  • 전체 데이터스토어 검색을 피하여 kNN-MT의 저장 공간과 디코딩 비용을 줄인다.
  • 문장 수준 검색을 활용하여 입력당 매우 작고 동적인 데이터 저장소를 구축한다.
  • 거리 인식 어댑터를 도입하여 kNN 검색과 NMT 모델을 적응적으로 융합한다.
  • 정적 도메인 적응 및 온라인 학습 시나리오에서 효과를 입증한다.

제안 방법

  • 훈련 말뭉치를 대상으로 BM25를 사용하여 입력당 상위 64개 이중언어 문장을 검색한다.
  • 검색된 문장을 유사도 점수로 순위화하고 상위 m개 문장 쌍을 유지하여 입력에 대한 작은 데이터 저장소를 형성한다.
  • 선정된 문장 쌍에 대해 사전 학습된 NMT 모델을 실행하여 디코딩용 (key, value) 쌍을 얻고 입력별 저장소를 구성한다.
  • 현재 맥락과의 유클리드 거리 기반으로 p_kNN 검색 분포를 계산하고 보간 계수로 NMT 분포와 결합한다.
  • 보간 계수 lambda를 적응적으로 만들기 위해 lambda = ReLU(1 - d0 / tau)로 설정한다. 여기서 d0는 상위 1 거리이고 tau는 온도 매개변수다.
  • 선택적으로 하이퍼파라미터(k, m, tau)를 학습하거나 조정하고, SK-MT 변형들(SK-MT1: m=2, k=1 및 SK-MT2: m=16, k=2)을 비교한다.

실험 결과

연구 질문

  • RQ1동적으로 구성되고 매우 작은 입력당 저장소가 전체 저장소를 사용하는 것과 비교하여 kNN-MT의 성능을 유지하거나 향상시킬 수 있는가?
  • RQ2거리 인식적 적응 융합이 도메인 적응 및 온라인 학습 전반에 걸쳐 견고한 성능을 제공하는가?
  • RQ3현실적인 디코딩 설정에서 전통적 kNN-MT 및 빠른 변형들과 비교했을 때 SK-MT의 속도 향상과 저장 이점은 무엇인가?
  • RQ4저빈도어 혹은 도메인 외 단어에 대한 번역 품질에 문장 수준 검색이 어떤 영향을 미치는가?

주요 결과

  • SK-MT는 기본 NMT 모델의 디코딩 속도의 약 90%를 달성하고 속도와 저장 효율성 면에서 표준 kNN-MT를 능가한다.
  • 입력당 상위 m개 문장 쌍으로부터 구축된 작은 동적 저장소가 성능을 유지하면서 저장 공간을 수십 기가바이트에서 메가바이트로 크게 줄인다.
  • SK-MT2 (m=16, k=2)는 AK-MT와 동등하거나 더 좋은 BLEU/ChrF 점수를 달성하고 다중 도메인 IT, Medical, Koran, Law 데이터셋에서 FK-MT, EK-MT, CK-MT 기본값을 능가한다.
  • 적응형 lambda 전략은 거리가 클 때 시끄러운 kNN 기여를 방지하고 이웃이 관련 있을 때 kNN을 활용하여 번역 품질을 향상시킨다.
  • 사람의 피드백이 있는 온라인 학습 시나리오에서 SK-MT 변형은 kNN-MT를 능가하고 KoK와 견줄 만하며 새로운 수정에 빠르게 적응한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.