QUICK REVIEW

[논문 리뷰] Simple and Scalable Nearest Neighbor Machine Translation

Yuhan Dai, Zhirui Zhang|arXiv (Cornell University)|2023. 02. 23.

Natural Language Processing Techniques인용 수 9

한 줄 요약

SK-MT는 동적이고 문장 수준의 작은 데이터 저장소와 거리 인식 어댑터를 구축하여 kNN-MT를 빠르게 하고 저장소 사용을 줄이면서 번역 품질을 유지합니다.

ABSTRACT

$k$NN-MT is a straightforward yet powerful approach for fast domain adaptation, which directly plugs pre-trained neural machine translation (NMT) models with domain-specific token-level $k$-nearest-neighbor ($k$NN) retrieval to achieve domain adaptation without retraining. Despite being conceptually attractive, $k$NN-MT is burdened with massive storage requirements and high computational complexity since it conducts nearest neighbor searches over the entire reference corpus. In this paper, we propose a simple and scalable nearest neighbor machine translation framework to drastically promote the decoding and storage efficiency of $k$NN-based models while maintaining the translation performance. To this end, we dynamically construct an extremely small datastore for each input via sentence-level retrieval to avoid searching the entire datastore in vanilla $k$NN-MT, based on which we further introduce a distance-aware adapter to adaptively incorporate the $k$NN retrieval results into the pre-trained NMT models. Experiments on machine translation in two general settings, static domain adaptation and online learning, demonstrate that our proposed approach not only achieves almost 90% speed as the NMT model without performance degradation, but also significantly reduces the storage requirements of $k$NN-MT.

연구 동기 및 목표

신경망 기계 번역에서 전체 모델 재학습 없이 빠르고 실용적인 도메인 적응을 촉진한다.
전체 데이터스토어 검색을 피하여 kNN-MT의 저장 공간과 디코딩 비용을 줄인다.
문장 수준 검색을 활용하여 입력당 매우 작고 동적인 데이터 저장소를 구축한다.
거리 인식 어댑터를 도입하여 kNN 검색과 NMT 모델을 적응적으로 융합한다.
정적 도메인 적응 및 온라인 학습 시나리오에서 효과를 입증한다.

제안 방법

훈련 말뭉치를 대상으로 BM25를 사용하여 입력당 상위 64개 이중언어 문장을 검색한다.
검색된 문장을 유사도 점수로 순위화하고 상위 m개 문장 쌍을 유지하여 입력에 대한 작은 데이터 저장소를 형성한다.
선정된 문장 쌍에 대해 사전 학습된 NMT 모델을 실행하여 디코딩용 (key, value) 쌍을 얻고 입력별 저장소를 구성한다.
현재 맥락과의 유클리드 거리 기반으로 p_kNN 검색 분포를 계산하고 보간 계수로 NMT 분포와 결합한다.
보간 계수 lambda를 적응적으로 만들기 위해 lambda = ReLU(1 - d0 / tau)로 설정한다. 여기서 d0는 상위 1 거리이고 tau는 온도 매개변수다.
선택적으로 하이퍼파라미터(k, m, tau)를 학습하거나 조정하고, SK-MT 변형들(SK-MT1: m=2, k=1 및 SK-MT2: m=16, k=2)을 비교한다.

실험 결과

연구 질문

RQ1동적으로 구성되고 매우 작은 입력당 저장소가 전체 저장소를 사용하는 것과 비교하여 kNN-MT의 성능을 유지하거나 향상시킬 수 있는가?
RQ2거리 인식적 적응 융합이 도메인 적응 및 온라인 학습 전반에 걸쳐 견고한 성능을 제공하는가?
RQ3현실적인 디코딩 설정에서 전통적 kNN-MT 및 빠른 변형들과 비교했을 때 SK-MT의 속도 향상과 저장 이점은 무엇인가?
RQ4저빈도어 혹은 도메인 외 단어에 대한 번역 품질에 문장 수준 검색이 어떤 영향을 미치는가?

주요 결과

SK-MT는 기본 NMT 모델의 디코딩 속도의 약 90%를 달성하고 속도와 저장 효율성 면에서 표준 kNN-MT를 능가한다.
입력당 상위 m개 문장 쌍으로부터 구축된 작은 동적 저장소가 성능을 유지하면서 저장 공간을 수십 기가바이트에서 메가바이트로 크게 줄인다.
SK-MT2 (m=16, k=2)는 AK-MT와 동등하거나 더 좋은 BLEU/ChrF 점수를 달성하고 다중 도메인 IT, Medical, Koran, Law 데이터셋에서 FK-MT, EK-MT, CK-MT 기본값을 능가한다.
적응형 lambda 전략은 거리가 클 때 시끄러운 kNN 기여를 방지하고 이웃이 관련 있을 때 kNN을 활용하여 번역 품질을 향상시킨다.
사람의 피드백이 있는 온라인 학습 시나리오에서 SK-MT 변형은 kNN-MT를 능가하고 KoK와 견줄 만하며 새로운 수정에 빠르게 적응한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.