Skip to main content
QUICK REVIEW

[논문 리뷰] TranSmart: A Practical Interactive Machine Translation System

Guoping Huang, Lemao Liu|arXiv (Cornell University)|2021. 05. 27.
Natural Language Processing Techniques참고 문헌 84인용 수 23
한 줄 요약

TranSmart는 단어 수준 및 문장 수준의 자동완성 기능과 번역 메모리 기반 신경 기계 번역(NMT) 모델을 통해 사용자 중심의 상호작용을 통해 번역 품질과 효율성을 향상시키는 실용적인 상호작용형 기계 번역 시스템이다. 여러 언어 쌍에서 강력한 기준 모델보다 최대 3 BLEU 포인트 향상시키며, 비왼쪽에서 오른쪽 방향 번역 워크플로우를 지원하면서도 정확도와 효율성 향상이 뚜렷하다.

ABSTRACT

Automatic machine translation is super efficient to produce translations yet their quality is not guaranteed. This technique report introduces TranSmart, a practical human-machine interactive translation system that is able to trade off translation quality and efficiency. Compared to existing publicly available interactive translation systems, TranSmart supports three key features, word-level autocompletion, sentence-level autocompletion and translation memory. By word-level and sentence-level autocompletion, TranSmart allows users to interactively translate words in their own manners rather than the strict manner from left to right. In addition, TranSmart has the potential to avoid similar translation mistakes by using translated sentences in history as its memory. This report presents major functions of TranSmart, algorithms for achieving these functions, how to use the TranSmart APIs, and evaluation results of some key functions. TranSmart is publicly available at its homepage (https://transmart.qq.com).

연구 동기 및 목표

  • 기존 상호작용형 기계 번역(IMT) 시스템에서 고정된 왼쪽에서 오른쪽 번역 워크플로우의 한계를 해결하기 위해.
  • 순차적 입력을 초월한 다양한 사용자 상호작용 패턴을 허용함으로써 번역 품질과 효율성을 향상시키기 위해.
  • 반복적이거나 유사한 내용을 포함한 문서 수준 번역에서 반복적인 번역 오류를 줄이기 위해 번역 메모리를 신경 기계 번역 모델에 통합하기 위해.
  • 실제 번역 워크플로우를 지원하는 실용적이고 공개된 IMT 시스템을 개발하기 위해.
  • 제약된 디코딩 및 번역 메모리 통합이 신경 번역 모델에서 효과적으로 작용하는지 평가하기 위해.

제안 방법

  • TranSmart는 사용자가 부분 문자를 입력하면 실시간으로 제안을 제공하는 단어 수준 자동완성 기능을 사용하며, 이는 왼쪽에서 오른쪽 입력이 필요하지 않다.
  • 문장 수준 자동완성은 사용자가 비연속적인 단어나 어구를 입력할 수 있도록 하며, 시스템은 맥락과 사용자 입력을 바탕으로 전체 문장을 완성한다.
  • 역사적 번역을 그래프로 표현하는 그래프 기반 번역 메모리(G-TFM) 모델을 통합하여 디코딩 효율성과 정확도를 향상시킨다.
  • 제약된 디코딩을 사용하여 NMT 모델이 사용자가 제공한 부분 입력이나 수정 사항과 일치하는 번역을 생성하도록 유도한다.
  • 번역 메모리 구성 요소는 이전에 번역된 문장을 재사용하여 반복적인 오류를 방지하며, 특히 반복되거나 유사한 내용이 포함된 문서에서 유의미하다.
  • 시스템은 Transformer 기반 NMT 아키텍처를 기반으로 하며, 통합 및 평가를 위해 공개 API를 통해 功能를 제공한다.

실험 결과

연구 질문

  • RQ1신경 기계 번역(NMT) 시스템이 높은 번역 품질을 유지하면서도 비왼쪽에서 오른쪽의 상호작용 패턴을 지원할 수 있는가?
  • RQ2그래프 기반 번역 메모리 표현 방식이 NMT 성능 향상과 번역 오류 감소에 얼마나 효과적인가?
  • RQ3Transformer 모델에 번역 메모리를 통합함으로써 여러 언어 쌍에서 BLEU 점수 향상은 어느 정도 이루어지는가?
  • RQ4시스템의 자동완성 메커니즘이 기존 IMT 시스템과 비교해 사용자 효율성과 오류 감소 측면에서 어떻게 성과를 내는가?
  • RQ5번역 메모리를 NMT에 통합할 경우 번역 품질, 추론 속도, 메모리 사용량 간의 상호 상충 관계는 어떻게 나타나는가?

주요 결과

  • TranSmart는 es-en 작업에서 가장 강력한 기준 모델(P-TFM)보다 1.9 BLEU 포인트 향상시켰으며, 테스트 세트에서 66.21 BLEU 점수를 기록했다.
  • 제안된 G-TFM 모델은 모든 다섯 개 언어 쌍에서 TFM보다 최대 3 BLEU 포인트 향상되었으며, en-fr에서 69.59 BLEU, fr-en에서 70.87 BLEU를 기록했다.
  • G-TFM는 문장당 추론 시간을 0.36초로 단축시키며, 평균적으로 129.18단어만을 인코딩하여 SEQ-TFM(214.97) 및 SEG-TFM(374.52)보다 훨씬 낮은 메모리 사용량을 기록했다.
  • SEG-TFM 대비 모델이 인코딩하는 단어 수를 최대 3배까지 줄여, 뛰어난 메모리 효율성을 입증했다.
  • 그래프 기반 번역 메모리 모델(G-TFM)은 특히 Transformer 아키텍처에서 문맥 기반 키-값 메모리 모델보다 뛰어난 성능을 보였다.
  • 실증 결과는 번역 메모리 통합이 문서 수준 번역에서 유사 번역 오류의 재발을 상당히 감소시킨다는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.