Skip to main content
QUICK REVIEW

[논문 리뷰] Improved statistical machine translation using monolingual paraphrases

Preslav Nakov|arXiv (Cornell University)|2021. 09. 25.
Natural Language Processing Techniques참고 문헌 23인용 수 38
한 줄 요약

본 논문은 NP/NC 구조의 의미를 보존하는 문장 패러프레이징을 생성하여 SMT의 영어 학습 데이터를 확장하기 위한 단일언어 패러프레이징 방법을 제안합니다. 기존 번역과 쌍을 이루어 품질을 향상시키며, 데이터가 제한적일 때 특히 번역 품질이 개선됩니다.

ABSTRACT

We propose a novel monolingual sentence paraphrasing method for augmenting the training data for statistical machine translation systems "for free" -- by creating it from data that is already available rather than having to create more aligned data. Starting with a syntactic tree, we recursively generate new sentence variants where noun compounds are paraphrased using suitable prepositions, and vice-versa -- preposition-containing noun phrases are turned into noun compounds. The evaluation shows an improvement equivalent to 33%-50% of that of doubling the amount of training data.

연구 동기 및 목표

  • 새로운 정렬 코퍼스를 수집하는 대신 단일언어 패러프레이즈를 사용하여 학습 데이터를 확장함으로써 SMT를 개선하려는 동기를 제시한다.
  • 명사구 및 명사구 구성(NP/NC)을 중심으로 구문 패러프레이징 방법을 개발하여 패러프레이즈 변형을 생성한다.
  • 패러프레이즈 보강 학습이 BLEU 점수에 의미 있는 향상을 가져다주며, 특히 데이터가 더 작은 경우에 더 큰 효과를 보임을 보여준다.
  • 유로팔 Europarl 영어-스페인어 및 News Commentary 도메인 데이터를 대상으로 접근법을 평가하여 강건성과 도메인 적응성을 평가한다.

제안 방법

  • 구문 분석기를 사용해 원문 문장을 파싱하고 재귀적으로 NP/NC 구조를 바꾸는 변환을 적용한다(예: NP NP1 P NP2를 NP NP2 NP1으로, NP NP1 of NP2를 NP NP2 gen NP1으로 변환).
  • 서툰/어색한 명사구를 피하고 실행 가능한 패러프레이즈 형태를 결정하기 위해 추가 제약을 사용한다.
  • 이전/다음 단어 맥락에서 패러프레이즈 변형을 생성하고 테스트하여 Google 검색 패턴을 사용해 웹 기반 빈도 여부로 패러프레이즈를 검증한다.
  • 학습 코퍼스의 영어 측에 이 패러프레이즈를 원문 번역과 쌍으로 추가하고, 확장된 데이터를 사용해 SMT 모델을 학습한다.
  • 선택적으로 구문표(phrase table) 자체의 구를 패러프레이즈하고, 패러프레이즈된 구문표를 원래 구문표와 병합하되 원래 항목에 우선순위를 부여한다.
  • Bleu와 n-그램 정밀도를 사용해 기본 시스템, 문장 패러프레이즈, 구문표 패러프레이즈, 그리고 결합 시스템을 비교 평가한다.

실험 결과

연구 질문

  • RQ1정렬된 데이터의 증가 없이 소스 측의 단일언어 패러프레이징이 SMT 성능을 향상시킬 수 있는가?
  • RQ2문장 패러프레이징과 구문표 패러프레이징이 번역 품질에 미치는 영향은 무엇인가?
  • RQ3패러프레이즈된 데이터를 원본 코퍼스와 병합하는 것이 단독 패러프레이징보다 커버리지와 Bleu 점수를 더 향상시키는가?
  • RQ4Europarl에서 News Commentary로의 도메인 전이 시 이 방법은 도메인 적응에 효과적인가?
  • RQ5SMT를 위한 단일언어 패러프레이징의 실용적 한계와 오류 원천은 무엇인가?

주요 결과

  • 패러프레이즈 보강 학습은 학습 데이터 확대를 두 배로 늘리는 경우의 Bleu 증가치와 비슷한 이득을 준다.
  • 학습 문장을 패러프레이즈한 뒤 구문표를 원본과 병합하면, 실험 설정 중에서 가장 큰 개선을 얻었다.
  • 구문표만 패러프레이즈하는 것은 문장 보강 방식보다 성능이 떨어지고 잡음을 유발할 수 있다.
  • 추가 Europarl 유래 구문표를 포함한 패러프레이즈 기반 도메인 적응이 News Commentary에서 기준 대비 상당한 Bleu 이득을 제공한다.
  • 이 방법은 다언어 피벗 기반 패러프레이징 방법과 보완적이며 추가 이득을 위해 함께 통합될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.