Skip to main content
QUICK REVIEW

[논문 리뷰] The IIT Bombay English-Hindi Parallel Corpus

Anoop Kunchukuttan, Pratik Mehta|arXiv (Cornell University)|2017. 10. 08.
Natural Language Processing Techniques참고 문헌 14인용 수 33
한 줄 요약

이 논문은 영어-힌디어 번역을 위한 기계 번역에서 가장 큰 공개 가능 병렬 코퍼스인 IIT 보마르 영어-힌디어 병렬 코퍼스를 제시한다. 이 코퍼스는 149만 개의 병렬 문단을 포함하며, 이 중 69만 4천 개는 이전에 공개 영역에 없던 신규 문단이다. 이 코퍼스는 문장 기반 SMT와 신경 기계 번역(NMT)을 지원하며, 각각 EN→HI 방향으로 BLEU 점수 12.23, HI→EN 방향으로 BLEU 점수 12.83의 베이스라인 성능을 보이며, 비상업적 연구를 위해 Creative Commons 라이선스 하에 무료로 이용 가능하다.

ABSTRACT

We present the IIT Bombay English-Hindi Parallel Corpus. The corpus is a compilation of parallel corpora previously available in the public domain as well as new parallel corpora we collected. The corpus contains 1.49 million parallel segments, of which 694k segments were not previously available in the public domain. The corpus has been pre-processed for machine translation, and we report baseline phrase-based SMT and NMT translation results on this corpus. This corpus has been used in two editions of shared tasks at the Workshop on Asian Language Translation (2016 and 2017). The corpus is freely available for non-commercial research. To the best of our knowledge, this is the largest publicly available English-Hindi parallel corpus.

연구 동기 및 목표

  • 이전에 크기와 범위가 제한되었던 공개 가능한 영어-힌디어 병렬 코퍼스를 통합하고 확장하기 위해.
  • 힌디어에서의 디지털 커뮤니케이션 증가 추세에 부응하여 영어-힌디어 간 고품질 기계 번역을 가능하게 하기 위해.
  • 기계 번역 시스템의 학습 및 벤치마킹을 위한 종합적이고 사전 처리된, 자유롭게 이용 가능한 병렬 코퍼스를 제공하기 위해.
  • 아시아어 번역 공유 과제를 지원하고, 인도어의 저자원 언어 번역 성능을 향상시키기 위해.
  • 정부 웹사이트 및 백트랜슬레이션과 같은 합성 데이터 기법을 통해 향후 개선 작업의 기반을 마련하기 위해.

제안 방법

  • 코퍼스는 OPUS, WMT, TED 강연, 그리고 인도 정부 웹사이트, 사법 문서, 다국어 사전 등 17개의 자료에서 수집되었다.
  • 신규 하위코퍼스는 마하샤브드코시 사전의 웹 크롤링, 인도 정부 포털에서의 수작업 수집, 길이와 단어 대응을 조합한 하이브리드 모델을 사용한 Gyaan-Nidhi 유사 코퍼스의 문장 정렬을 통해 생성되었다.
  • 영어에는 Moses 토크나이저, 힌디어에는 IndicNLP 토크나이저를 사용하여 사전 처리하여 표준 기계 번역 툴킷과의 호환성을 확보하였다.
  • 문장 기반 SMT 시스템은 Moses를 사용하여 grow-diag-final-and 문장 추출, 어휘 기반 재정렬, MIRA 튜닝을 적용하고, Kneser-Ney 5-gram 언어 모델을 사용하여 학습하였다.
  • 신경 기계 번역(NMT) 시스템은 512개의 GRU 유닛, 256차원 임베딩, BPE 서브워드 토크나이저(15,500회 병합)를 각 언어별로 별도로 학습시켜 구현하였다.
  • 모델 학습은 Adam 최적화를 사용하고 조기 정지 기법을 적용하였으며, 부스터링된 디코딩(빔 크기 12)과 네 개의 저장된 모델을 통한 앙상블 디코딩을 통해 정확도를 향상시켰다.

실험 결과

연구 질문

  • RQ1다양하고 도메인 특화된 병렬 코퍼스를 결합하는 것이 영어-힌디어 기계 번역 성능에 미치는 영향은 무엇인가?
  • RQ2이전에 공개되지 않았던 신규로 수집된 코퍼스를 포함함으로써, 기존의 공개 자원에 비해 번역 품질은 얼마나 향상되는가?
  • RQ3이러한 새로 편집된 영어-힌디어 병렬 코퍼스에서 문장 기반 및 신경 기계 번역의 기본 성능 지표는 무엇인가?
  • RQ4도메인 특화된, 형태소가 풍부한 언어인 힌디어의 사용이 번역 성능과 모델 일반화 능력에 미치는 영향은 어느 정도인가?
  • RQ5Gyaan-Nidhi와 같은 유사 코퍼스(비병렬)에 대한 문장 정렬 기법이 실제로 사용 가능한 병렬 학습 데이터를 생성하는 데 얼마나 효과적인가?

주요 결과

  • IIT 보마르 영어-힌디어 병렬 코퍼스는 총 1,492,827개의 병렬 문단을 포함하며, 이 중 694,000개는 이전에 공개 영역에 없던 신규 기여된 문단이다.
  • 이 코퍼스는 2016년과 2017년 워크숍에서 아시아어 번역을 위한 두 차례의 편찬에 사용되어 기준 자료로 자리매김하였다.
  • 기본 문장 기반 SMT는 영어→힌디어 번역에서 BLEU 점수 11.75, 힌디어→영어 번역에서 BLEU 점수 14.49를 기록하였다.
  • 신경 기계 번역(NMT) 모델은 영어→힌디어 번역에서 BLEU 점수 12.23, 힌디어→영어 번역에서 BLEU 점수 12.83를 기록하였으며, 후자 방향에서 SMT를 능가하였다.
  • 이 코퍼스는 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 라이선스 하에 공개되어 비상업적 연구 및 재사용을 가능하게 하였다.
  • 힌디어의 어근 및 동의어 매칭을 지원하는 METEOR-Indic을 사용함으로써, 형태소가 풍부한 인도어의 평가 관련성은 향상되었다. 이는 IndoWordNet과 트라이 기반 어원 추출기 기반으로 작동한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.