Skip to main content
QUICK REVIEW

[논문 리뷰] Using Mechanical Turk to Build Machine Translation Evaluation Sets

Michael Bloodgood, Chris Callison-Burch|arXiv (Cornell University)|2014. 10. 20.
Mobile Crowdsensing and Crowdsourcing참고 문헌 11인용 수 35
한 줄 요약

이 논문은 저비용·고품질 기계 번역(MT) 평가 세트를 구축하기 위해 아마존 메카니컬 터크(MTurk)를 사용하는 것을 제안한다. 실험 결과, MTurk로 생성한 테스트 세트가 전문가가 제작한 세트와 거의 동일한 시스템 성능 순위와 상대적 성능 차이를 보이며, 비용을 90% 절감한 바(39,800달러 대비 179.20달러)에도 불구하고 MT 시스템 품질에 대한 동일한 결론을 유지함을 입증한다. 이는 도메인 특화 및 多국어 MT 평가에 있어 그 유효성을 검증한다.

ABSTRACT

Building machine translation (MT) test sets is a relatively expensive task. As MT becomes increasingly desired for more and more language pairs and more and more domains, it becomes necessary to build test sets for each case. In this paper, we investigate using Amazon's Mechanical Turk (MTurk) to make MT test sets cheaply. We find that MTurk can be used to make test sets much cheaper than professionally-produced test sets. More importantly, in experiments with multiple MT systems, we find that the MTurk-produced test sets yield essentially the same conclusions regarding system performance as the professionally-produced test sets yield.

연구 동기 및 목표

  • 특히 새로운 언어 조합과 도메인에 대해 전문 번역 평가 세트를 제작하는 데 드는 높은 비용을 줄이기 위해.
  • MTurk의 비전문가 커뮤니티 워커가 MT 평가를 위한 신뢰할 수 있고 고품질의 기준 번역을 생성할 수 있는지 조사하기 위해.
  • MTurk로 생성한 테스트 세트가 전문가가 제작한 세트와 동일한 MT 시스템 성능에 대한 결론을 도출하는지 평가하기 위해.
  • 후처리 편집이 MTurk가 생성한 번역의 품질과 MT 평가를 위한 테스트 세트의 유용성에 어떤 영향을 미치는지 탐색하기 위해.

제안 방법

  • NIST 2009 MT 평가 세트의 1,792개 우르두어 문장을 MTurk에 게시하고, 각 영문 번역에 대해 0.10달러의 보상을 지급했다.
  • 자동 번역 시스템을 사용해 번역을 생성한 응답을 수동으로 기각함으로써 품질 제어를 구현했다.
  • 앞서 나올 연구에서 원본 문장을 이미지로 변환해 복사-붙여넣기 방지 조치를 취할 계획이다.
  • 두 번째 데이터 수집 단계에서 신규 워커들이 초기 번역의 철자, 문법, 오타를 수정하도록 하여 10문장당 0.25달러의 보상을 지급했다.
  • 시스템 순위 비교를 위해 BLEU 점수와 기준 성능 비율을 사용했다.
  • NIST 2009 세트에서 최고 성능을 보인 시스템(ISI Syntax)을 상대적 성능 비교의 기준으로 삼았다.

실험 결과

연구 질문

  • RQ1메카니컬 터크를 사용해 전문 번역보다 훨씬 낮은 비용으로 기계 번역 평가 세트를 구축할 수 있는가?
  • RQ2MTurk로 생성한 테스트 세트가 전문가가 제작한 세트와 동일한 MT 시스템의 상대적 성능 순위를 도출하는가?
  • RQ3MTurk가 생성한 번역에 대한 후처리 편집이 테스트 세트의 신뢰성 또는 유용성을 향상시키는가?
  • RQ4원본 문장을 텍스트가 아닌 이미지로 제공할 경우 도용 방지가 가능하고 데이터 품질이 향상되는가?

주요 결과

  • MTurk 테스트 세트 제작 비용은 179.20달러였으며, 전문가가 제작한 NIST 2009 테스트 세트의 39,800달러 대비 95% 절감된 수준이었다.
  • 낮은 비용과 단일 기준 번역 형식에도 불구하고, MTurk로 생성한 테스트 세트는 전문가가 제작한 NIST 2009 테스트 세트와 동일한 MT 시스템의 상대적 성능 순위를 도출했다.
  • 세 시스템의 기준 성능 비율은 테스트 세트 간 거의 동일하게 유지되었다: ISI Syntax는 100%, JHU Syntax는 100.87%의 성능을 기록했으며, Joshua-Hierarchical는 기준 대비 약 80%의 성능을 보였다.
  • MTurk 번역에 대한 후처리 편집은 성능 결론에 유의미한 영향을 주지 않았으며, 이는 원시 커뮤니티 워커 출력물의 경미한 오류가 테스트 세트의 유용성을 손상시키지 않는다는 것을 시사한다.
  • 본 연구는 비전문가 커뮤니티 워커가 MT 시스템 비교에 있어 저비용이며 통계적으로 신뢰할 수 있는 평가 세트를 생성할 수 있음을 확인한다.
  • 결과적으로, MTurk를 활용해 도메인 특화 MT 테스트 세트를 신속하고 스케일링 가능하며 저비용으로 제작하는 것이 가능하다는 점을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.