[논문 리뷰] Unbabel's Participation in the WMT20 Metrics Shared Task
이 논문은 XLM-RoBERTa를 이용한 다국어 문장 인코딩을 활용한 향상된 COMET 프레임워크를 사용하여 WMT20 Metrics Shared Task에 Unbabel이 참여한 결과를 제시한다. 저자들은 다중 참조 추론 기법과 문서 수준 점수 평균화 방법을 도입하여 여러 언어 조합에서 문장 수준, 문서 수준, 시스템 수준, QE-as-a-metric 트랙에서 최고 성능 또는 경쟁력 있는 성능을 달성하였다.
We present the contribution of the Unbabel team to the WMT 2020 Shared Task on Metrics. We intend to participate on the segment-level, document-level and system-level tracks on all language pairs, as well as the 'QE as a Metric' track. Accordingly, we illustrate results of our models in these tracks with reference to test sets from the previous year. Our submissions build upon the recently proposed COMET framework: We train several estimator models to regress on different human-generated quality scores and a novel ranking model trained on relative ranks obtained from Direct Assessments. We also propose a simple technique for converting segment-level predictions into a document-level score. Overall, our systems achieve strong results for all language pairs on previous test sets and in many cases set a new state-of-the-art.
연구 동기 및 목표
- 문장 수준, 문서 수준, 시스템 수준 점수 평가를 위한 COMET 프레임워크를 향상시켜 자동 기계 번역 평가 성능을 향상시키기.
- 다중 참조 MT 평가에서 참조의 품질과 수량이 모델의 인간 평가와의 상관관계에 미치는 영향을 조사하기.
- 문장 수준 점수를 문서 수준 지표로 융합하는 강력한 방법 개발하기.
- 사전 훈련된 다국어 모델을 최적화하여 인간 평가와의 상관관계를 향상시키기.
- 다양한 MT 평가 환경에서 순위 모델과 회귀 모델의 효과성 평가하기.
제안 방법
- XLM-RoBERTa-large를 다국어 인코더로 미세조정하여 원천, 가설, 참조 텍스트의 문맥적 임베딩을 생성하기.
- 풀드 표현을 기반으로 한 피드포워드 회귀기로 인간 평가 점수(예: Direct Assessment, HTER, MQM)를 직접 회귀하는 추정기 모델 훈련하기.
- Direct Assessment 데이터에서 유사한 순위를 기반으로 훈련된 새로운 순위 모델(COMET-rank) 개발하여 MT 출력 간 비교 수행하기.
- 여러 참조를 추론 중에 통합하여 예측의 강건성을 향상시키는 다중 참조 추론 전략 구현하기.
- 문장 수준 점수를 단일 문서 수준 점수로 융합하기 위한 가중 평균 기법 제안하기.
- 층별 학습률 감소 및 임bedding 층 동결을 적용하여 다양한 언어 조합 간 일반화 성능 향상시키기.
실험 결과
연구 질문
- RQ1다양한 참조의 포함 여부가 자동 MT 평가 지표 성능에 어떤 영향을 미치는가?
- RQ2추가 참조의 품질이 그 수량보다 더 중요하여 인간 평가와의 상관관계 향상에 더 큰 기여를 하는가?
- RQ3통합된 COMET 프레임워크가 문장 수준, 문서 수준, 시스템 수준 MT 평가를 효과적으로 지원할 수 있는가?
- RQ4다양한 사전 훈련된 모델과 미세조정 전략이 인간 평가 점수와의 상관관계에 어떤 영향을 미치는가?
- RQ5문장 수준 예측을 문서 수준 점수로 융합하는 최적의 방법은 무엇인가?
주요 결과
- 제안된 다중 참조 추론 기법을 통해 높은 품질의 보조 참조를 사용할 경우 en-de 언어 조합에서 피어슨 상관계수(r)가 0.455로 향상되었다.
- 단일 높은 품질의 참조를 사용하는 것이 다수 낮은 품질의 참조를 사용하는 것보다 성능이 뛰어나, 참조의 품질이 수량보다 더 중요하다는 것을 시사한다.
- 다양한 참조 조합에서 켄달의 타우(τ) 순위 상관계수가 안정적으로 유지되어, 문장 수준 순위 성능는 참조 품질에 비해 회귀 성능보다 덜 민감한 것으로 나타났다.
- 여러 언어 조합에서 모든 트랙(문장 수준, 문서 수준, 시스템 수준, QE-as-a-metric)에서 최고 성능 또는 경쟁력 있는 성능을 기록하였다.
- 문장 수준 예측의 가중 평균을 기반으로 한 문서 수준 점수 평가 방법은 테스트 세트 전반에서 효과적이고 일관된 성능을 보였다.
- XLM-RoBERTa-large와 미세조정된 회귀기로 구성된 COMET 프레임워크는 WMT19 테스트 세트에서 BERTscore, Bleurt, Prism와 같은 기존 지표보다 뛰어난 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.