QUICK REVIEW

[논문 리뷰] MTQE.en-he: Machine Translation Quality Estimation for English-Hebrew

Andy Rosenbaum, Assaf Siani|arXiv (Cornell University)|2026. 02. 06.

Natural Language Processing Techniques인용 수 0

한 줄 요약

이 논문은 MTQE.en-he를 공개적으로 발표하며 첫 번째 공개 영어-히브리어 MTQE 벤치마크를 평가하고, ChatGPT 프롬프트, TransQuest, 및 CometKiwi를 평가하며, 모델 간 앙상블이 단일 모델보다 성능을 개선함을 보여주고, 경량 미세 조정으로 성능이 더 향상됩니다.

ABSTRACT

We release MTQE.en-he: to our knowledge, the first publicly available English-Hebrew benchmark for Machine Translation Quality Estimation. MTQE.en-he contains 959 English segments from WMT24++, each paired with a machine translation into Hebrew, and Direct Assessment scores of the translation quality annotated by three human experts. We benchmark ChatGPT prompting, TransQuest, and CometKiwi and show that ensembling the three models outperforms the best single model (CometKiwi) by 6.4 percentage points Pearson and 5.6 percentage points Spearman. Fine-tuning experiments with TransQuest and CometKiwi reveal that full-model updates are sensitive to overfitting and distribution collapse, yet parameter-efficient methods (LoRA, BitFit, and FTHead, i.e., fine-tuning only the classification head) train stably and yield improvements of 2-3 percentage points. MTQE.en-he and our experimental results enable future research on this under-resourced language pair.

연구 동기 및 목표

세 명의 인간 주석 Direct Assessment 점수로 평가된 공개적으로 이용 가능한 영어-히브리어 MTQE 데이터세트를 생성하고 공개한다.
MTQE.en-he에서 기본 모델(ChatGPT 프롬프트, TransQuest, CometKiwi)을 벤치마킹한다.
저자원 언어 쌍의 MTQE를 개선하기 위해 모델 앙상블 및 매개변수 효율적인 미세 조정을 탐구한다.

제안 방법

WMT24++의 959개 영어 세그먼트를 네 가지 도메인에 걸쳐 사용하여 MTQE.en-he를 구성한다.
각 세그먼트를 세 명의 원어민 수준 전문가가 Direct Assessment 점수로 주석하고 평균을 ground truth로 사용한다.
기준(Base라인)을 평가한다: ChatGPT 프롬프트, TransQuest, 그리고 CometKiwi; Pearson 및 Spearman 상관계수를 계산한다.
최고 단일 모델보다 정확도를 향상시키기 위한 모델 예측의 앙상블을 실험한다.
TransQuest와 CometKiwi를 네 가지 매개변수-효율적 방법(LoRA, BitFit, FTHead)과 비교를 위한 전체 미세 조정으로 미세 조정한다.
다섯 개 데이터 분할에 대한 시드(seed)와 재현성 노트를 제공한다.

실험 결과

연구 질문

RQ1공개적으로 발표된 영어-히브리어 MTQE 데이터세트가 표준 QE 모델을 통해 신뢰할 수 있는 품질 추정을 가능하게 할까?
RQ2ChatGPT 프롬프트, TransQuest, CometKiwi가 MTQE.en-he에서 서로 비교했을 때 어떤 성능을 보일까?
RQ3모델 간 앙상블이 단일 최고의 모델보다 MTQE 정확도를 향상시킬까?
RQ4가볍고 매개변수 효율적인 미세 조정 방법이 영어-히브리어 MTQE 성능을 향상시킬까?

주요 결과

모델	Pearson All	Spearman All	Pearson Test	Spearman Test
ChatGPT-freestyle	0.4266	0.5018	0.4136	0.5020
ChatGPT-guidelines	0.4256	0.5074	0.4119	0.5087
TransQuest-multilingual	0.3759	0.4303	0.3608	0.4235
TransQuest-en-any	0.4327	0.4501	0.4205	0.4537
CometKiwi	0.4828	0.5456	0.4495	0.5305
Ensemble(GPT-f, TQ)	0.5028	0.5622	0.4876	0.5608
Ensemble(GPT-f, CK)	0.5211	0.5929	0.4992	0.5798
Ensemble(TQ, CK)	0.5081	0.5459	0.4810	0.5390
Ensemble(GPT-f, TQ, CK)	0.5472	0.6014	0.5250	0.5926
TQ+FullFT	-	-	0.4287	0.4608
TQ+LoRA	-	-	0.4445	0.4828
TQ+BitFit	-	-	0.4424	0.4799
TQ+FTHead	-	-	0.4358	0.4718
CK+FullFT	-	-	0.4236	0.5034
CK+LoRA	-	-	0.4670	0.5554
CK+BitFit	-	-	0.4647	0.5551
CK+FTHead	-	-	0.4693	0.5449

ChatGPT-freestyle, TransQuest, and CometKiwi의 앙상블이 전체 데이터셋(All)에서 Pearson 0.5472 및 Spearman 0.6014, 테스트 세트에서 0.5250 및 0.5926으로 최고 성능을 달성한다.
단일 최고 모델(CometKiwi)은 All에서 Pearson 0.4828 및 Spearman 0.5456, Test에서 0.4495 및 0.5305를 달성한다.
ChatGPT 프롬프트만으로는 All에서 약 Pearson 0.4266 및 Spearman 0.5018을 얻는다.
전체 미세 조정은 일반적으로 TransQuest의 성능을 저하시킬 뿐만 아니라 CometKiwi에도 약간 악영향을 주는 반면, LoRA, BitFit, FTHead 등의 매개변수 효율적인 방법은 두 모델 모두에게 약 2-3퍼센트포인트의 안정적 이점을 제공한다.
LoRA, BitFit, 또는 FTHead를 사용한 미세 조정은 앙상블 및 개별 모델의 성능을 과적합 없이 향상시키고, FullFT는 분포 붕괴를 보여 대조적이다.
MTQE.en-he 기본 결과와 실험 설정은 영어-히브리어 QE 및 저자원 언어 쌍에 대한 추가 연구를 가능하게 한다.

(b) English source word length distribution.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.