[논문 리뷰] GPT-4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels
GPT-4의 번역 품질은 총 오류에서 주니어 번역가에 비견되지만 중간 및 시니어 번역가보다 뒤처지며, 언어와 도메인에 따라 성능이 달라지고 직역 경향이 나타난다.
This study comprehensively evaluates the translation quality of Large Language Models (LLMs), specifically GPT-4, against human translators of varying expertise levels across multiple language pairs and domains. Through carefully designed annotation rounds, we find that GPT-4 performs comparably to junior translators in terms of total errors made but lags behind medium and senior translators. We also observe the imbalanced performance across different languages and domains, with GPT-4's translation capability gradually weakening from resource-rich to resource-poor directions. In addition, we qualitatively study the translation given by GPT-4 and human translators, and find that GPT-4 translator suffers from literal translations, but human translators sometimes overthink the background information. To our knowledge, this study is the first to evaluate LLMs against human translators and analyze the systematic differences between their outputs, providing valuable insights into the current state of LLM-based translation and its potential limitations.
연구 동기 및 목표
- 여러 언어쌍과 도메인에 걸쳐 다양한 전문성의 인간 번역가와 비교하여 GPT-4의 번역 품질를 평가한다.
- 자원이 풍부한 언어에서 자원이 부족한 언어로의 번역 성능을 보정한다.
- LLM 번역과 인간 번역 간의 체계적 차이점과 질적 특성을 식별한다.
제안 방법
- MQM 프레임워크를 사용하여 전문가 주석가가 맹검 조건에서 번역 오류를 주석한다.
- 중국어↔영어 번역에 대해 여섯 가지 언어 방향(English↔Chinese, English↔Russian, English↔Hindi)과 두 도메인(생물의학 및 기술)을 평가한다.
- 세 가지 후보 프롬프트로 GPT-4에 프롬프트를 제시하고 COMET-QE 평가를 통해 최적의 것을 선택한다.
- 비교를 위해 주니어, 중간, 시니어 수준의 인간 번역가를 포함하되, 기계 번역 보조를 피하기 위해 도움을 제한한다.
- 주석 일관성을 보장하기 위해 Cohen의 Kappa와 Krippendorff의 Alpha를 사용하여 주석자 간 합의도를 계산한다.

실험 결과
연구 질문
- RQ1GPT-4의 번역 품질이 여러 언어와 도메인에서 서로 다른 전문성 수준의 인간 번역가와 비교했을 때 어떤가?
- RQ2LLM 번역과 인간 번역 간에 오류 유형과 언어적 행태에 체계적인 차이가 있는가?
- RQ3자원이 풍부한 언어 방향에서 자원이 부족한 방향으로 GPT-4의 성능이 저하되는가?
- RQ4GPT-4 번역과 인간 번역을 구분하는 질적 특징은 무엇인가(예: 직역성, 과잉 사고, 망상적 오류 등)?
주요 결과
- GPT-4는 주니어 번역가와 유사한 총 오류 수준을 달성하지만 중간 및 시니어 번역가보다 뒤처진다.
- GPT-4의 성능은 자원이 풍부한 언어 방향에서 자원이 부족한 방향으로 감소하며, Chinese↔English에서 상대적으로 잘 수행되지만 Chinese↔Hindi에서는 더 떨어진다.
- GPT-4는 인간에 비해 더 직역적 번역과 더 적은 추가/생략을 보이나 어휘적, 스타일적, 문법적 부정확성으로 고통받는다.
- 도메인 분석에서 GPT-4는 기술 및 생물의학 도메인에서 중간 번역가에 더 가깝지만 최신 엔터티 지식의 부족으로 일반 뉴스 도메인에서는 약하다.
- 정성적 사례 연구는 GPT-4가 인간보다 상상된 콘텐츠를 피하는 데 더 능숙한 반면 인간은 때때로 누락된 정보를 과도하게 해석한다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.