[논문 리뷰] ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning
이 논문은 7개 NLP 작업과 37개 언어에 걸친 ChatGPT의 대규모 제로샷 평가를 수행하여 다국어 성능을 평가하고, ChatGPT가 일반적으로 감독 모델에 비해 저조하고 특히 복잡한 과제에서 영어 편향을 보임을 확인한다.
Over the last few years, large language models (LLMs) have emerged as the most important breakthroughs in natural language processing (NLP) that fundamentally transform research and developments in the field. ChatGPT represents one of the most exciting LLM systems developed recently to showcase impressive skills for language generation and highly attract public attention. Among various exciting applications discovered for ChatGPT in English, the model can process and generate texts for multiple languages due to its multilingual training data. Given the broad adoption of ChatGPT for English in different problems and areas, a natural question is whether ChatGPT can also be applied effectively for other languages or it is necessary to develop more language-specific technologies. The answer to this question requires a thorough evaluation of ChatGPT over multiple tasks with diverse languages and large datasets (i.e., beyond reported anecdotes), which is still missing or limited in current research. Our work aims to fill this gap for the evaluation of ChatGPT and similar LLMs to provide more comprehensive information for multilingual NLP applications. While this work will be an ongoing effort to include additional experiments in the future, our current paper evaluates ChatGPT on 7 different tasks, covering 37 diverse languages with high, medium, low, and extremely low resources. We also focus on the zero-shot learning setting for ChatGPT to improve reproducibility and better simulate the interactions of general users. Compared to the performance of previous models, our extensive experimental results demonstrate a worse performance of ChatGPT for different NLP tasks and languages, calling for further research to develop better models and understanding for multilingual learning.
연구 동기 및 목표
- 영어를 넘어 다양한 NLP 과제에서 ChatGPT 및 유사 LLM을 평가하여 다국어 능력과 한계를 이해한다.
- 현실 세계의 다국어 설정을 반영하기 위해 고자원, 중자원, 저자원, 극저자원 언어를 모두 포괄한다.
- 일반 사용자 상호작용을 모방하고 재현성을 극대화하기 위해 제로샷 학습을 우선한다.
- 맥락을 제공하기 위해 최신 감독 모델과의 비교 기준을 제시한다.
제안 방법
- POS 태깅, NER, 관계 추출, 자연어 추론, 질의응답, 일반상식 추론, 요약의 일곱 가지 NLP 작업에서 ChatGPT를 평가한다.
- 제로샷 프롬프트를 이용해 고자원에서 극저자원에 이르는 37개 언어를 포괄한다.
- 작업 설명은 영어와 각 언어별 번역을 사용하여 ChatGPT에 프롬프트를 제공하고, 작업별 규칙으로 출력을 파싱한다.
- 결과를 맥락화하기 위해 강력한 감독 기준과 비교한다(예: POS의 XLM-R, NER의 DAMO, RE의 mT5-IL).
- 제로샷 결과를 일반 사용자 성능의 주된 증거로 보고 언어 관련 편향을 논의한다.

실험 결과
연구 질문
- RQ1다양한 NLP 작업에서 광범위한 언어 집합에 대해 제로샷으로 ChatGPT의 성능은 어떤가?
- RQ2ChatGPT가 영어 경향 편향을 보이는가, 그리고 이는 고자원에서 극저자원에 이르는 언어들에서 어떻게 나타나는가?
- RQ3각 작업에서 ChatGPT의 다국어 성능은 최신 감독 모델과 어떻게 비교되는가?
- RQ4비영어 NLP 응용에서 다국어 LLM을 사용하는 실용적 시사점은 무엇인가?
주요 결과
- ChatGPT의 제로샷 성능은 일반적으로 최첨단 감독 모델보다 떨어진다.
- ChatGPT는 영어에서 다른 언어보다 성능이 우수하며, 특히 복잡한 추론이 필요한 작업에서 그렇다.
- 영어 프롬프트는 여러 작업에서 많은 언어에 대해 언어별 프롬프트보다 같거나 더 나은 결과를 낸다.
- 챗GPT의 다국어 평가가 7개 작업과 37개 언어를 다루며 상당한 차이를 강조하고 언어별 모델이나 개선의 필요성을 시사한다.
- 연구는 영어 편향을 시사하고 LLM으로 다국어 학습을 개선하기 위한 추가 연구를 촉구한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.