QUICK REVIEW

[논문 리뷰] A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias

Yuemei Xu, Ling Hu|arXiv (Cornell University)|2024. 04. 01.

Topic Modeling인용 수 8

한 줄 요약

본 설문조사는 다국어 대형 언어 모델(MLLMs)을 세 가지 핵심 차원—코퍼스, 정렬, 편향—을 중심으로 분석하며, 데이터, 표현 학습, 사회적 편향이 교차 언어 성능과 향후 방향에 어떤 영향을 미치는지 조명한다.

ABSTRACT

Based on the foundation of Large Language Models (LLMs), Multilingual LLMs (MLLMs) have been developed to address the challenges faced in multilingual natural language processing, hoping to achieve knowledge transfer from high-resource languages to low-resource languages. However, significant limitations and challenges still exist, such as language imbalance, multilingual alignment, and inherent bias. In this paper, we aim to provide a comprehensive analysis of MLLMs, delving deeply into discussions surrounding these critical issues. First of all, we start by presenting an overview of MLLMs, covering their evolutions, key techniques, and multilingual capacities. Secondly, we explore the multilingual training corpora of MLLMs and the multilingual datasets oriented for downstream tasks that are crucial to enhance the cross-lingual capability of MLLMs. Thirdly, we survey the state-of-the-art studies of multilingual representations and investigate whether the current MLLMs can learn a universal language representation. Fourthly, we discuss bias on MLLMs, including its categories, evaluation metrics, and debiasing techniques. Finally, we discuss existing challenges and point out promising research directions of MLLMs.

연구 동기 및 목표

MLLMs에 대한 개요를 제공하고, 그 진화, 핵심 기술, 다국어 능력을 포함한다.
언어 분포와 범위를 이해하기 위해 널리 사용되는 다국어 코퍼스와 데이터 세트를 조사한다.
MLLMs에서 다국어 표현과 보편적 언어 표현의 가능성을 평가한다.
MLLMs의 편향을 유형, 평가 지표, 편향 제거 기법 등을 포함해 분석하고, 도전과제와 향후 방향을 논의한다.

제안 방법

초기 모델과 최근 MLLM 모델 및 아키텍처(인코더-전용, 디코더-전용, 인코더-디코더)를 검토하고 종합한다.
사전 학습 패러다임과 작업(LM, MLM, NSP, DAE)을 해당 손실 함수 식과 함께 요약한다.
사람의 피드백으로부터의 강화 학습(RLHF)과 이것이 MLLMs를 인간 가치에 맞추는 역할을 설명한다.
훈련 데이터의 다국어 코퍼스 분포, 언어 비율, 어족 분포를 분석한다.
다국어 표현(정적, 맥락적, 결합형)과 교차 언어 전이에 영향을 주는 요인을 조사한다.
MLLM 문헌에서의 편향 유형, 평가 데이터 세트, 편향 제거 기법을 요약한다.

실험 결과

연구 질문

RQ1현재의 MLLMs에 존재하는 편향의 유형과 편향 평가를 위한 평가 데이터 세트 및 지표가 무엇인가?
RQ2현재의 MLLMs가 언어 간 보편적 언어 표현을 학습할 수 있는가, 그리고 이 주장에 대한 지지 또는 반박 근거는 무엇인가?
RQ3다국어 코퍼스와 언어 불균형이 교차 언어 전이 성능에 어떻게 영향을 미치며, 특히 저자원 언어의 경우는?
RQ4MLLMs에 사용 가능한 편향 제거 기법은 무엇이며 모델 성능과 공정성에 어떤 영향을 미치는가?
RQ5MLLMs의 향후 연구에서 주요 도전과제와 유망한 방향은 무엇인가?

주요 결과

영어가 많은 MLLMs 학습 코퍼스를 지배하며, 여러 모델에서 종종 90%를 넘는다.
일부 모델은 더 균형 잡힌 언어 분포를 시도한다, 예를 들어 BLOOM(46개 언어)과 GLM-130B(영어/중국어의 균형).
훈련 데이터에서 인도-유럽어가 어족 차원에서 두드러지며, 중국어(시노-티베탄 계통)가 다양성 측면에서 주목할 예외이다.
교차 언어 전이 학습(CLTL)은 직접적인 교차 언어 감독 없이도 발생할 수 있으며, 관련 연구는 대표되지 않는 언어에서 놀라운 다국어 추론을 보여준다.
저자원 언어의 성능은 코퍼스 불균형과 다중언어화의 저주로 인해 여전히 도전적이며, 대상 언어에 대한 모국어 단일 언어 사전 학습 및 표적 데이터 증강과 같은 접근을 촉진한다.
본 조사는 대표적인 다국어 코퍼스와 다운스트림 벤치마크를 수록하며, 데이터 소스(Common Crawl, Wikipedia, Web 등)와 모델 간 언어 커버리지를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.