Skip to main content
QUICK REVIEW

[논문 리뷰] LAraBench: Benchmarking Arabic AI with Large Language Models

Ahmed Abdelalí, Hamdy Mubarak|arXiv (Cornell University)|2023. 05. 24.
Topic Modeling인용 수 14
한 줄 요약

LAraBench는 61개 데이터셋에 걸쳐 여러 LLM과 음성 모델을 사용하여 아랍어 NLP 및 음성 태스크를 벤치마킹하고, GPT-4의 강력한 제로샷/소수샷 성능을 드러내며 구체적으로 구문이 많은 태스크에서 SOTA와의 격차를 강조합니다; Whisper/USM은 음성 모델 중 ASR/TTS에서 뛰어납니다.

ABSTRACT

Recent advancements in Large Language Models (LLMs) have significantly influenced the landscape of language and speech research. Despite this progress, these models lack specific benchmarking against state-of-the-art (SOTA) models tailored to particular languages and tasks. LAraBench addresses this gap for Arabic Natural Language Processing (NLP) and Speech Processing tasks, including sequence tagging and content classification across different domains. We utilized models such as GPT-3.5-turbo, GPT-4, BLOOMZ, Jais-13b-chat, Whisper, and USM, employing zero and few-shot learning techniques to tackle 33 distinct tasks across 61 publicly available datasets. This involved 98 experimental setups, encompassing ~296K data points, ~46 hours of speech, and 30 sentences for Text-to-Speech (TTS). This effort resulted in 330+ sets of experiments. Our analysis focused on measuring the performance gap between SOTA models and LLMs. The overarching trend observed was that SOTA models generally outperformed LLMs in zero-shot learning, with a few exceptions. Notably, larger computational models with few-shot learning techniques managed to reduce these performance gaps. Our findings provide valuable insights into the applicability of LLMs for Arabic NLP and speech processing tasks.

연구 동기 및 목표

  • MSA 및 방언 아랍어에서 영어 벤치마크와 동등한 수준으로 LLM의 아랍어 NLP 및 음성 태스크 역량을 평가한다.
  • 상용 및 공개 LLM의 제로샷 및 소수샷 성능을 다양한 태스크 그룹에서 SOTA 모델과 비교 평가한다.
  • 아랍어 LLM 벤치마킹에서 방언 간 격차, 환각 위험 및 데이터 오염 우려를 조사한다.
  • 확장 가능한 아랍어 LLM 벤치마킹을 위한 공개 리소스와 프레임워크(LLMeBench)를 제공한다.

제안 방법

  • NLP 및 음성 태스크를 포괄하는 9개 태스크 그룹에 걸친 61개 공개 Arabic 데이터셋을 벤치마킹한다.
  • NLP 태스크에서 제로샷 및 소수샷 설정으로 GPT-3.5-Turbo, GPT-4, BLOOMZ, 및 Jais-13b-chat을 비교한다; 음성 태스크는 Whisper, USM 및 Amazon Polly를 평가한다.
  • 프롬프트 생성과 후처리를 사용하여 LLM 출력과 골드 라벨을 일치시키고; MMR 선택 예시를 통해 제한된 소수샷 프롬프트(3-shot)를 적용한다.
  • NER 태그 재매핑, POS 태그 일반화 등과 같은 태스크 출력에 대한 후처리 매핑 및 도메인별 ASR 정규화를 포함한다.
  • LSTM/CRF/GRU/SVM 및 아랍어 다국어 트랜스포머로 구축된 SOTA 벤치마크와 비교 평가한다; 표준 지표(Acc, F1, WER, MOS 등)로 결과를 분석한다.

실험 결과

연구 질문

  • RQ1작업별 특화 튜닝 없이 제로샷 설정에서 LLM이 아랍어 NLP 및 음성 태스크를 효과적으로 수행할 수 있는가?
  • RQ2제로샷 및 소수샷 설정에서 난이도가 다른 태스크 간 성능 차이와 MSA와 방언 간 차이가 어떻게 나타나는가?
  • RQ3LLMs가 SOTA 방법에 얼마나 근접했으며, 공개 모델이 프롬프팅과 미세조정을 통해 상용 클로즈드 모델에 근접하는가?

주요 결과

  • GPT-4는 제로샷에서 대부분의 NLP 태스크에서 다른 모델을 일반적으로 능가하지만, 여러 태스크에서 여전히 SOTA까지의 큰 격차가 남아 있다.
  • GPT-4는 소수샷 설정에서 SOTA와의 격차를 줄이며, 의미론적 및 QA 태스크에서 뚜렷한 이점을 보인다.
  • MSA vs 방언 아랍어는 LLM에 더 큰 성능 차이를 보이며, 방언 커버리지의 난관을 시사한다.
  • Whisper/USM은 강력한 ASR 성능을 보여주며, USM은 SOTA에 근접하고 코드 전환 처리도 더 잘한다; Whisper를 2시간의 데이터로 미세조정하면 격차가 줄어든다.
  • 개방형 모델(BLOOMZ, 오픈 Whisper 변형)은 클로즈드 모델에 비해 성능이 떨어지며, 프롬프트 및 후처리의 중요성을 부각시킨다.
  • GPT-4는 제로/소수샷 설정에서 다중 태스크 아랍어 모델로서 잠재력을 보이지만, 시퀀스 태깅은 여전히 도전적이며 일부 데이터셋에서 환각 문제가 발생하기 쉽다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.