Skip to main content
QUICK REVIEW

[論文レビュー] LAraBench: Benchmarking Arabic AI with Large Language Models

Ahmed Abdelalí, Hamdy Mubarak|arXiv (Cornell University)|May 24, 2023
Topic Modeling被引用数 14
ひとこと要約

LAraBench は 61 のデータセットにわたり複数の LLM と音声モデルを用いてアラビア語のNLPと音声タスクをベンチマークし、GPT-4 の強力なゼロショット/少数ショット性能を示す一方、SOTA とのギャップを特に構文重視タスクで強調し、音声モデルの Whisper/USM が ASR/TTS で優れていることを示しています。

ABSTRACT

Recent advancements in Large Language Models (LLMs) have significantly influenced the landscape of language and speech research. Despite this progress, these models lack specific benchmarking against state-of-the-art (SOTA) models tailored to particular languages and tasks. LAraBench addresses this gap for Arabic Natural Language Processing (NLP) and Speech Processing tasks, including sequence tagging and content classification across different domains. We utilized models such as GPT-3.5-turbo, GPT-4, BLOOMZ, Jais-13b-chat, Whisper, and USM, employing zero and few-shot learning techniques to tackle 33 distinct tasks across 61 publicly available datasets. This involved 98 experimental setups, encompassing ~296K data points, ~46 hours of speech, and 30 sentences for Text-to-Speech (TTS). This effort resulted in 330+ sets of experiments. Our analysis focused on measuring the performance gap between SOTA models and LLMs. The overarching trend observed was that SOTA models generally outperformed LLMs in zero-shot learning, with a few exceptions. Notably, larger computational models with few-shot learning techniques managed to reduce these performance gaps. Our findings provide valuable insights into the applicability of LLMs for Arabic NLP and speech processing tasks.

研究の動機と目的

  • LLM の能力を MS A と方言アラビア語において英語ベンチマークと同等の水準で評価する。
  • 商用およびオープン LLM のゼロショットおよび少数ショットの性能を diverse task group において SOTA モデルと比較評価する。
  • アラビア語 LLM ベンチマークにおける方言ギャップ、幻覚リスク、データ汚染の懸念を調査する。
  • 公開可能なリソースと、スケーラブルなアラビア語 LLM ベンチマークのためのフレームワーク(LLMeBench)を提供する。

提案手法

  • NLP および音声タスクの 9 のタスクグループにまたがる公開データセット 61 件をベンチマークする。
  • NLP タスクについては GPT-3.5-Turbo、GPT-4、BLOOMZ、Jais-13b-chat をゼロショットおよび少数ショット設定で比較する。音声タスクについては Whisper、USM、Amazon Polly を評価する。
  • 出力を金標準ラベルに合わせるためのプロンプティングとポスト処理を用いる。MMR 選択例による 3-shot の限定的な少数ショットプロンプトを適用する。
  • NER タグ再マッピング、POS タグ正規化、ドメイン特有の ASR 正規化など、タスク出力のポスト処理マッピングを含める。
  • LSTM/CRF/GRU/SVM およびアラビア語多言語変換モデルから構築された SOTA ベースラインと比較評価し、Acc、F1、WER、MOS などの標準指標で結果を分析する。

実験結果

リサーチクエスチョン

  • RQ1LLM はタスク固有のチューニングなしでもゼロショット設定でアラビア語 NLP と音声タスクを効果的に実行できるか。
  • RQ2ゼロショットおよび少数ショット設定で、タスクの複雑さの異なるタスク間、および MS A と方言の間で性能はどう変化するか。
  • RQ3LLM は SOTA 手法にどれだけ近づくか、オープンモデルはプロンプトとファインチューニングで商用のクローズドモデルに近づくか。

主な発見

  • GPT-4 は多くの NLP タスクにおいてゼロショットで他モデルを概して上回るが、いくつかのタスクでは SOTA へのギャップが大きい。
  • GPT-4 は少数ショット設定で SOTA へのギャップを縮め、意味論的・QA タスクで顕著な向上を示す。
  • MSA 対 方言アラビア語では LLM に対する性能ギャップが大きく、方言カバーの課題を示唆する。
  • Whisper/USM は強力な ASR 実績を示し、USM は SOTA に近づき、コードスイッチングの処理にも優れる;Whisper を 2 時間のデータでファインチューニングするとギャップを縮められる。
  • オープンモデル(BLOOMZ、オープン Whisper 変種)はクローズドモデルと比較して劣る傾向があり、プロンプトとポスト処理の重要性を強調する。
  • GPT-4 はゼロ/少数ショット設定での多タスクアラビア語モデルとしての可能性を示すが、シーケンスタグ付けは依然として難しく、いくつかのデータセットで幻覚が生じやすい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。