QUICK REVIEW

[论文解读] LAraBench: Benchmarking Arabic AI with Large Language Models

Ahmed Abdelalí, Hamdy Mubarak|arXiv (Cornell University)|May 24, 2023

Topic Modeling被引用 14

一句话总结

LAraBench 基准测试阿拉伯语 NLP 与语音任务，使用多种 LLM 与语音模型，覆盖 61 个数据集，揭示 GPT-4 在零-shot/少量-shot 的强劲表现，并凸显与 SOTA 的差距，尤其在语法密集型任务上；在语音模型中，Whisper/USM 在 ASR/TTS 方面表现出色。

ABSTRACT

Recent advancements in Large Language Models (LLMs) have significantly influenced the landscape of language and speech research. Despite this progress, these models lack specific benchmarking against state-of-the-art (SOTA) models tailored to particular languages and tasks. LAraBench addresses this gap for Arabic Natural Language Processing (NLP) and Speech Processing tasks, including sequence tagging and content classification across different domains. We utilized models such as GPT-3.5-turbo, GPT-4, BLOOMZ, Jais-13b-chat, Whisper, and USM, employing zero and few-shot learning techniques to tackle 33 distinct tasks across 61 publicly available datasets. This involved 98 experimental setups, encompassing ~296K data points, ~46 hours of speech, and 30 sentences for Text-to-Speech (TTS). This effort resulted in 330+ sets of experiments. Our analysis focused on measuring the performance gap between SOTA models and LLMs. The overarching trend observed was that SOTA models generally outperformed LLMs in zero-shot learning, with a few exceptions. Notably, larger computational models with few-shot learning techniques managed to reduce these performance gaps. Our findings provide valuable insights into the applicability of LLMs for Arabic NLP and speech processing tasks.

研究动机与目标

在 MSA 和方言阿拉伯语下，将 LLMs 在与英文基准相当的对齐下评估阿拉伯语 NLP 与语音任务的能力。
评估商业和开源 LLMs 在零-shot 和少量-shot 下的表现，与多样任务组的 SOTA 模型对比。
调查方言差异、幻觉风险，以及阿拉伯语 LLM 基准测试中的数据污染关切。
提供公开可用的资源和一个框架（LLMeBench）以实现可扩展的阿拉伯语 LLM 基准测试。

提出的方法

基准测试 61 个公开可用的阿拉伯语数据集，涵盖 9 个任务组用于 NLP 和语音任务。
比较 GPT-3.5-Turbo、GPT-4、BLOOMZ 与 Jais-13b-chat 在 NLP 任务中的零-shot 和少量-shot 设置；评估 Whisper、USM 与 Amazon Polly 在语音任务中的表现。
使用提示和后处理将 LLM 输出与黄金标签对齐；通过 MMR 选取示例进行有限的少量-shot 提示（3-shot）。
包括任务输出的后处理映射（如 NER 标签重映射、POS 标签规范化）和领域特定的 ASR 归一化。
以基于 LSTM/CRF/GRU/SVM 和阿拉伯语多语种 Transformer 构建的 SOTA 基线进行评估；并使用标准指标（Acc、F1、WER、MOS 等）分析结果。

实验结果

研究问题

RQ1LLMs 能否在零-shot 设置中在不进行任务特定调优的情况下有效完成阿拉伯语 NLP 与语音任务？
RQ2在零-shot和少量-shot设置中，随着任务复杂度的不同，以及 MSA 与方言之间，性能有何差异？
RQ3LLMs 与 SOTA 方法的接近程度如何，开放模型是否在提示和微调后接近商业化的闭源模型？

主要发现

GPT-4 通常在大多数 NLP 任务的零-shot 中优于其他模型，但在若干任务上仍存在与 SOTA 的较大差距。
GPT-4 在少量-shot 设置下缩小了与 SOTA 的差距，在语义和问答任务上有显著提升。
MSA 与方言阿拉伯语在 LLMs 的表现差距较大，表明方言覆盖存在挑战。
Whisper/USM 在 ASR 方面表现强劲，USM 与 SOTA 相当并更好地处理代码切换；用 2 小时数据微调 Whisper 可以缩小差距。
开放模型（BLOOMZ、开源 Whisper 变体）相比封闭模型表现不佳，强调提示和后处理的重要性。
GPT-4 展示了在零/少-shot 设置下作为多任务阿拉伯语模型的潜力，尽管序列标注仍具挑战性，且在某些数据集中易产生幻觉。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。