[论文解读] On the (In)Effectiveness of Large Language Models for Chinese Text Correction
本文在中文文本纠错(CGEC 和 CSC)上评估了大语言模型(LLMs),结果显示在自动评测指标上它们的表现不如经微调的小模型,但通过任务特定提示、上下文学习和受监督的指令微调可以提升表现,在任务和领域之间存在显著差异。
Recently, the development and progress of Large Language Models (LLMs) have amazed the entire Artificial Intelligence community. Benefiting from their emergent abilities, LLMs have attracted more and more researchers to study their capabilities and performance on various downstream Natural Language Processing (NLP) tasks. While marveling at LLMs' incredible performance on all kinds of tasks, we notice that they also have excellent multilingual processing capabilities, such as Chinese. To explore the Chinese processing ability of LLMs, we focus on Chinese Text Correction, a fundamental and challenging Chinese NLP task. Specifically, we evaluate various representative LLMs on the Chinese Grammatical Error Correction (CGEC) and Chinese Spelling Check (CSC) tasks, which are two main Chinese Text Correction scenarios. Additionally, we also fine-tune LLMs for Chinese Text Correction to better observe the potential capabilities of LLMs. From extensive analyses and comparisons with previous state-of-the-art small models, we empirically find that the LLMs currently have both amazing performance and unsatisfactory behavior for Chinese Text Correction. We believe our findings will promote the landing and application of LLMs in the Chinese NLP community.
研究动机与目标
- 评估大语言模型(LLMs)在中文文本纠错任务(CGEC 和 CSC)上的能力。
- 研究任务特定提示和上下文学习如何影响 LLM 的表现。
- 探索受监督的指令微调(全参数微调 vs LoRA)以提升 LLM 的纠错能力。
- 在多个中文数据集和领域中,将 LLM 与传统的微调小模型进行对比。
提出的方法
- 设计任务特定的提示,使 LLM 在尽量少改动的约束下作为纠错器运行的任务特定提示。
- 评估三种上下文学习策略:随机错误样本、正确+错误样本,以及困难错误样本(BM25+ROUGE-L)。
- 从 CSC/CGEC 数据集以及额外的通用指令集(alpaca_gpt4_data_zh)创建指令微调数据。
- 对 Baichuan-13B-Chat 进行全参数微调(FT)和 LoRA(秩分解)微调,以评估参数效率与性能的权衡。
- 使用公开的多种 LLM(text-davinci-003、gpt-3.5-turbo、Vicuna、ChatGLM/ChatGLM2、Baichuan-13B-Chat)及领域特定基线模型进行 CSC/CGEC 评估。
- 在 CSC 和 CGEC 数据集上进行自动评估和人工评估。
实验结果
研究问题
- RQ1在纠正中文拼写错误(CSC)和语法错误(CGEC)方面,当前的 LLMs 相较于微调的小模型有多大能力?
- RQ2经过精心设计的任务提示和上下文学习策略是否能显著提升基于 LLM 的纠错效果?
- RQ3受监督的指令微调(FT vs LoRA)以及数据组成(少量示例、领域数据、通用数据)对 CSC/CGEC 的表现有何影响?
- RQ4LLMs 在多样化领域以及本地化中文与非母语中文数据集上的表现如何,自动评测指标是否与人工评估一致?
主要发现
- LLMs 展现出强大的潜力,但在中文文本纠错方面与微调的小模型相比,在跨数据集和指标上仍存在显著差距。
- 设计良好的提示和上下文策略能显著提升 CSC/CGEC 的表现,困难样本和正确+错误样本的混合通常能带来最佳结果。
- 全参数微调可能降低语言能力和一致性,而 LoRA 在 CGEC 任务与数据受限的情况下往往表现更好;微调数据的质量和组成至关重要。
- 领域自适应效果因模型与任务而异;在领域特定数据上,GPT-3.5-turbo 有时超过 text-davinci-003,而 davinci-003 可能在通用文本上表现更出色。
- 人工评估表明,自动评测指标可能不能充分反映 LLM 的纠错能力,且 LLM 的表现可能比自动分数所显示的更接近传统模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。