QUICK REVIEW

[論文レビュー] On the (In)Effectiveness of Large Language Models for Chinese Text Correction

Yinghui Li, Haojing Huang|arXiv (Cornell University)|Jul 18, 2023

Topic Modeling被引用数 17

ひとこと要約

要約: 本論文は中国語テキスト修正（CGECとCSC）におけるLLMsの評価を行い、自動評価指標ではファインチューロン済みの小型モデルと比較して劣ることを示す一方で、タスク固有のプロンプト、文脈内学習、そして指示学習の監督付き微調整によって改善が見られること、タスクとドメインによって顕著な差があることを示す。

ABSTRACT

Recently, the development and progress of Large Language Models (LLMs) have amazed the entire Artificial Intelligence community. Benefiting from their emergent abilities, LLMs have attracted more and more researchers to study their capabilities and performance on various downstream Natural Language Processing (NLP) tasks. While marveling at LLMs' incredible performance on all kinds of tasks, we notice that they also have excellent multilingual processing capabilities, such as Chinese. To explore the Chinese processing ability of LLMs, we focus on Chinese Text Correction, a fundamental and challenging Chinese NLP task. Specifically, we evaluate various representative LLMs on the Chinese Grammatical Error Correction (CGEC) and Chinese Spelling Check (CSC) tasks, which are two main Chinese Text Correction scenarios. Additionally, we also fine-tune LLMs for Chinese Text Correction to better observe the potential capabilities of LLMs. From extensive analyses and comparisons with previous state-of-the-art small models, we empirically find that the LLMs currently have both amazing performance and unsatisfactory behavior for Chinese Text Correction. We believe our findings will promote the landing and application of LLMs in the Chinese NLP community.

研究の動機と目的

大規模言語モデル（LLMs）の中国語テキスト修正タスク（CGECとCSC）に対する能力を評価する。
タスク固有のプロンプトと文脈内学習がLLMの性能に与える影響を調査する。
監督付き指示学習（全パラメータ微調整 FT と LoRA）を用いてLLMの修正能力を強化する。
複数の中国語データセット・ドメインにわたり、LLMsと従来のファインチューニング済み小型モデルを比較する。

提案手法

LLMsを正しく修正者として最小変更制約の下で振る舞うよう導くタスク特化プロンプトを設計する。
3つの文脈内学習戦略を評価する：ランダムな誤り例、正例＋誤例の混合、難易度の高い誤り例（BM25+ROUGE-L）。
CSC/CGECデータセットおよび追加の普遍的命令（alpaca_gpt4_data_zh）から指示調整データを作成する。
Baichuan-13B-Chatを全パラメータ微調整（FT）とLoRA（ランク分解）でファインチューニングし、パラメータ効率と性能を比較する。
CSC/CGEC評価には公的なLLMs（text-davinci-003、gpt-3.5-turbo、Vicuna、ChatGLM/ChatGLM2、Baichuan-13B-Chat）とドメイン特有のベースラインを組み合わせて使用する。
CSCとCGECデータセットの自動評価と人手評価の両方を行う。

実験結果

リサーチクエスチョン

RQ1現在のLLMsはファインチューニング済みの小型モデルと比較して中国語のスペリングエラー（CSC）と文法エラー（CGEC）を修正する能力がどれほどか。
RQ2慎重に設計されたタスクプロンプトと文脈内学習戦略は、LLMベースの修正結果を意味itionallyに改善するか。
RQ3監督付き指示調整（FT vs LoRA）とデータ構成（数ショット、ドメインデータ、一般データ）がCSC/CGECの性能に与える影響はどうか。
RQ4LLMsは多様なドメインとネイティブ対非ネイティブの中国語データセットでどのように性能を発揮するか、自動指標は人間評価とどれくらい一致するか。

主な発見

LLMsは強い可能性を示す一方で、データセットと指標全体でファインチューニング済みの小型モデルと比較すると中国語テキスト修正には依然として大きなギャップがある。
設計されたプロンプトと文脈内戦略はCSC/CGECの性能を substantial に改善し、難サンプルと正例＋誤例の混合がしばしば最良の結果を生む。
全パラメータ微調整は言語能力と一貫性を低下させる可能性があり、LoRAはCGECタスクとデータ制約下でより良い性能を示すことが多い。データの品質と構成が重要。
ドメイン適応効果はモデルとタスクで異なる；GPT-3.5-turboはドメイン特定データでtext-davinci-003を上回ることがある一方で、davinci-003は一般テキストで優れる場合がある。
人手評価は自動指標がLLMsの修正能力を完全には反映しない可能性を示しており、LLMsは自動スコアが示すよりも従来モデルに近い場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。