QUICK REVIEW

[論文レビュー] CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic Languages

Luka Terčon, Nikola Ljubešić|arXiv (Cornell University)|Aug 8, 2023

Natural Language Processing Techniques被引用数 13

ひとこと要約

この論文は Stanza を基盤とした CLASSLA-Stanza を提案し、改善点、学習手順、複数言語とタスクにわたる評価を詳述する South Slavic NLP パイプラインである。

ABSTRACT

We present CLASSLA-Stanza, a pipeline for automatic linguistic annotation of the South Slavic languages, which is based on the Stanza natural language processing pipeline. We describe the main improvements in CLASSLA-Stanza with respect to Stanza, and give a detailed description of the model training process for the latest 2.1 release of the pipeline. We also report performance scores produced by the pipeline for different languages and varieties. CLASSLA-Stanza exhibits consistently high performance across all the supported languages and outperforms or expands its parent pipeline Stanza at all the supported tasks. We also present the pipeline's new functionality enabling efficient processing of web data and the reasons that led to its implementation.

研究の動機と目的

CLASSLA-Stanza が Stanza とどのように異なるか、これらの相違が South Slavic 言語のパフォーマンス向上につながる理由を体系的に概説する。
2.1 リリースで使用された訓練データ、データ拡張、言語固有の適応を説明する。
タスクと言語全体でのモデル訓練ワークフローと評価の設定を説明する。

提案手法

外部トークナイザを用いた規則ベースのトークン化アプローチを採用する（スロベニア標準語には Obeliks、非標準スロベニア語および他言語には ReLDI）。
形態素統語タグ付けとlemmatization を制約するための外部活用形語彙を組み込み、lemmatization のために完全な形態情報を含む XPOS タグを使用する。
六つのタスク（トークン化、形態素統語タグ付け、lemmatization、依存構造解析、意味役割付与、NER）について UD および JOS 対応スキームを適用言語ごとに訓練する。
現実的な評価条件を層全体で模倣するため、検証には前トークン化済みデータと上流の自動生成注釈を使用する。
データ拡張とオーバーサンプリングを活用し、特に非標準 Var に対して堅牢性を高め、非標準データのダイアクリティクス削除を処理する。
対応する言語変種ごとに標準、非標準、ウェブの3つの処理タイプをサポートする。

Figure 1: Example of a sentence parsed with both the UD (above) and JOS (below) systems of syntactic annotation. Note that the JOS system supports multiple relations having the root element as their origin, whereas the UD annotation system only permits one relation in each sentence to originate in t

実験結果

リサーチクエスチョン

RQ1CLASSLA-Stanza は South Slavic 言語および変種全体で Stanza と比較してどのような性能差を示すか。
RQ2訓練データ戦略（拡張、オーバーサンプリング、語彙の使用）は、形態統語タグ付け、lemmatization、解析の改善においてどの程度効果をもたらすか。
RQ3スロベニア語、クロアチア語、セルビア語、北マケドニア語、ブルガリア語に対してこのパイプラインに必要な言語固有の適応は何か。
RQ4外部活用形語彙と言語規則ベースのトークナイザの包含は全体のパフォーマンスとエラーロ profiles にどのような影響を与えるか。
RQ5標準、非標準、ウェブの処理 Var は各アノテーションタスクにどのような影響を及ぼすか。

主な発見

Task	Stanza	CLASSLA-Stanza	Rel. error reduction
Sentence segmentation	0.819	0.997	98%
Tokenization	0.998	0.999	50%
Lemmatization	0.974	0.992	69%
Morphosyntactic tagging - XPOS	0.951	0.983	65%
Dependency parsing LAS	0.865	0.911	34%

CLASSLA-Stanza は評価データ上の対象タスクで Stanza より一貫して高いパフォーマンスを達成する。
SloBENCH Slovenian ベンチマークでは、CLASSLA-Stanza は Stanza に比べ文分割で最大 98% のエラー削減を達成し、他のタスクでも顕著な向上を示す。
語彙情報を用いたlemmatization と形態素統語タグ付けは精度を向上させ、スロベニア語はタグ付け時の語彙使用の恩恵を受ける。
非標準およびウェブ変種はデータ拡張と処理タイプ設定で処理され、非標準データが限られていても堅牢な性能を実現する。
積み上げ式訓練データと言語特有の拡張（例：セルビア・クロアチア語データの混合）は、形態素統語タグ付けとlemmatization の改善に寄与する。
処理タイプとトークナイザは南スラブ語の屈折形態とノイズの多いウェブテキストをより適切に扱えるよう設計されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。