QUICK REVIEW

[論文レビュー] Binary Token-Level Classification with DeBERTa for All-Type MWE Identification: A Lightweight Approach with Linguistic Enhancement

Diego Rossini, Lonneke van der Plas|arXiv (Cornell University)|Jan 27, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

この論文は、MWE識別を二値トークンレベルの START/END/INSIDE分類として再定義し、DeBERTa-v3-largeを用い、言語特徴とデータ拡張を加えることで、CoAMでSOTAのF1（69.8%）を達成し、STREUSLEへの良好な一般化（78.9%）を示し、巨大LLMよりはるかに少ないパラメータで動作します。

ABSTRACT

We present a comprehensive approach for multiword expression (MWE) identification that combines binary token-level classification, linguistic feature integration, and data augmentation. Our DeBERTa-v3-large model achieves 69.8% F1 on the CoAM dataset, surpassing the best results (Qwen-72B, 57.8% F1) on this dataset by 12 points while using 165x fewer parameters. We achieve this performance by (1) reformulating detection as binary token-level START/END/INSIDE classification rather than span-based prediction, (2) incorporating NP chunking and dependency features that help discontinuous and NOUN-type MWEs identification, and (3) applying oversampling that addresses severe class imbalance in the training data. We confirm the generalization of our method on the STREUSLE dataset, achieving 78.9% F1. These results demonstrate that carefully designed smaller models can substantially outperform LLMs on structured NLP tasks, with important implications for resource-constrained deployments.

研究の動機と目的

すべてのタイプのMWE識別を、動詞性MWEsを超え、従来のスパンベースの枠組みに縛られずに動機づける。
各トークンに対して START/END/INSIDE を予測する二値トークンレベルの定式化を提案し、MWEsを識別する。
境界検出と非連続MWE検出を改善するために、言語特徴（NPチャンク化、依存パス）を統合する。
データ不均衡に対処するデータ拡張戦略を評価し、データセット間の一般化を検討する。

提案手法

MWE検出を各トークンについて START、END、INSIDE の3つの独立した二値予測として再定式化する。
トークンレベルの START/END 確率から候補スパンを再構成し、幅と内部トークンの制約を課してMWEスパンを表現する。
NPチャンク埋め込みと依存パス特徴を追加し、名詞性および非連続MWEsを捉える。
過サンプリングと語彙置換をデータ拡張として適用し、データサイズに基づいて最適戦略をデatasetごとに選択する。
CoAMとSTREUSLEの両方で、スパンベースのベースライン、二値トークンレベルモデル、言語的に強化したバージョンなどのモデル変種を比較する。

Figure 1: Learning curves for DLT+lo: training loss decreases while development F1 plateaus at epoch 8 (approximately 0.74), triggering early stopping. The initial fluctuation (epochs 2-3) reflects the model adapting to the challenging task of distinguishing genuine MWEs from compositional phrases.

実験結果

リサーチクエスチョン

RQ1二値トークンレベル予測（START/END/INSIDE）は、すべてのMWEタイプに対してスパンベースのMWE識別を凌ぐことができるか。
RQ2言語特徴（NPチャンク、依存パス）は、境界検出と非連続MWEの recalling をどの程度改善するか。
RQ3データ拡張はクラス不均衡を緩和し、小規模データセットと大規模データセットの一般化を改善するか。
RQ4CoAMのタイプをSTREUSLE互換カテゴリへマッピングした後、どれだけ方法がSTREUSLEへ転移するか。

主な発見

二値トークンレベルアプローチは、スパンベース予測に対して大幅な改善を示し、CoAMでF1を大幅に向上させる。
Disentangled attention（DeBERTa-v3-large）は、特に非連続性のMWE検出で、基準の大規模モデルを上回る。
言語特徴は、一貫してRecallを向上させ、特に非連続MWEsに有効だが、データセットのサイズや拡張戦略により効果が異なる。
データ拡張は有効だが、最適戦略はデータセットサイズ次第：CoAM（小規模データ）ではオーバーサンプリングが有利、STREUSLEの大規模データでは語彙置換が有利。全体として、モデルはCoAMで69.8%のF1、STREUSLEで78.9%のF1を達成。
最良のCoAMモデル（DLT+lo）は69.8%のF1に到達し、パラメータ数が大規模モデルより大幅に少ない状態でQwen-72Bを12ポイント上回る。最良のSTREUSLEモデル（DBT+la）は78.9%のF1。
非連続MWEのrecallは顕著に改善（CoAMの最良モデルで34.9%）するが、依然として難しい領域であり（非連続F1は約29.7%程度）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。