Skip to main content
QUICK REVIEW

[論文レビュー] Binary Token-Level Classification with DeBERTa for All-Type MWE Identification: A Lightweight Approach with Linguistic Enhancement

Diego Rossini, Lonneke van der Plas|arXiv (Cornell University)|Jan 27, 2026
Natural Language Processing Techniques被引用数 0
ひとこと要約

この論文は、MWE識別を二値トークンレベルの START/END/INSIDE分類として再定義し、DeBERTa-v3-largeを用い、言語特徴とデータ拡張を加えることで、CoAMでSOTAのF1(69.8%)を達成し、STREUSLEへの良好な一般化(78.9%)を示し、巨大LLMよりはるかに少ないパラメータで動作します。

ABSTRACT

We present a comprehensive approach for multiword expression (MWE) identification that combines binary token-level classification, linguistic feature integration, and data augmentation. Our DeBERTa-v3-large model achieves 69.8% F1 on the CoAM dataset, surpassing the best results (Qwen-72B, 57.8% F1) on this dataset by 12 points while using 165x fewer parameters. We achieve this performance by (1) reformulating detection as binary token-level START/END/INSIDE classification rather than span-based prediction, (2) incorporating NP chunking and dependency features that help discontinuous and NOUN-type MWEs identification, and (3) applying oversampling that addresses severe class imbalance in the training data. We confirm the generalization of our method on the STREUSLE dataset, achieving 78.9% F1. These results demonstrate that carefully designed smaller models can substantially outperform LLMs on structured NLP tasks, with important implications for resource-constrained deployments.

研究の動機と目的

  • すべてのタイプのMWE識別を、動詞性MWEsを超え、従来のスパンベースの枠組みに縛られずに動機づける。
  • 各トークンに対して START/END/INSIDE を予測する二値トークンレベルの定式化を提案し、MWEsを識別する。
  • 境界検出と非連続MWE検出を改善するために、言語特徴(NPチャンク化、依存パス)を統合する。
  • データ不均衡に対処するデータ拡張戦略を評価し、データセット間の一般化を検討する。

提案手法

  • MWE検出を各トークンについて START、END、INSIDE の3つの独立した二値予測として再定式化する。
  • トークンレベルの START/END 確率から候補スパンを再構成し、幅と内部トークンの制約を課してMWEスパンを表現する。
  • NPチャンク埋め込みと依存パス特徴を追加し、名詞性および非連続MWEsを捉える。
  • 過サンプリングと語彙置換をデータ拡張として適用し、データサイズに基づいて最適戦略をデatasetごとに選択する。
  • CoAMとSTREUSLEの両方で、スパンベースのベースライン、二値トークンレベルモデル、言語的に強化したバージョンなどのモデル変種を比較する。
Figure 1: Learning curves for DLT+lo: training loss decreases while development F1 plateaus at epoch 8 (approximately 0.74), triggering early stopping. The initial fluctuation (epochs 2-3) reflects the model adapting to the challenging task of distinguishing genuine MWEs from compositional phrases.
Figure 1: Learning curves for DLT+lo: training loss decreases while development F1 plateaus at epoch 8 (approximately 0.74), triggering early stopping. The initial fluctuation (epochs 2-3) reflects the model adapting to the challenging task of distinguishing genuine MWEs from compositional phrases.

実験結果

リサーチクエスチョン

  • RQ1二値トークンレベル予測(START/END/INSIDE)は、すべてのMWEタイプに対してスパンベースのMWE識別を凌ぐことができるか。
  • RQ2言語特徴(NPチャンク、依存パス)は、境界検出と非連続MWEの recalling をどの程度改善するか。
  • RQ3データ拡張はクラス不均衡を緩和し、小規模データセットと大規模データセットの一般化を改善するか。
  • RQ4CoAMのタイプをSTREUSLE互換カテゴリへマッピングした後、どれだけ方法がSTREUSLEへ転移するか。

主な発見

  • 二値トークンレベルアプローチは、スパンベース予測に対して大幅な改善を示し、CoAMでF1を大幅に向上させる。
  • Disentangled attention(DeBERTa-v3-large)は、特に非連続性のMWE検出で、基準の大規模モデルを上回る。
  • 言語特徴は、一貫してRecallを向上させ、特に非連続MWEsに有効だが、データセットのサイズや拡張戦略により効果が異なる。
  • データ拡張は有効だが、最適戦略はデータセットサイズ次第:CoAM(小規模データ)ではオーバーサンプリングが有利、STREUSLEの大規模データでは語彙置換が有利。全体として、モデルはCoAMで69.8%のF1、STREUSLEで78.9%のF1を達成。
  • 最良のCoAMモデル(DLT+lo)は69.8%のF1に到達し、パラメータ数が大規模モデルより大幅に少ない状態でQwen-72Bを12ポイント上回る。最良のSTREUSLEモデル(DBT+la)は78.9%のF1。
  • 非連続MWEのrecallは顕著に改善(CoAMの最良モデルで34.9%)するが、依然として難しい領域であり(非連続F1は約29.7%程度)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。