Skip to main content
QUICK REVIEW

[論文レビュー] Automated Essay Scoring based on Two-Stage Learning

Jiawei Liu, Yang Xu|arXiv (Cornell University)|Jan 23, 2019
Adversarial Robustness in Machine Learning参考文献 16被引用数 45
ひとこと要約

本論文は、Two-Stage Learning Framework (TSLF) を提案します。深層モデルの semantic, coherence, および prompt-relevance signals を handcrafted features と組み合わせ、最終スコアリングに XGBoost を用いることで、ASAP における敵対的入力に対して強い頑健性を発揮します。

ABSTRACT

Current state-of-art feature-engineered and end-to-end Automated Essay Score (AES) methods are proven to be unable to detect adversarial samples, e.g. the essays composed of permuted sentences and the prompt-irrelevant essays. Focusing on the problem, we develop a Two-Stage Learning Framework (TSLF) which integrates the advantages of both feature-engineered and end-to-end AES models. In experiments, we compare TSLF against a number of strong baselines, and the results demonstrate the effectiveness and robustness of our models. TSLF surpasses all the baselines on five-eighths of prompts and achieves new state-of-the-art average performance when without negative samples. After adding some adversarial essays to the original datasets, TSLF outperforms the feature-engineered and end-to-end baselines to a great extent, and shows great robustness.

研究の動機と目的

  • handcrafted features と deep semantic representations の両方を活用して AES を改善する動機づけ。
  • 段落の並べ替えやプロンプトと 無関係なエッセイ など、 adversarial AES 入力を検出する。
  • ステージ1 のスコアと feature-engineered features を boosting モデルで結合して、頑健性と精度を向上させる。

提案手法

  • 事前学習済み BERT モデルを用いて文埋め込みを導出し、 penultimate-layer の隠れ状態を平均化して文ベクトルを計算する。
  • Stage 1 では LSTM ベースのエンコーダを用いて semantic score Se、coherence score Ce、prompt-relevant score Pe の三つのスコアを計算し、それぞれ MSE ロスで学習する。
  • Stage 2 では Se、Ce、Pe を handcrafted features と結合し、それらを XGBoost 回帰モデルに入力して最終スコアを出力する。
  • Handcrafted feature パイプラインの一部として Grammar Error Correction (GEC) と Spell checking を導入する。
  • 訓練時には ASAP スコアを (0,1) に正規化し、テスト時には予測値を元の範囲へスケールバックする。
  • stage-one コンポーネントには Adam を用いて学習し、 boosting stage には early stopping を適用する。

実験結果

リサーチクエスチョン

  • RQ1深層エンコード特徴と handcrafted features を統合することで、完全にエンドツーエンドまたは純粋な特徴ベースの方法より AES の性能を改善できるか。
  • RQ2 coherence および prompt-relevance シグナルは permuted paragraphs や prompt-irrelevant essays などの adversarial 入力を検出できるか。
  • RQ3 Se、Ce、Pe を handcrafted features と boosting モデルで結合することで、 adversarial 条件下で頑健な性能を示すか。

主な発見

Modelprompt1prompt2prompt3prompt4prompt5prompt6prompt7prompt8Average
EASE(SVR)0.7810.6210.6300.7490.7820.7710.7270.5340.699
EASE(BLRR)0.7610.6060.6210.7420.7840.7750.7300.6170.705
CNN0.8040.6560.6370.7620.7520.7650.7500.6800.726
LSTM0.8080.6970.6890.8050.8180.8270.8110.5980.756
CNN+LSTM0.8210.6880.6940.8050.8070.8190.8080.6440.761
TSLF-10.7570.6980.7250.7960.8100.7830.7270.5440.730
TSLF-20.8080.7180.6930.6980.7710.7200.7220.6160.718
TSLF-ALL0.8520.7360.7310.8010.8230.7920.7620.6840.773
  • TSLF-ALL は eight prompts のうち五つでベースラインを上回り、 adversarial サンプルなしで ASAP で最良の平均性能を達成する。
  • TSLF-ALL は coherence および prompt-relevant signals のため、 adversarial サンプルが追加されてもベースラインより頑健性を維持する。
  • Ablation では LSTM ベースのスコアの最後の隠れ状態が平均隠れ状態より良い性能を示す。
  • GEC 付き文法特徴と包括的な handcrafted features は、 spell-check のみより AES の有効性を高める。
  • adversarial 入力下では end-to-end および feature-based ベースラインは性能を維持できない一方、TSLF-ALL は強い頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。