Skip to main content
QUICK REVIEW

[논문 리뷰] Automated Essay Scoring based on Two-Stage Learning

Jiawei Liu, Yang Xu|arXiv (Cornell University)|2019. 01. 23.
Adversarial Robustness in Machine Learning참고 문헌 16인용 수 45
한 줄 요약

논문은 의미론적 신호, 일관성 신호, 프롬프트 관련 신호를 깊은 모델의 신호와 수작업 특징과 결합한 Two-Stage Learning Framework(TSLF)를 제안하고, 최종 점수 산정에는 XGBoost를 사용하여 ASAP에서 적대적 입력에 대한 강력한 강건성을 달성한다는 것을 제안한다.

ABSTRACT

Current state-of-art feature-engineered and end-to-end Automated Essay Score (AES) methods are proven to be unable to detect adversarial samples, e.g. the essays composed of permuted sentences and the prompt-irrelevant essays. Focusing on the problem, we develop a Two-Stage Learning Framework (TSLF) which integrates the advantages of both feature-engineered and end-to-end AES models. In experiments, we compare TSLF against a number of strong baselines, and the results demonstrate the effectiveness and robustness of our models. TSLF surpasses all the baselines on five-eighths of prompts and achieves new state-of-the-art average performance when without negative samples. After adding some adversarial essays to the original datasets, TSLF outperforms the feature-engineered and end-to-end baselines to a great extent, and shows great robustness.

연구 동기 및 목표

  • AES를 개선하기 위해 수작업 특징과 깊은 의미 표현을 함께 활용하는 동기 부여.
  • 단어 순서 바꾼 문단 및 프롬프트와 무관한 에세이 등 적대적 AES 입력 탐지.
  • 1단계 점수와 특징 엔지니어링 특징을 부스팅 모델에 융합하여 로버스트성과 정확도 향상

제안 방법

  • 사전 학습된 BERT 모델로 문장 임베딩을 유도하고 끝-전 레이어(hidden states) 평균으로 문장 벡터를 계산한다.
  • Stage 1은 LSTM 기반 인코더를 사용하여 의미 점수 Se, 일관성 점수 Ce, 프롬프트 관련 점수 Pe의 세 가지 점수를 MSE 손실로 학습한다.
  • Stage 2는 Se, Ce, Pe를 수작업 특징과 결합하고 이를 XGBoost 회귀 모델에 입력하여 최종 점수를 산출한다.
  • 문법 오류 수정(GEC) 및 맞춤법 검사 등을 수작업 특징 파이프라인의 일부로 도입한다.
  • 학습을 위해 ASAP 점수를 (0,1)로 정규화하고 테스트 시 예측값을 원래 범위로 재스케일한다.
  • Stage-1 구성요소는 Adam으로 학습하고 부스팅 단계에서는 이른 중지를 적용한다.

실험 결과

연구 질문

  • RQ1깊이가 있는 인코딩 피처와 수작업 피처를 통합하는 것이 순수하게 엔드-투-엔드 또는 순수 피처 기반 방법보다 AES 성능을 향상시킬 수 있는가?
  • RQ2일관성 및 프롬프트 관련 신호가 문단 순서를 바꾼 적대적 입력이나 프롬프트와 무관한 에세이를 탐지할 수 있는가?
  • RQ3Se, Ce, Pe와 수작업 피처를 부스팅 모델로 결합하면 적대적 조건에서 로버스트한 성능을 보이는가?

주요 결과

모델prompt1prompt2prompt3prompt4prompt5prompt6prompt7prompt8평균
EASE(SVR)0.7810.6210.6300.7490.7820.7710.7270.5340.699
EASE(BLRR)0.7610.6060.6210.7420.7840.7750.7300.6170.705
CNN0.8040.6560.6370.7620.7520.7650.7500.6800.726
LSTM0.8080.6970.6890.8050.8180.8270.8110.5980.756
CNN+LSTM0.8210.6880.6940.8050.8070.8190.8080.6440.761
TSLF-10.7570.6980.7250.7960.8100.7830.7270.5440.730
TSLF-20.8080.7180.6930.6980.7710.7200.7220.6160.718
TSLF-ALL0.8520.7360.7310.8010.8230.7920.7620.6840.773
  • TSLF-ALL은 8개의 프롬프트 중 5개에서 베이스라인보다 우수하며, 적대적 샘플이 없는 ASAP에서 평균 성능이 가장 좋다.
  • 적대적 샘플이 추가될 때도 일관성 및 프롬프트 관련 신호로 인해 TSLF-ALL이 베이스라인보다 더 로버스트하다.
  • 변형 실험에서 LSTM 기반 점수의 마지막 은닉 상태가 평균 은닉 상태보다 더 나은 성능을 보였다.
  • GEC 보조 문법 특징 및 광범위한 수작업 특징은 철자 검사뿐만 아니라 AES의 효과를 향상시킨다.
  • 적대적 입력과 함께 엔드-투-엔드 및 피처 기반 베이스라인은 성능을 유지하지 못하는 반면, TSLF-ALL은 강한 강건성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.