QUICK REVIEW

[논문 리뷰] Automated Essay Scoring based on Two-Stage Learning

Jiawei Liu, Yang Xu|arXiv (Cornell University)|2019. 01. 23.

Adversarial Robustness in Machine Learning참고 문헌 16인용 수 45

한 줄 요약

논문은 의미론적 신호, 일관성 신호, 프롬프트 관련 신호를 깊은 모델의 신호와 수작업 특징과 결합한 Two-Stage Learning Framework(TSLF)를 제안하고, 최종 점수 산정에는 XGBoost를 사용하여 ASAP에서 적대적 입력에 대한 강력한 강건성을 달성한다는 것을 제안한다.

ABSTRACT

Current state-of-art feature-engineered and end-to-end Automated Essay Score (AES) methods are proven to be unable to detect adversarial samples, e.g. the essays composed of permuted sentences and the prompt-irrelevant essays. Focusing on the problem, we develop a Two-Stage Learning Framework (TSLF) which integrates the advantages of both feature-engineered and end-to-end AES models. In experiments, we compare TSLF against a number of strong baselines, and the results demonstrate the effectiveness and robustness of our models. TSLF surpasses all the baselines on five-eighths of prompts and achieves new state-of-the-art average performance when without negative samples. After adding some adversarial essays to the original datasets, TSLF outperforms the feature-engineered and end-to-end baselines to a great extent, and shows great robustness.

연구 동기 및 목표

AES를 개선하기 위해 수작업 특징과 깊은 의미 표현을 함께 활용하는 동기 부여.
단어 순서 바꾼 문단 및 프롬프트와 무관한 에세이 등 적대적 AES 입력 탐지.
1단계 점수와 특징 엔지니어링 특징을 부스팅 모델에 융합하여 로버스트성과 정확도 향상

제안 방법

사전 학습된 BERT 모델로 문장 임베딩을 유도하고 끝-전 레이어(hidden states) 평균으로 문장 벡터를 계산한다.
Stage 1은 LSTM 기반 인코더를 사용하여 의미 점수 Se, 일관성 점수 Ce, 프롬프트 관련 점수 Pe의 세 가지 점수를 MSE 손실로 학습한다.
Stage 2는 Se, Ce, Pe를 수작업 특징과 결합하고 이를 XGBoost 회귀 모델에 입력하여 최종 점수를 산출한다.
문법 오류 수정(GEC) 및 맞춤법 검사 등을 수작업 특징 파이프라인의 일부로 도입한다.
학습을 위해 ASAP 점수를 (0,1)로 정규화하고 테스트 시 예측값을 원래 범위로 재스케일한다.
Stage-1 구성요소는 Adam으로 학습하고 부스팅 단계에서는 이른 중지를 적용한다.

실험 결과

연구 질문

RQ1깊이가 있는 인코딩 피처와 수작업 피처를 통합하는 것이 순수하게 엔드-투-엔드 또는 순수 피처 기반 방법보다 AES 성능을 향상시킬 수 있는가?
RQ2일관성 및 프롬프트 관련 신호가 문단 순서를 바꾼 적대적 입력이나 프롬프트와 무관한 에세이를 탐지할 수 있는가?
RQ3Se, Ce, Pe와 수작업 피처를 부스팅 모델로 결합하면 적대적 조건에서 로버스트한 성능을 보이는가?

주요 결과

모델	prompt1	prompt2	prompt3	prompt4	prompt5	prompt6	prompt7	prompt8	평균
EASE(SVR)	0.781	0.621	0.630	0.749	0.782	0.771	0.727	0.534	0.699
EASE(BLRR)	0.761	0.606	0.621	0.742	0.784	0.775	0.730	0.617	0.705
CNN	0.804	0.656	0.637	0.762	0.752	0.765	0.750	0.680	0.726
LSTM	0.808	0.697	0.689	0.805	0.818	0.827	0.811	0.598	0.756
CNN+LSTM	0.821	0.688	0.694	0.805	0.807	0.819	0.808	0.644	0.761
TSLF-1	0.757	0.698	0.725	0.796	0.810	0.783	0.727	0.544	0.730
TSLF-2	0.808	0.718	0.693	0.698	0.771	0.720	0.722	0.616	0.718
TSLF-ALL	0.852	0.736	0.731	0.801	0.823	0.792	0.762	0.684	0.773

TSLF-ALL은 8개의 프롬프트 중 5개에서 베이스라인보다 우수하며, 적대적 샘플이 없는 ASAP에서 평균 성능이 가장 좋다.
적대적 샘플이 추가될 때도 일관성 및 프롬프트 관련 신호로 인해 TSLF-ALL이 베이스라인보다 더 로버스트하다.
변형 실험에서 LSTM 기반 점수의 마지막 은닉 상태가 평균 은닉 상태보다 더 나은 성능을 보였다.
GEC 보조 문법 특징 및 광범위한 수작업 특징은 철자 검사뿐만 아니라 AES의 효과를 향상시킨다.
적대적 입력과 함께 엔드-투-엔드 및 피처 기반 베이스라인은 성능을 유지하지 못하는 반면, TSLF-ALL은 강한 강건성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.