[논문 리뷰] Automated Essay Scoring based on Two-Stage Learning
논문은 의미론적 신호, 일관성 신호, 프롬프트 관련 신호를 깊은 모델의 신호와 수작업 특징과 결합한 Two-Stage Learning Framework(TSLF)를 제안하고, 최종 점수 산정에는 XGBoost를 사용하여 ASAP에서 적대적 입력에 대한 강력한 강건성을 달성한다는 것을 제안한다.
Current state-of-art feature-engineered and end-to-end Automated Essay Score (AES) methods are proven to be unable to detect adversarial samples, e.g. the essays composed of permuted sentences and the prompt-irrelevant essays. Focusing on the problem, we develop a Two-Stage Learning Framework (TSLF) which integrates the advantages of both feature-engineered and end-to-end AES models. In experiments, we compare TSLF against a number of strong baselines, and the results demonstrate the effectiveness and robustness of our models. TSLF surpasses all the baselines on five-eighths of prompts and achieves new state-of-the-art average performance when without negative samples. After adding some adversarial essays to the original datasets, TSLF outperforms the feature-engineered and end-to-end baselines to a great extent, and shows great robustness.
연구 동기 및 목표
- AES를 개선하기 위해 수작업 특징과 깊은 의미 표현을 함께 활용하는 동기 부여.
- 단어 순서 바꾼 문단 및 프롬프트와 무관한 에세이 등 적대적 AES 입력 탐지.
- 1단계 점수와 특징 엔지니어링 특징을 부스팅 모델에 융합하여 로버스트성과 정확도 향상
제안 방법
- 사전 학습된 BERT 모델로 문장 임베딩을 유도하고 끝-전 레이어(hidden states) 평균으로 문장 벡터를 계산한다.
- Stage 1은 LSTM 기반 인코더를 사용하여 의미 점수 Se, 일관성 점수 Ce, 프롬프트 관련 점수 Pe의 세 가지 점수를 MSE 손실로 학습한다.
- Stage 2는 Se, Ce, Pe를 수작업 특징과 결합하고 이를 XGBoost 회귀 모델에 입력하여 최종 점수를 산출한다.
- 문법 오류 수정(GEC) 및 맞춤법 검사 등을 수작업 특징 파이프라인의 일부로 도입한다.
- 학습을 위해 ASAP 점수를 (0,1)로 정규화하고 테스트 시 예측값을 원래 범위로 재스케일한다.
- Stage-1 구성요소는 Adam으로 학습하고 부스팅 단계에서는 이른 중지를 적용한다.
실험 결과
연구 질문
- RQ1깊이가 있는 인코딩 피처와 수작업 피처를 통합하는 것이 순수하게 엔드-투-엔드 또는 순수 피처 기반 방법보다 AES 성능을 향상시킬 수 있는가?
- RQ2일관성 및 프롬프트 관련 신호가 문단 순서를 바꾼 적대적 입력이나 프롬프트와 무관한 에세이를 탐지할 수 있는가?
- RQ3Se, Ce, Pe와 수작업 피처를 부스팅 모델로 결합하면 적대적 조건에서 로버스트한 성능을 보이는가?
주요 결과
| 모델 | prompt1 | prompt2 | prompt3 | prompt4 | prompt5 | prompt6 | prompt7 | prompt8 | 평균 |
|---|---|---|---|---|---|---|---|---|---|
| EASE(SVR) | 0.781 | 0.621 | 0.630 | 0.749 | 0.782 | 0.771 | 0.727 | 0.534 | 0.699 |
| EASE(BLRR) | 0.761 | 0.606 | 0.621 | 0.742 | 0.784 | 0.775 | 0.730 | 0.617 | 0.705 |
| CNN | 0.804 | 0.656 | 0.637 | 0.762 | 0.752 | 0.765 | 0.750 | 0.680 | 0.726 |
| LSTM | 0.808 | 0.697 | 0.689 | 0.805 | 0.818 | 0.827 | 0.811 | 0.598 | 0.756 |
| CNN+LSTM | 0.821 | 0.688 | 0.694 | 0.805 | 0.807 | 0.819 | 0.808 | 0.644 | 0.761 |
| TSLF-1 | 0.757 | 0.698 | 0.725 | 0.796 | 0.810 | 0.783 | 0.727 | 0.544 | 0.730 |
| TSLF-2 | 0.808 | 0.718 | 0.693 | 0.698 | 0.771 | 0.720 | 0.722 | 0.616 | 0.718 |
| TSLF-ALL | 0.852 | 0.736 | 0.731 | 0.801 | 0.823 | 0.792 | 0.762 | 0.684 | 0.773 |
- TSLF-ALL은 8개의 프롬프트 중 5개에서 베이스라인보다 우수하며, 적대적 샘플이 없는 ASAP에서 평균 성능이 가장 좋다.
- 적대적 샘플이 추가될 때도 일관성 및 프롬프트 관련 신호로 인해 TSLF-ALL이 베이스라인보다 더 로버스트하다.
- 변형 실험에서 LSTM 기반 점수의 마지막 은닉 상태가 평균 은닉 상태보다 더 나은 성능을 보였다.
- GEC 보조 문법 특징 및 광범위한 수작업 특징은 철자 검사뿐만 아니라 AES의 효과를 향상시킨다.
- 적대적 입력과 함께 엔드-투-엔드 및 피처 기반 베이스라인은 성능을 유지하지 못하는 반면, TSLF-ALL은 강한 강건성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.