QUICK REVIEW

[논문 리뷰] A Comparative Study of Transformer-Based Language Models on Extractive Question Answering

Kate Pearce, Tiffany Zhan|arXiv (Cornell University)|2021. 10. 07.

Topic Modeling참고 문헌 20인용 수 22

한 줄 요약

이 연구는 다양한 데이터셋에서 추출적 질의응답에 대해 사전 훈련된 트랜스포머 기반 언어 모델을 평가하며, RoBERTa, BART, BERT, ALBERT, XLNet, ConvBERT를 비교한다. BERT-BiLSTM 앙상블 모델을 도입하여 일반화 성능을 향상시켰으며, RoBERTa와 BART가 모든 데이터셋에서 가장 높은 F1 점수를 기록했고, BERT-BiLSTM 모델은 모든 데이터셋에서 BERT보다 최소 1% 이상 높은 성능을 보였다.

ABSTRACT

Question Answering (QA) is a task in natural language processing that has seen considerable growth after the advent of transformers. There has been a surge in QA datasets that have been proposed to challenge natural language processing models to improve human and existing model performance. Many pre-trained language models have proven to be incredibly effective at the task of extractive question answering. However, generalizability remains as a challenge for the majority of these models. That is, some datasets require models to reason more than others. In this paper, we train various pre-trained language models and fine-tune them on multiple question answering datasets of varying levels of difficulty to determine which of the models are capable of generalizing the most comprehensively across different datasets. Further, we propose a new architecture, BERT-BiLSTM, and compare it with other language models to determine if adding more bidirectionality can improve model performance. Using the F1-score as our metric, we find that the RoBERTa and BART pre-trained models perform the best across all datasets and that our BERT-BiLSTM model outperforms the baseline BERT model.

연구 동기 및 목표

다양한 복잡도를 가진 데이터셋에서 추출적 질의응답에 대해 다양한 사전 훈련된 트랜스포머 모델의 일반화 성능을 평가하는 것.
BERT에 이원방향 장기 단기 기억망(BiLSTM) 레이어를 추가함으로써 추출적 QA 작업 성능 향상 여부를 조사하는 것.
단순한 추출적 답변(SQuAD)에서 복잡한 추론이 요구되는 질문(QuAC, NewsQA, CovidQA)에 이르기까지 데이터셋의 난이도가 모델의 일반화에 미치는 영향을 평가하는 것.
여러 데이터셋과 모델 변종 간의 F1 점수를 비교하여 추출적 QA에 가장 효과적인 모델 아키텍처를 규명하는 것.

제안 방법

SQuAD 2.0, QuAC, NewsQA, CovidQA의 네 개의 추출적 QA 데이터셋에 대해 RoBERTa, BART, BERT, ALBERT, XLNet, ConvBERT의 기본 버전을 미세조정하였다.
문맥과 질문을 연결하여 입력 시퀀스를 구성하였으며, WordPiece 및 SentencePiece 토크나이저를 사용하여 토크나이징하고, 최대 512 토큰으로 잘라내었다.
BERT 기본 모델의 문맥적 표현 위에 BiLSTM 레이어를 스태킹하여 보다 향상된 시퀀스 모델링을 위한 새로운 BERT-BiLSTM 앙상블 모델을 구현하였다.
고정 학습률 5e-5, 배치 크기 8로 설정한 Adam 옵timizer를 사용하였으며, NVIDIA 2x Quadro RTX 8000 GPU에서 3 에포크 동안 훈련하였다.
예측된 시작 및 끝 토큰 스파나의 정밀도와 재현율의 조화평균으로 계산된 F1 점수를 사용하여 모델 성능을 평가하였다.
모든 입력을 소문자로 통일하고, 일관성을 확보하기 위해 동일한 토크나이징 방식을 사용하였다.

실험 결과

연구 질문

RQ1어느 사전 훈련된 트랜스포머 기반 언어 모델이 다양한 난이도의 추출적 질의응답 데이터셋에서 가장 효과적으로 일반화되는가?
RQ2BERT 아키텍처에 BiLSTM 레이어를 추가함으로써 추출적 QA 작업 성능에 어떤 영향을 미치는가?
RQ3RoBERTa와 BART가 추론이 요구되는 다양한 QA 벤치마크에서 다른 모델들을 얼마나 뛰어나게 성능을 내는가?
RQ4왜 모델들은 CovidQA와 같은 장문의 컨텍스트를 가진 데이터셋에서 성능이 떨어지는가? 그리고 컨텍스트 길이가 모델 성능에 어떤 영향을 미치는가?

주요 결과

RoBERTa와 BART는 네 개의 모든 데이터셋에서 가장 높은 F1 점수를 기록하여, 추출적 QA에서 뛰어난 일반화 능력과 강건성을 보였다.
BERT-BiLSTM 모델은 모든 데이터셋에서 BERT 기본 모델보다 최소 1% 이상 높은 F1 점수를 기록하여, 추가적인 이원방향 모델링이 성능 향상에 기여함을 입증하였다.
SQuAD 2.0에서는 간단한 추출적 답변과 짧은 컨텍스트 길이로 인해 성능이 가장 우수했으며, QuAC는 개방형이고 추론이 요구되는 질문으로 인해 성능이 크게 떨어졌다.
NewsQA에서는 강력한 성능을 보였으며, SQuAD에 이어 두 번째로 높은 성능을 기록하여 RoBERTa와 BART가 복잡한 추론 작업을 효과적으로 처리할 수 있음을 보여주었다.
CovidQA 데이터셋은 더 긴 컨텍스트와 제한된 훈련 데이터를 가졌기 때문에 모델 성능이 열악했으며, 특히 최대 시퀀스 길이가 512 토큰으로 고정된 모델에서 두드러졌다.
RoBERTa에서 다음 문장 예측 태스크가 누락되어 있었기 때문에 강력한 성능을 기록했으며, 이는 QA의 스파니쉬 예측과 관련된 마스킹 언어 모델링 목표와 더 잘 부합하기 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.