[논문 리뷰] A Comparison of LSTM and BERT for Small Corpus
논문은 대화 시스템의 의도 분류를 위해 작은 데이터셋에서 LSTM과 BERT를 비교하고, 단순한 LSTM이 BERT보다 더 나은 성능과 더 빠른 학습 속도를 달성한다는 것을 발견했다.
Recent advancements in the NLP field showed that transfer learning helps with achieving state-of-the-art results for new tasks by tuning pre-trained models instead of starting from scratch. Transformers have made a significant improvement in creating new state-of-the-art results for many NLP tasks including but not limited to text classification, text generation, and sequence labeling. Most of these success stories were based on large datasets. In this paper we focus on a real-life scenario that scientists in academia and industry face frequently: given a small dataset, can we use a large pre-trained model like BERT and get better results than simple models? To answer this question, we use a small dataset for intent classification collected for building chatbots and compare the performance of a simple bidirectional LSTM model with a pre-trained BERT model. Our experimental results show that bidirectional LSTM models can achieve significantly higher results than a BERT model for a small dataset and these simple models get trained in much less time than tuning the pre-trained counterparts. We conclude that the performance of a model is dependent on the task and the data, and therefore before making a model choice, these factors should be taken into consideration instead of directly choosing the most popular model.
연구 동기 및 목표
- 대형 사전 학습 모델(BERT)이 작은 데이터세트에서 단순한 LSTM보다 우수한 성능을 보이는지 평가한다.
- 데이터 크기가 25%에서 100%까지 달라질 때의 모델 성능을 평가한다.
- 대화/의도 분류 작업에서 LSTM의 가장 간단한 효과적인 아키텍처를 식별한다.
제안 방법
- 150개의 의도를 가진 소형 챗봇 의도 분류 데이터셋에서 BERT와 LSTM을 훈련시키고 비교한다.
- 데이터를 25%–100% 부분집합으로 분할하여 소량 데이터 상황을 시뮬레이션한다.
- 학습률 2e-5로 BERT를 튜닝 및 파인튜닝; LSTM은 Glove 임베딩과 Adam 최적화기로 0.01 학습률로 처음부터 훈련한다.
- 전체 정확도와 범위 내 정확도로 평가하고, 전체 정확도를 우선한다.
- 50 또는 100 뉴런의 1개의 양방향 층과 1개의 단방향 층을 포함한 여러 LSTM 아키텍처를 실험한다.
실험 결과
연구 질문
- RQ1사전 학습된 BERT 모델이 의도 분류를 위한 작은 말뭉치에서 LSTM보다 우수할 수 있는가?
- RQ2대화 도메인에서 데이터세트 크기(25%에서 전체 데이터)에 따라 모델 성능이 어떻게 달라지는가?
- RQ3간단한 LSTM 아키텍처가 작은 데이터세트에서 BERT를 능가하는 데 충분한가?
주요 결과
- 모든 데이터 분할에서 가장 간단한 LSTM 아키텍처(레이어당 50 뉴런의 1개의 양방향 층 + 1개의 단방향 층)가 BERT를 능가했다.
- 테스트 세트에서 LSTM은 전체 정확도 70.08%(범위 내 69.65%), BERT는 정확도 67.15%를 달성했다.
- 통계 검정에서 LSTM과 BERT의 차이가 유의미하다(p < 0.008).
- 데이터가 작을수록 정확도 차이가 더 크며(25% 데이터에서 상대 차이 16.21%), 데이터 규모가 커질수록 차이가 줄어든다(80% 데이터에서 2.25%).
- 가장 간단한 아키텍처의 LSTM이 검증 세트에서도 최상으로 나타나 최종 테스트 비교를 이끈다.
- BERT의 성능 우위는 과적합 가능성으로 인해 작은 데이터세트에서 감소하는 경향이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.