[논문 리뷰] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding
이 논문은 다중 작업 DNN(MT-DNN)에 지식 증류를 적용하여 앙상블 지식을 단일 모델로 이전시키고, GLUE 벤치에서 최첨단 성능을 달성한다.
This paper explores the use of knowledge distillation to improve a Multi-Task Deep Neural Network (MT-DNN) (Liu et al., 2019) for learning text representations across multiple natural language understanding tasks. Although ensemble learning can improve model performance, serving an ensemble of large DNNs such as MT-DNN can be prohibitively expensive. Here we apply the knowledge distillation method (Hinton et al., 2015) in the multi-task learning setting. For each task, we train an ensemble of different MT-DNNs (teacher) that outperforms any single model, and then train a single MT-DNN (student) via multi-task learning to \emph{distill} knowledge from these ensemble teachers. We show that the distilled MT-DNN significantly outperforms the original MT-DNN on 7 out of 9 GLUE tasks, pushing the GLUE benchmark (single model) to 83.7\% (1.5\% absolute improvement\footnote{ Based on the GLUE leaderboard at https://gluebenchmark.com/leaderboard as of April 1, 2019.}). The code and pre-trained models will be made publicly available at https://github.com/namisan/mt-dnn.
연구 동기 및 목표
- 앙상블 MT-DNN의 배포 비용을 줄이면서도 높은 NLU 성능을 유지하려는 동기를 제시한다.
- 지식 증류가 다중 작업 설정에서 앙상블의 일반화 능력을 단일 MT-DNN으로 이전시킬 수 있는지 조사한다.
- 여러 과제 특화 교사를 하나의 학생으로 증류하여 GLUE 성능 향상을 입증한다.
- 교사가 없는 작업을 포함해 작업 전반에서 증류된 모델의 강건성을 보여준다.
제안 방법
- 선택된 작업에 대해 MT-DNN 앙상블(교사)을 학습시켜 소프트 타깃을 생성한다.
- 각 학습 샘플에 대해 앙상블 예측을 평균내어 소프트 타깃을 계산한다.
- 교사로부터의 하드 타깃과 소프트 타깃을 모두 사용하여 다중 작업 학습으로 단일 MT-DNN(학생)을 학습한다.
- 교사가 있는 작업의 경우 하드 및 소프트 타깃을 가중 손실로 결합하는 것을 옵션으로 수행한다.
- 증류 후 각 GLUE 작업에서 증류된 MT-DNN를 미세조정한다.
실험 결과
연구 질문
- RQ1작업별 MT-DNN 앙상블로부터의 지식 증류가 다중 작업 설정에서 단일 MT-DNN를 개선할 수 있는가?
- RQ2증류된 MT-DNN가 앙상블 교사의 이득을 유지하고 교사가 없는 작업에도 이점을 제공하는가?
- RQ3BERT 기반 및 일반 MT-DNN 기준선과 비교했을 때 GLUE 성능에 대한 증류의 영향은 무엇인가?
주요 결과
- MT-DNN KD는 9개 GLUE 작업 중 7개에서 일반 MT-DNN보다 성능이 우수하다.
- MT-DNN KD는 83.7%의 GLUE 점수를 달성했으며(단일 모델), 2019년 4월 1일 기준 최신 기술 대비 절대 1.5%, BERT 대비 3.2% 향상이다.
- MT-DNN KD는 MT-DNN에 비해 CoLA와 RTE 작업에서 상당한 향상을 보인다.
- 증류는 앙상블 교사의 일반화 능력을 학생에게 이전하며, 학생은 앙상블의 대부분 개선을 유지한다.
- 교사가 없는 작업에서도 MT-DNN KD는 MT-DNN 대비 주목할 만한 이점을 보이며 일부 작업에서 앙상블 성능에 근접한다.
- 무효화 연구는 MT-DNN KD가 교사가 제공한 작업과 무지원 작업 모두에 이점을 주어 효과적인 지식 이전을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.