QUICK REVIEW

[논문 리뷰] Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning

Sandeep Subramanian, Adam Trischler|PolyPublie (École Polytechnique de Montréal)|2018. 03. 30.

Topic Modeling참고 문헌 45인용 수 101

한 줄 요약

본 논문은 다양한 문장 수준 작업(NMT, 구문 분석, Skip-Thoughts, NLI)들에 걸쳐 단일 인코더를 공유하는 대규모 다중 작업 학습 프레임워크를 제시하여 일반 목적 고정 길이 문장 표현을 생성하고 미확인 작업으로의 전이가 잘 이루어지며 저자원 설정에서도 좋은 성능을 발휘한다.

ABSTRACT

A lot of the recent success in natural language processing (NLP) has been driven by distributed vector representations of words trained on large amounts of text in an unsupervised manner. These representations are typically used as general purpose features for words across a range of NLP problems. However, extending this success to learning representations of sequences of words, such as sentences, remains an open problem. Recent work has explored unsupervised as well as supervised learning techniques with different training objectives to learn general purpose fixed-length sentence representations. In this work, we present a simple, effective multi-task learning framework for sentence representations that combines the inductive biases of diverse training objectives in a single model. We train this model on several data sources with multiple training objectives on over 100 million sentences. Extensive experiments demonstrate that sharing a single recurrent sentence encoder across weakly related tasks leads to consistent improvements over previous methods. We present substantial improvements in the context of transfer learning and low-resource settings using our learned general-purpose representations.

연구 동기 및 목표

일반 목적의 고정 길이 문장 표현을 동기 부여하고 구축한다.
다양한 학습 목표를 결합하여 강건한 문장 인코딩을 유도한다.
새로운 작업과 저자원 환경에서의 전이 학습 개선을 보여준다.

제안 방법

여러 시퀀스-투-시퀀스 및 분류 작업에 걸쳐 공유되는 단일 양방향 GRU 인코더를 사용한다.
En-Fr, En-De, Skip-Thoughts, 구문 분석, NLI의 1대 다수 다중 작업 설정으로 1.24억 문장 쌍을 사용해 학습한다.
어텐션 없이 인코더 표현에 의존하도록 디코더를 조건화하여 고정 길이 문장 벡터를 얻는다.
다국어 NMT, 구성 구문 분석, Skip-Thoughts, 자연어 추론 등 다중 목표를 포함한다.
가끔 NLI 미니배치가 섞이는 단순한 균일한 작업 전환 방식을 사용해 학습한다.

실험 결과

연구 질문

RQ1상호 관련이 약한 작업들에 걸쳐 단일 인코더를 공유하는 것이 일반 목적의 문장 표현을 개선하는가?
RQ2다양한 작업들이 표현에 구문, 내용, 길이와 같은 서로 다른 언어적 특성을 인코딩하는 데 어떻게 기여하는가?
RQ3학습된 표현이 미확인 작업으로 전이되고 저자원 데이터 환경에서 잘 동작하는가?
RQ4표준 벤치마크에서 기존 임베딩과 비교해 학습된 단어 임베딩이 어떤 성능을 보이는가?

주요 결과

모델	MR	CR	SUBJ	MPQA	SST	TREC	MRPC	SICK-R	SICK-E	STSB	Δ
Our Models +STN +Fr +De +NLI +L	81.7	87.3	94.2	90.8	84.0	94.2	77.1/83.0	0.887	87.1	78.7/78.2	1.33
Our Models +STN +Fr +De +NLI +L +STP	82.7	88.0	94.1	91.2	84.5	92.4	77.8/83.9	0.885	86.8	78.7/78.4	1.44
Our Models +STN +Fr +De +NLI +L +STP +Par	82.5	87.7	94.0	90.9	83.2	93.0	78.6/84.4	0.888	87.8	78.9/78.6	1.48
+STN +Fr +De +NLI +L	81.2	86.4	93.4	90.8	84.0	93.2	76.6/82.7	0.884	87.0	79.2/79.1	0.99
+STN +Fr +De +NLI +2L +STP	82.8	88.3	94.0	91.3	83.6	92.6	77.4/83.3	0.884	87.6	79.2/79.1	1.47
+STN +Fr +De +NLI +L +STP +Par	82.4?	87.7?	94.0?	90.9?	83.2?	93.0?	78.9/78.6?	0.888?	87.8?	78.9/78.6?	1.48

다양한 목표를 갖춘 다중 작업 학습은 이전의 고정 표현 대비 향상된 전이 성능을 낳는다.
용량(더 많은 은닉 유닛)과 추가 계층을 더하면 여러 작업에서 전이 이득이 더욱 커진다.
우리 표현은 Infersent 대비 감정 태스크에서 1.1–2.0%의 이득을, TREC 및 MRPC 전이 태스크에서 상당한 이득을 달성한다.
구문 분석 및 다국어 NMT를 포함하면 구문 및 함의 전이 신호가 향상되고, NLI만으로는 구문을 인코딩하지만 추가 작업의 이점은 다소 낮다.
저자원 설정에서 우리 표현에 선형 분류기를 적용하면 더 많은 데이터로 학습된 일부 태스크 특화 모델보다 성능이 우수할 수 있으며, 예를 들어 Quora에서 라벨 데이터가 단 6%인 경우.
본 프레임워크에서 학습된 단어 임베딩은 표준 벤치마크에서 인기 있는 사전학습 임베딩과 경쟁력을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.