QUICK REVIEW

[논문 리뷰] Language Modeling Teaches You More Syntax than Translation Does: Lessons Learned Through Auxiliary Task Analysis

Kelly Zhang, Samuel R. Bowman|arXiv (Cornell University)|2018. 09. 26.

Topic Modeling참고 문헌 22인용 수 41

한 줄 요약

이 논문은 네 가지 사전학습 목표(언어 모델링, 번역, skip-thought, 자동 인코딩)를 비교하고 양방향 언어 모델이 POS 태깅 및 CCG 슈태깅에 대해 가장 강한 구문 표현을 산출하며, 보조 작업의 데이터가 풍부할 때 번역 인코더를 능가하거나 심지어 무작위 LSTM과 경쟁하는 경우도 많다.

ABSTRACT

Recent work using auxiliary prediction task classifiers to investigate the properties of LSTM representations has begun to shed light on why pretrained representations, like ELMo (Peters et al., 2018) and CoVe (McCann et al., 2017), are so beneficial for neural language understanding models. We still, though, do not yet have a clear understanding of how the choice of pretraining objective affects the type of linguistic information that models learn. With this in mind, we compare four objectives---language modeling, translation, skip-thought, and autoencoding---on their ability to induce syntactic and part-of-speech information. We make a fair comparison between the tasks by holding constant the quantity and genre of the training data, as well as the LSTM architecture. We find that representations from language models consistently perform best on our syntactic auxiliary prediction tasks, even when trained on relatively small amounts of data. These results suggest that language modeling may be the best data-rich pretraining task for transfer learning applications requiring syntactic information. We also find that the representations from randomly-initialized, frozen LSTMs perform strikingly well on our syntactic auxiliary tasks, but this effect disappears when the amount of training data for the auxiliary tasks is reduced.

연구 동기 및 목표

사전 학습 목표가 학습된 언어 표현에 어떤 영향을 미치는지 이해를 촉진한다.
데이터 소스, 양, 모델 구조를 통제하여 사전 학습 작업을 공정하게 비교한다.
POS 태깅 및 CCG 슈태깅을 위한 보조 분류기를 사용하여 사전 학습 표현의 구문 지식을 평가한다.
학습 데이터 양과 난이도/무작위성의 효과가 학습 표현에 미치는 영향을 검토한다.

제안 방법

영문-독일어 번역 데이터와 단일 언어 데이터에 대해 네 가지 목표(언어 모델링 LM, 번역, skip-thought, 자동 인코딩)로 여러 LSTM 기반 모델을 학습한다.
앞으로의 LM 숨겨진 상태와 뒤로의 LM 숨겨진 상태를 연결하여 토큰 표현으로 사용하는 양방향 LM BiLM 표현을 활용한다.
사전 학습된 인코더를 고정하고 POS 태깅 및 CCG 슈태깅을 위한 보조 분류기(MLP)를 학습시켜 숨겨진 상태의 구문 정보를 탐구한다.
학습된 정보와 기억된 정보를 구분하기 위해 비학습(무작위 초기화) LSTM 및 WC-MFC 기준선과 비교한다.
학습 데이터량(1M, 5M, 15M, 63M 문장)과 분류기 데이터(1%, 10%, 100%)를 변화시켜 데이터 효과를 연구한다.
POS 및 CCG 태깅을 위해 WSJ/PTB 및 CCG Bank 데이터셋을 사용하여 데이터 도메인을 제어한다.

실험 결과

연구 질문

RQ1훈련 과제(LM, 번역, skip-thought, 자동 인코딩)가 구문 정보의 인코딩에 어떤 영향을 미치는가?
RQ2학습 데이터의 양이 사전 학습 표현이 구문 보조 작업을 지원하는 능력에 영향을 미치는가?
RQ3보조 분류기가 풍부한 데이터를 받으면 임의로 초기화된 인코더도 구문 태깅을 지원할 수 있는가?
RQ4레이어 및 아키텍처 선택이 숨겨진 표현에 어떤 구문 정보를 포착하게 하는가?
RQ5양방향 맥락(BiLM)이 단일 방향 또는 번역 기반 인코더에 비해 구문 전이에 어떤 이점을 제공하는가?

주요 결과

양방향 언어 모델(BiLM)은 데이터 구간에 관계없이 POS 태깅 및 CCG 슈태깅에서 다른 작업(번역, skip-thought, 자동 인코딩)을 consistently 능가한다.
1백만 문장만으로 학습된 BiLM이 훨씬 더 많은 데이터로 학습된 번역 및 skip-thought 모델보다 우수한 경우가 있어 데이터 효율적 구문 학습이 가능함을 시사한다.
동일한 데이터일 때도 BiLM이 번역 인코더를 능가하는 경우가 많으며, 그 이점은 CCG 슈태깅에서 POS 태깅보다 더 크게 나타난다.
보조 분류기에 데이터가 풍부할 때 무작위로 초기화된 LSTMs도 예상외로 잘 수행하지만, 분류기 데이터가 제한되면 성능이 급락하여 학습된 구문 인코딩이 아닌 기억화(memory)임을 시사한다.
단어 정체성 프로빙은 학습된 인코더가 초기화되지 않은 인코더보다 태깅 작업에서 더 우수하다는 것을 보이며, 학습 표현이 단순 이웃 단어 정보 이상을 포착한다는 것을 확인한다.
하위 LSTM 층은 더 즉각적인 이웃 정보를 저장하고, 상위 층은 더 먼 맥락을 인코딩하여 깊이가 구문 구조에 대한 수용 영역을 확장함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.