QUICK REVIEW

[논문 리뷰] Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks

Zhilin Yang, Ruslan Salakhutdinov|arXiv (Cornell University)|2017. 03. 18.

Topic Modeling참고 문헌 20인용 수 230

한 줄 요약

요약: 이 논문은 계층적 순환 신경망을 이용한 신경 시퀀스 태깅기에 대한 전이 학습을 연구하고, 교차 도메인, 교차 애플리케이션, 교차 언어 전이를 가능하게 하는 세 가지 매개변수 공유 아키텍처를 제안하며, 여러 벤치마크에서 성능 향상과 새로운 최첨단 결과를 달성한다.

ABSTRACT

Recent papers have shown that neural networks obtain state-of-the-art performance on several different sequence tagging tasks. One appealing property of such systems is their generality, as excellent performance can be achieved with a unified architecture and without task-specific feature engineering. However, it is unclear if such systems can be used for tasks without large amounts of training data. In this paper we explore the problem of transfer learning for neural sequence taggers, where a source task with plentiful annotations (e.g., POS tagging on Penn Treebank) is used to improve performance on a target task with fewer available annotations (e.g., POS tagging for microblogs). We examine the effects of transfer learning for deep hierarchical recurrent networks across domains, applications, and languages, and show that significant improvement can often be obtained. These improvements lead to improvements over the current state-of-the-art on several well-studied tasks.

연구 동기 및 목표

근접한 작업 간 전이 학습을 통해 신경망 시퀀스 태거가 이익을 얻을 수 있는지 조사한다.
교차 도메인, 교차 애플리케이션, 교차 언어 전이를 위한 통합된 매개변수 공유 프레임워크를 제안한다.
서로 다른 층/매개변수 공유가 언어, 도메인, 애플리케이션 간 전이 효율성에 어떤 영향을 미치는지 평가한다.
다수의 벤치마크 데이터셋에서 기준선 및 최첨단 성능보다 향상을 입증한다.

제안 방법

문자 수준 GRU와 단어 수준 GRU를 이용해 CRF 출력층으로 연결하는 기본 신경망 시퀀스 태깅 모델.
소스 태스크와 타깃 태스크 간 서로 다른 네트워크 매개변수 하위집합을 공유하는 세 가지 전이 아키텍처(T-A, T-B, T-C).
공유 매개변수와 태스크 특화 매개변수를 사용한 두 작업 objective의 공동 학습; AdaGrad를 사용한 기울기 기반 최적화.
세 가지 태스크 전이 설정: 교차 도메인(레이블 매핑 가능 포함), 서로 다른 라벨을 가진 교차 도메인(T-B), 교차 애플리케이션, 형태적으로 유사한 문자 표현 공유를 통한 교차 언어 전이(T-C).
학습 절차는 소스 태스크와 타깃 태스크 사이를 교대로 수행하며, 공유 매개변수와 태스크 특화 매개변수를 모두 업데이트한다; 타깃 태스크에서 조기 종료를 적용한다.

실험 결과

연구 질문

RQ1자원 많은 소스 태스크에서 학습된 신경 시퀀스 태거가 전이 학습을 통해 자원이 적은 타깃 태스크의 성능을 향상시킬 수 있는가?
RQ2교차 도메인, 교차 애플리케이션, 교차 언어 전이가 성능 및 매개변수 공유 측면에서 어떻게 비교되는가?
RQ3더 많거나 더 적은 모델 구성 요소를 공유하는 것이 전이 효율성에 미치는 영향은 무엇인가?
RQ4전이 학습 모델이 표준 시퀀스 태깅 벤치마크에서 최첨단 결과를 달성하는가?

주요 결과

전이 학습은 비전이 기반선 대비 타깃 태스크 성능을 일관되게 향상시키며, 특히 라벨링 비율이 낮을 때 그렇다.
PTB POS 또는 CoNLL NER에서 Genia 및 Twitter로의 교차 도메인 전이는 상당한 이득을 주며, 최소한의 라벨 데이터로도 높은 정확도를 달성한다.
교차 애플리케이션 및 교차 언어 전이도 저자원 조건하에서 의미 있는 향상을 제공한다.
세 가지 아키텍처의 성능 순서는 T-A > T-B > T-C이며, 이는 공유 매개변수의 양을 반영한다.
이 방법은 여러 벤치마크에서 새로운 최첨단 결과를 달성하며, 기본 모델도 전이 없이도 경쟁력이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.