QUICK REVIEW

[논문 리뷰] Structured Attention Networks

Yoon Kim, Carl Denton|arXiv (Cornell University)|2017. 02. 03.

Topic Modeling인용 수 101

한 줄 요약

이 논문은 그래픽 모델 기반의 주의를 신경망에 내장하는 구조화된 주의 네트워크를 소개하여 differentiable inference (CRFs와 의존 구문 분석기) 를 신경망 계층으로 사용해 분할 및 파싱 인지를 가진 주의를 가능하게 한다. 여러 작업에서 표준 주의에 비해 엔드-투-엔드 학습 가능한 개선을 보인다.

ABSTRACT

Attention networks have proven to be an effective approach for embedding categorical inference within a deep neural network. However, for many tasks we may want to model richer structural dependencies without abandoning end-to-end training. In this work, we experiment with incorporating richer structural distributions, encoded using graphical models, within deep networks. We show that these structured attention networks are simple extensions of the basic attention procedure, and that they allow for extending attention beyond the standard soft-selection approach, such as attending to partial segmentations or to subtrees. We experiment with two different classes of structured attention networks: a linear-chain conditional random field and a graph-based parsing model, and describe how these models can be practically implemented as neural network layers. Experiments show that this approach is effective for incorporating structural biases, and structured attention networks outperform baseline attention models on a variety of synthetic and real tasks: tree transduction, neural machine translation, question answering, and natural language inference. We further find that models trained in this way learn interesting unsupervised hidden representations that generalize simple attention.

연구 동기 및 목표

서브시퀀스와 잠재 파싱 구조를 모델링하기 위해 주의 메커니즘에 구조적 편향을 통합하려는 동기를 제시한다.
선형-체 CRF와 일차 그래프 기반 파서를 기반으로 한 미분 가능 구조화된 주의 계층을 개발한다.
다양한 NLP 태스크에서 신경망 내 이 계층들의 엔드 투 엔드 학습을 시연한다.
구조화된 주의가 더 나은 성능을 낳고 해석 가능한 잠재 구조를 학습한다는 것을 보인다.

제안 방법

구조화된 주의를 신경망에서 도출된 클리크 포텐셜을 갖는 잠재 변수 벡터에 대한 CRF로 정의한다.
CRF 하에서의 주변(context)을 주변 기대값으로 계산하며, forward-backward(선형-체 CRF) 또는 inside-outside(파싱) 추론을 사용한다.
미분 가능 루틴을 통해 추론을 역전파하고, 로그 공간 계산 및 기울기를 위한 부호 있는 로그 공간 처리.
CRF 기반 주의 변형 두 가지를 구현한다: 서브시퀀스 분할용 선형-체(linear-chain) 및 잠재 의존 구조용 일차 그래프 기반 파서.
구조화된 주의 계층을 신경망 모듈로 적용하여 인코더-디코더 및 QA/NLI 파이프라인에서 표준 소프트맥스 주의를 대체한다.

실험 결과

연구 질문

RQ1구조화된 주의 계층(CRF 기반)이 딥 네트워크 내부에서 엔드투엔드로 학습되어 서브시퀀스 분할 및 잠재 트리 구조를 모델링할 수 있는가?
RQ2트리 변환, 분할이 있는 기계 번역(MT), QA, NLI 등 구조적 편향이 요구되는 태스크에서 CRF-주의 변형이 표준 주의보다 향상되는가?
RQ3이 구조화된 계층에서 학습된 주변(마진) 값이 파스 트리나 분할과 같은 해석 가능한 내부 표현을 생성하는가?

주요 결과

깊이	주의 없음	단순	구조화된
2	7.6	87.4	99.2
3	4.1	49.6	87.0
4	2.8	23.3	64.5
5	2.1	15.0	30.8
6	1.5	8.5	18.2

구조화된 주의는 합성 트리-변환 태스크와 분할이 포함된 신경 MT에서 기준 주의보다 더 좋은 성능을 보인다.
MT에서 분할 주의(두 상태 선형-체 CRF)는 단순 주의 및 시그모이드 주의보다 BLEU 점수를 향상시켰으며, 구조화된 주의가 평균 결과에서 가장 좋았다.
다중 사실 추론을 위한 선형-체 CRF를 사용한 QA 실험은 Memory Networks에 비해 정답 정확도와 추론 동작이 경쟁력 있거나 향상되었다.
구문적(의존 트리) 주의를 사용한 NLI는 표준 주의에 비해 강력한 내부 구조와 질적 행동 개선을 보인다.
구조화된 주의 아래 학습된 내부 표현은 경계선 및 트리와 같은 잠재적 구조 편향을 드러내며 일반 주의 이상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.