QUICK REVIEW

[논문 리뷰] Differentiable Dynamic Programming for Structured Prediction and Attention

Arthur Mensch, Mathieu Blondel|arXiv (Cornell University)|2018. 02. 11.

Reinforcement Learning in Robotics참고 문헌 24인용 수 55

한 줄 요약

이 논문은 강하게 볼록한 정규화항으로 최대 연산자를 평활화하여 동적 프로그래밍을 미분 가능하게 만드는 프레임워크를 제시하고, 이를 통해 미분 가능 DP 레이어와 엔드투엔드 학습을 가능하게 하며, smoothed Viterbi 및 smoothed DTW에 대한 구현을 제시한다. 또한 DP 도함수를 추론된 경로 분포와 연결하고 구조화 예측과 주의에 적용한다.

ABSTRACT

Dynamic programming (DP) solves a variety of structured combinatorial problems by iteratively breaking them down into smaller subproblems. In spite of their versatility, DP algorithms are usually non-differentiable, which hampers their use as a layer in neural networks trained by backpropagation. To address this issue, we propose to smooth the max operator in the dynamic programming recursion, using a strongly convex regularizer. This allows to relax both the optimal value and solution of the original combinatorial problem, and turns a broad class of DP algorithms into differentiable operators. Theoretically, we provide a new probabilistic perspective on backpropagating through these DP operators, and relate them to inference in graphical models. We derive two particular instantiations of our framework, a smoothed Viterbi algorithm for sequence prediction and a smoothed DTW algorithm for time-series alignment. We showcase these instantiations on two structured prediction tasks and on structured and sparse attention for neural machine translation.

연구 동기 및 목표

광범위한 동적 프로그래밍 클래스 전체를 미분 가능 인 연산자로 변환하는 통합 방법 제공.
평활화된 DP 연산자가 원래 DP의 볼록 완화임을 보이고 해석 가능한 기울기를 기대 경로로 도출한다.
두 가지 구체화를 도출한다: 시퀀스 예측을 위한 smoothed Viterbi 알고리즘과 시계열 정렬을 위한 smoothed DTW 알고리즘.
구조화 예측 및 구조화된 주의에 대한 신경망에서의 미분 가능 DP 레이어를 시연한다.

제안 방법

강하게 볼록한 정규화항 Omega를 사용하여 확률 단순체 위의 평활화된 최대값으로서의 max_Omega를 정의한다.
Bellman 유사 재귀식에서 max를 max_Omega로 대체하여 평활화된 DP 재귀식 DP_Omega를 구성하고, 이를 통해 미분 가능하고 볼록한 연산자를 얻는다.
DP_Omega가 LP의 Relaxation임을 보이고 LP와 DP_Omega 사이의 경계를 분석하며, Omega가 엔트로피 정규화나 제곱 L2 정규화에 대응하는 특수한 경우를 다룬다.
그래프 DP에서 ∇DP_Omega 및 해시안 벡터 곱 ∇^2 DP_Omega Z를 O(|E|) 시간으로 효율적으로 계산하는 역전파 방식을 제공한다.
∇DP_Omega를 DP 그래프 위의 특정 랜덤 워크 하의 기대 경로로 해석하여 확률적 관점을 제공하고 negentropy를 사용할 때 CRF 유사 분포와의 연계를 제시한다.
신경망의 미분 가능 레이어를 위해 DP_Omega와 ∇DP_Omega를 모두 역전파하는 방법을 자세히 설명한다.

실험 결과

연구 질문

RQ1구조를 보존하면서 넓은 범주의 동적 프로그래밍 알고리즘을 어떻게 미분 가능하게 만들 수 있는가?
RQ2DP에서 max 연산을 평활화하는 것이 이론적·실용적으로 어떤 함의를 가지며, 이것이 그래프 모델 추론과 어떻게 연결되는가?
RQ3프레임워크를 구체적인 문제인 시퀀스 예측(Viterbi)과 시계열 정렬(DTW) 등에 어떻게 구체화할 수 있는가?
RQ4DP 값과 그 기울기 모두를 역전파하여 모든 구성 요소의 엔드투엔드 학습을 가능하게 할 수 있는가?
RQ5정규화항(예: negentropy와 제곱 L2)이 해의 형태와 기울기의 희소성에 어떤 역할을 하는가?

주요 결과

DP_Omega는 원래의 동적 프로그래그램에 대한 매끄럽고 볼록한 완화를 제공하여 미분 가능 레이어를 가능하게 한다.
기울기 ∇DP_Omega는 DP 그래프에서의 로컬 랜덤 워크에 의해 정의된 분포 아래의 기대 경로에 해당하는 것을 보여주며, 확률적 관점을 제공한다.
정규화 강도 gamma가 0으로 가면 ∇DP_{gamma Omega}가 원래 LP의 부분 기울기로 수렴하고, 적절한 경우 하드 DP 해를 회복한다.
negentropy 정규화를 사용하면 CRF와 같은 동작을 회복하고, 제곱 L2 정규화와 함께면 기울기 분포가 더 희소해진다.
프레임워크는 두 가지 구체적 구성을 제공한다: Vit_Omega(스무딩된 Viterbi)로 시퀀스 레이블링을, DTW_Omega로 시계열 정렬을 수행하며, 값과 기울기 모두에 대해 역전파가 가능하다.
제안된 미분 가능 DP 레이어는 구조화 예측 작업과 신경 기계 번역의 구조화된 주의에서 엔드투엔드 학습을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.