QUICK REVIEW

[논문 리뷰] Imposing Hard Constraints on Deep Networks: Promises and Limitations

Pablo Márquez-Neila, Mathieu Salzmann|arXiv (Cornell University)|2017. 06. 07.

Human Pose and Action Recognition참고 문헌 16인용 수 56

한 줄 요약

이 논문은 Krylov 부분공간 방법을 사용해 대규모 제약 최적화 문제를 풀며 딥 네트워크에 강제 제약을 적용할 수 있음을 보이지만, Adam을 이용한 소프트 제약이 더 나은 성능을 발휘하고 실용적이다.

ABSTRACT

Imposing constraints on the output of a Deep Neural Net is one way to improve the quality of its predictions while loosening the requirements for labeled training data. Such constraints are usually imposed as soft constraints by adding new terms to the loss function that is minimized during training. An alternative is to impose them as hard constraints, which has a number of theoretical benefits but has not been explored so far due to the perceived intractability of the problem. In this paper, we show that imposing hard constraints can in fact be done in a computationally feasible way and delivers reasonable results. However, the theoretical benefits do not materialize and the resulting technique is no better than existing ones relying on soft constraints. We analyze the reasons for this and hope to spur other researchers into proposing better solutions.

연구 동기 및 목표

레이블링된 데이터에만 의존하지 않고 도메인 지식을 반영하기 위해 딥 네트워크 출력에 제약을 두는 동기를 부여한다.
딥 네트워크에 대한 하드 제약 최적화를 공식화하고 소프트 제약 손실과 대비한다.
수백만 개의 매개변수와 큰 제약 집합을 다룰 수 있는 확장 가능한 수치 전략을 개발한다.
딥 러닝에서 하드 제약의 실용적 성능과 제약점들을 소프트 제약과 대비하여 평가한다.

제안 방법

네트워크 출력에 대해 하드 제약 C_j(w) = 0 를 형식화하고 문제를 min_w R(w) s.t. C_j(w)=0 로 표현한다.
KKT 조건을 적용하여 w와 라그랑주 승수를 업데이트하기 위한 선형화된 시스템을 도출한다.
크릴로프 부분공간 방법(MINRES-QLP)을 사용해 B 를 명시적으로 구성하지 않고도 큰 선형 시스템을 풀이한다.
Pearlmutter의 R-op과 L-op를 활용하여 야합행렬-벡터 곱으로 효율적인 행렬-벡터 곱을 계산한다.
매우 큰 제약 집합을 관리하기 위해 확률적 활성 제약을 도입하고 업데이트를 위한 제약된 Adam 으로 확장한다.
선택적으로 각 반복에서 가장 위반도가 큰 제약을 선택하기 위해 제약 채굴을 구현한다.

실험 결과

연구 질문

RQ1확장 가능한 규모에서도 딥 네트워크의 출력에 하드 제약을 실행 가능하게 적용할 수 있는가?
RQ2딥 러닝에서 하드 제약이 소프트 제약에 비해 이론적 또는 경험적 이점을 제공하는가?
RQ3KKT 조건에서 발생하는 크고 잠재적으로 악조건인 선형 시스템을 풀기 위한 어떤 수치 전략이 있는가?
RQ4딥 네트에서 확률적 제약 선택과 제약 최적화가 실제로 어떻게 상호작용하는가?

주요 결과

하드 제약은 Krylov 부분공간 방법과 MINRES-QLP를 이용하면 계산적으로 실행 가능하지만 소프트 제약보다 느리다.
Adam을 이용한 소프트 제약이 일반적으로 예측 성능이 더 좋고 훈련이 더 안정적이다.
하드 제약은 각 반복마다 활성 제약의 부분집합으로 인해 훈련 데이터에서도 제약을 완벽하게 만족시킨다는 보장을 하지 못한다.
이 연구에서 Adam 기반의 제약 업데이트가 투사 기반 하드 제약 업데이트보다 수렴 특성이 더 좋다.
제약 선형화는 악조건이 되거나 약간 서로 모순될 수 있어 최적화를 복잡하게 만들고 하드 제약의 어려움을 설명한다.
합성 예제는 소프트 제약이 제약의 안정성과 만족도 면에서 종종 하드 제약을 능가함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.