Skip to main content
QUICK REVIEW

[논문 리뷰] Unrolled Neural Networks for Constrained Optimization

Samar Hadou, Alejandro R. Ribeiro|arXiv (Cornell University)|2026. 01. 24.
Stochastic Gradient Optimization Techniques인용 수 0
한 줄 요약

본 논문은 제약된 이중 언롤링(CDU)을 제시한다. CDU는 학습 가능한 프라이멀(primal) 및 듀얼(dual) 네트워크 한 쌍으로, 제약 최적화를 듀얼 도메인에서 언롤링하여 거의 최적에 가까운 해와 거의 만족 가능한 해를 얻고 강한 OOD 일반화를 달성한다. 학습은 득/실행 제약을 갖춘 교대 방식으로 듀얼 상승 다이내믹스를 모방한다.

ABSTRACT

In this paper, we develop unrolled neural networks to solve constrained optimization problems, offering accelerated, learnable counterparts to dual ascent (DA) algorithms. Our framework, termed constrained dual unrolling (CDU), comprises two coupled neural networks that jointly approximate the saddle point of the Lagrangian. The primal network emulates an iterative optimizer that finds a stationary point of the Lagrangian for a given dual multiplier, sampled from an unknown distribution. The dual network generates trajectories towards the optimal multipliers across its layers while querying the primal network at each layer. Departing from standard unrolling, we induce DA dynamics by imposing primal-descent and dual-ascent constraints through constrained learning. We formulate training the two networks as a nested optimization problem and propose an alternating procedure that updates the primal and dual networks in turn, mitigating uncertainty in the multiplier distribution required for primal network training. We numerically evaluate the framework on mixed-integer quadratic programs (MIQPs) and power allocation in wireless networks. In both cases, our approach yields near-optimal near-feasible solutions and exhibits strong out-of-distribution (OOD) generalization.

연구 동기 및 목표

  • 제약 문제에 대해 모델 기반 최적화와 데이터 기반 학습을 연결한다.
  • CDU, 듀얼 상승 다이내믹스를 모방하는 두 개의 결합된 언롤된 네트워크를 개발한다.
  • 훈련 중 하강 및 상승 제약을 부과하여 안정성과 일반화를 개선한다.
  • MIQP 및 무선 전력 할당에서 효과를 입증한다.
  • 대체 최적화를 통해 알려지지 않은 승수 분포를 처리하는 학습 프레임워크를 제공한다.

제안 방법

  • L(x, lambda; z), D*: max over lambda)인 라그랑지안 및 듀얼 함수의 이중 형식을 사용해 제약 최적화를 정식화한다.
  • 두 개의 언롤드 네트워크를 설계한다: 프라이멀 Phi_P는 주어진 lambda에 대해 라그랑지안 최적화자를 근사하고, 듀얼 Phi_D는 프라이멀 네트에 의해 레이어별로 lambda를 업데이트한다.
  • 훈련 중 primal 층에서 라그랑지안의 단조로운 하강과 dual 층에서 제약 여유를 통한 단조로운 상승을 강제한다.
  • 외부 레벨이 듀얼을 학습하는 동안 내부 레벨이 프라이멀을 학습하는 중첩된 교대 방식으로 학습하여 승수 분포를 샘플링한다.
  • z의 분포 및 승수의 분포에 대해 기대 라그랑지안 손실을 최소화하고 제약하는 비지도, 데이터 주도적 접근을 채택한다.
  • 네트워크를 모델링하기 위해 그래프 신경망을 사용하고 구조성과 전달 가능성을 활용한다.
Figure 1 : Trajectories generated by (left) DA algorithm, (middle) constrained dual unrolling and (right) its unconstrained counterpart for a QP instance: (Top) primal trajectories toward the stationary point of the Lagrangian ${\mathcal{L}}(\cdot,\bm{\lambda};{\mathbf{z}})$ , and (bottom) dual traj
Figure 1 : Trajectories generated by (left) DA algorithm, (middle) constrained dual unrolling and (right) its unconstrained counterpart for a QP instance: (Top) primal trajectories toward the stationary point of the Lagrangian ${\mathcal{L}}(\cdot,\bm{\lambda};{\mathbf{z}})$ , and (bottom) dual traj

실험 결과

연구 질문

  • RQ1CDU가 제약 문제에 대해 듀얼 상승 다이내믹스를 모사하도록 듀얼 네트워크를 예열(prime)할 수 있는가?
  • RQ2하강/상승 제약을 강제하는 것이 안정성과 OOD 일반화를 개선하는가?
  • RQ3언롤드 프라이멀/듀얼 네트워크가 문제 인스턴스 전반에 걸쳐 정상점과 최적 승수를 얼마나 잘 근사하는가?
  • RQ4정확한 승수 분포를 사전 가정하지 않고 MIQP 및 무선 전력 할당에 이 접근이 효과적인가?

주요 결과

  • CDU는 MIQP 및 무선 전력 할당 과제에서 거의 최적에 가까운 해와 거의 만족 가능한 해를 산출한다.
  • 하강 및 상승 제약을 부과하면 최종 층 정확도가 개선되고 OOD 일반화가 향상된다.
  • 듀얼 네트워크의 궤적은 듀얼 함수를 최대화하도록 안내되며 프라이멀 네트워크는 라그랑지안의 정상점을 수렴한다.
  • 교대 학습 방식은 현재 듀얼 네트워크가 생성하는 승수 분포를 효과적으로 샘플링한다.
  • 프레임워크는 특정 프라이멀/듀얼 아키텍처 및 문제 클래스에 구애되지 않으며 그래프 신경망의 사용이 시연된다.
  • 결과는 전통적 듀얼 상승 방법의 학습 가능하고 가속화된 대응을 시사한다.
Figure 3 : Performance of constrained dual unrolling across $14$ layers vs an iterative DA algorithm. (Left) The distance to the primal optimum ${\mathbf{x}}^{*}$ , (middle) the distance to the dual optimum $\bm{\lambda}^{*}$ , and (right) the objective function (a measure of optimality). The 14-lay
Figure 3 : Performance of constrained dual unrolling across $14$ layers vs an iterative DA algorithm. (Left) The distance to the primal optimum ${\mathbf{x}}^{*}$ , (middle) the distance to the dual optimum $\bm{\lambda}^{*}$ , and (right) the objective function (a measure of optimality). The 14-lay

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.