QUICK REVIEW

[논문 리뷰] A Unifying Framework for Online Optimization with Long-Term Constraints

Matteo Castiglioni, Andrea Celli|arXiv (Cornell University)|2022. 09. 15.

Advanced Bandit Algorithms Research인용 수 5

한 줄 요약

이 논문은 장기 제약 조건을 가진 온라인 최적화를 위한 통합 프레임워크를 제안한다. 라그랑주 게임 기반의 이중 단계 원본-이중 방법을 사용하며, 스토하스틱 및 악성 보상 및 제약 수열 모두에서 최초의 '양날의 칼' 보장을 달성한다—부하가 적은 회귀와 제약 위반을 동시에 확보한다. 엄밀히 가용해가 존재할 경우, 최적 보상의 ρ/(1+ρ) 비율을 달성한다.

ABSTRACT

Many companies rely on advertising platforms such as Google, Facebook, or Instagram to recruit a large and diverse applicant pool for job openings. Prior works have shown that equitable bidding may not result in equitable outcomes due to heterogeneous levels of competition for different types of individuals. Suggestions have been made to address this problem via revisions to the advertising platform. However, it may be challenging to convince platforms to undergo a costly re-vamp of their system, and in addition it might not offer the flexibility necessary to capture the many types of fairness notions and other constraints that advertisers would like to ensure. Instead, we consider alterations that make no change to the platform mechanism and instead change the bidding strategies used by advertisers. We compare two natural fairness objectives: one in which the advertisers must treat groups equally when bidding in order to achieve a yield with group-parity guarantees, and another in which the bids are not constrained and only the yield must satisfy parity constraints. We show that requiring parity with respect to both bids and yield can result in an arbitrarily large decrease in efficiency compared to requiring equal yield proportions alone. We find that autobidding is a natural way to realize this latter objective and show how existing work in this area can be extended to provide efficient bidding strategies that provide high utility while satisfying group parity constraints as well as deterministic and randomized rounding techniques to uphold these guarantees. Finally, we demonstrate the effectiveness of our proposed solutions on data adapted from a real-world employment dataset.

연구 동기 및 목표

시간에 따라 변하는 임의의 장기 제약 조건 하에서 누적 보상 최대화를 목표로 하는 온라인 의사결정 문제에 도전한다.
악성 환경에서 최적의 固定 전략을 기준으로 삼을 때, 누적 제약 위반의 하한이 없는 첫 번째 알고리즘을 제공한다.
기존의 온라인 볼록 최적화 프레임워크를 확장하여 비볼록 보상과 제약 조건을 다룰 수 있도록 통합한다.
회귀 최소화기의 모듈러 통합을 통해 풀 피드백 및 밴딧 피드백 설정을 원활하게 처리할 수 있도록 한다.
반복 경매에서 ROI 및 정의 기반 분포 제약 조건과 같은 복잡한 실세계 제약 조건으로의 적용 가능성을 넓힌다.

제안 방법

원본 플레이어와 이중 플레이어 간의 라그랑주 게임으로 문제를 수립하며, 원본 플레이어는 보상 최대화와 제약 위반의 균형을 맞춘다.
이중 단계 알고리즘을 구현한다: (1) 보상과 제약의 트레이드오프를 최적화하는 플레이 단계, (2) 제약 위반을 방지하기 위해 안전한 결정을 시행하는 복구 단계.
기존의 회귀 최소화기를 블랙박스 컴ponent로 사용하여 풀 피드백 및 밴딧 피드백 설정과의 호환성을 확보한다.
엄밀히 가용해가 존재하는 해의 여유를 수량화하기 위해 타당성 매개변수 ρ를 도입하며, 이는 ρ에 따라 성능 보장을 가능하게 한다.
이중 업데이트에 온라인 미러 디센트(OMD)를 사용하고, 음의 엔트로피 정규화를 적용하며, 입찰 설정에서 밴딧 피드백에는 EXP3.P를 적용한다.
비볼록 목표 함수와 제약 조건을 다룰 수 있도록 비볼록 손실에 적합한 적절한 회귀 최소화기를 활용한다.

실험 결과

연구 질문

RQ1장기 제약 조건이 있는 온라인 최적화에서, 악성 및 스토하스틱 환경 모두에서 부하가 적은 회귀와 제약 위반을 동시에 달성하는 단일 알고리즘을 설계할 수 있는가?
RQ2일반적인 시간에 따라 변하는 제약 조건 하에서, 최적의 固定 전략을 기준으로 삼을 때 악성 환경에서 달성할 수 있는 성능 보장은 무엇인가?
RQ3비볼록 보상과 제약 조건을 다룰 수 있도록 하면서도 이론적 보장을 유지할 수 있도록 프레임워크를 어떻게 확장할 수 있는가?
RQ4ROI 및 정의 기반 분포 제약 조건과 같은 복잡한 제약 조건을 가진 실세계 경매 메커니즘에 이 프레임워크를 적용할 수 있는가?
RQ5엄밀히 가용해가 존재할 경우, 악성 케이스에서 성능 보장이 향상되는 조건은 무엇인가?

주요 결과

제안된 알고리즘은 악성 환경에서 ρ/(1+ρ) 비율의 최적 보상을 달성하며, 부하가 적은 회귀와 제약 위반을 동시에 확보한다. 여기서 ρ는 타당성 여유이다.
상수 ρ를 가진 스토하스틱 환경에서, 알고리즘은 회귀와 누적 제약 위반에 대해 기존에 알려진 최고 수준의 ˜O(T^{1/2}) 경계를 정확히 재현한다.
T에 따라 스케일링 가능한 임의의 ρ(예: ρ ≤ T^{-1/4})에 대해, 알고리즘은 ˜O(T^{3/4})의 회귀와 위반을 보장하며, 여전히 하한이다.
스토하스틱 케이스에서는 복구 단계가 절대 활성화되지 않으며, 이는 예산 패싱 메커니즘에서 과도하게 경계를 설정하는 것을 방지하기 위해 매우 중요하다.
프레임워크는 제1가격 경매에서 ROI 제약 조건을 다룰 수 있도록 구현 가능하며, 엄밀히 가용해가 존재할 경우 예산 및 ROI 제약 조건에 대해 ˜O(T^{1/2})의 누적 위반을 달성한다.
프레임워크는 반복 경매에서 정의 제약 조건을 명시적으로 다룰 수 있으며, 평균 인상 분포가 각 카테고리당 ˜O(T^{-1/2}) 오차 내로 목표에 수렴하도록 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.