QUICK REVIEW

[논문 리뷰] Multi-Task Learning for Contextual Bandits

Aniket Anand Deshmukh, Ürün Doǧan|arXiv (Cornell University)|2017. 05. 24.

Advanced Bandit Algorithms Research참고 문헌 3인용 수 30

한 줄 요약

이 논문은 맥락적 밴디트에서 무기한으로 유사한 암을 공유함으로써 보상 추정을 향상시키고 회귀를 줄이는 데 목적이 있는 커널 기반 다중 작업 학습 상한 신뢰도(이하 KMTL-UCB) 알고리즘을 제안한다. 커널 기반 작업 유사성 행렬을 사용해 유사한 암들에서 데이터를 통합함으로써, 이 방법은 더 날카운 회귀 경계를 달성하고 기준선인 Lin-UCB 및 Kernel-UCB보다 실증적으로 뛰어나며, 특히 암들이 매우 유사할 경우에 두드러진 성능 향상을 보인다.

ABSTRACT

Contextual bandits are a form of multi-armed bandit in which the agent has access to predictive side information (known as the context) for each arm at each time step, and have been used to model personalized news recommendation, ad placement, and other applications. In this work, we propose a multi-task learning framework for contextual bandit problems. Like multi-task learning in the batch setting, the goal is to leverage similarities in contexts for different arms so as to improve the agent's ability to predict rewards from contexts. We propose an upper confidence bound-based multi-task learning algorithm for contextual bandits, establish a corresponding regret bound, and interpret this bound to quantify the advantages of learning in the presence of high task (arm) similarity. We also describe an effective scheme for estimating task similarity from data, and demonstrate our algorithm's performance on several data sets.

연구 동기 및 목표

표준 맥락적 밴디트 알고리즘이 각 암을 독립적으로 처리하거나 모든 암을 균일하게 통합하는 데서 비롯하는 한계를 해결하기 위해.
유사한 암들에서 데이터를 적응적으로 통합함으로써 맥락적 밴디트에서 보상 추정을 향상시키는 다중 작업 학습 프레임워크를 개발하기 위해.
다중 작업 맥락적 밴디트에서 작업 유사성의 이점을 정량화하는 이론적 회귀 경계를 수립하기 위해.
관측된 데이터로부터 실시간으로 작업 유사성을 추정하는 방법을 설계하기 위해.
실세계 데이터셋에서 알고리즘의 성능을 실증적으로 검증하여, 더 낮은 회귀와 더 높은 샘플 효율성을 입증하기 위해.

제안 방법

맥락과 작업 유사성의 커널화된 함수로 보상 함수를 모델링하는 커널 기반 다중 작업 학습 UCB(KMTL-UCB) 알고리즘을 제안한다.
암 식별자 간의 커널 함수를 통해 정의된 작업 유사성 행렬을 사용하여 유사한 암들 간의 공유 학습을 가능하게 한다.
신뢰도 항이 맥락과 작업 유사성 양쪽의 불확실성을 반영하는 상한 신뢰도 전략을 적용한다.
공통된 사전 구조를 사용해 암들 간의 보상 함수를 동시에 학습하는 정규화된 커널 리지 회귀 추정기를 활용한다.
관측된 보상 데이터와 커널 함수를 사용해 실시간으로 작업 유사성 행렬을 추정하는 데이터 기반 방법을 도입한다.
작업 유사성에 명시적으로 의존하는 회귀 경계를 유도하여, 암들이 매우 유사할 경우 성능 향상이 이루어짐을 보여준다.

실험 결과

연구 질문

RQ1작업 유사성 원리를 활용함으로써 다중 작업 학습 원칙이 맥락적 밴디트 설정에서 샘플 효율성과 회귀를 향상시킬 수 있는가?
RQ2다중 작업 맥락적 밴디트 프레임워크에서 작업 유사성은 이론적 회귀 경계에 어떻게 영향을 미치는가?
RQ3맥락적 밴디트 설정에서 제한된 온라인 보상 데이터로부터 작업 유사성을 효과적으로 추정하는 방법은 무엇인가?
RQ4제안된 KMTL-UCB 알고리즘은 표준 Lin-UCB 및 Kernel-UCB와 비교해 회귀와 수렴 속도 측면에서 어떻게 성능을 내는가?
RQ5맥락적 밴디트에서 독립적 학습 또는 완전히 통합된 학습보다 다중 작업 학습이 뚜렷한 이점을 제공하는 조건은 무엇인가?

주요 결과

KMTL-UCB의 회귀 경계는 작업 유사성 행렬의 최대 고유값의 합에 비례하여 스케일링되며, 이는 작업 유사성이 높을수록 회귀가 낮아짐을 보여준다.
합성 및 실세계 데이터셋에서 KMTL-UCB는 Lin-UCB 및 Kernel-UCB보다 유의미하게 낮은 회귀를 달성하며, 특히 암들이 매우 유사할 경우 두드러진 성능 향상을 보인다.
실시간으로 추정하는 작업 유사성 방법은 기저의 암 유사성을 효과적으로 포착하고 학습 성능을 향상시킨다.
다양한 클래스 데이터셋에 대한 실증 결과는 KMTL-UCB가 높은 작업 유사성 조건에서 기준선 방법 대비 누적 회귀를 최대 30% 감소시킴을 보여준다.
이론적 분석은 암들이 구조적 유사성을 공유할 경우 다중 작업 학습이 증명 가능한 이점을 제공하며, 작업 유사성이 증가할수록 회귀가 감소함을 확인한다.
알고리즘이 다양한 데이터 환경에서 강건하고 확장 가능하며, 특히 저자료 환경에서 성능 향상이 가장 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.