QUICK REVIEW

[논문 리뷰] Online Learning with Predictable Sequences

Alexander Rakhlin, Karthik Sridharan|arXiv (Cornell University)|2012. 08. 18.

Advanced Bandit Algorithms Research참고 문헌 16인용 수 148

한 줄 요약

이 논문은 예측 가능한 순열(알려진 추세에 노이즈가 첨가된 순열)을 활용하는 온라인 학습 알고리즘을 제안하며, 최악의 경우 보장보다 더 날카운 감소한 리그레트 경계를 달성한다. 예측 가능한 과정에 대한 사전 지식을 통합함으로써, 이론적 안정성을 유지하면서도 유리한 순열에 적응하여 시계열 및 주식 예측과 같은 설정에서 향상된 성능을 달성한다.

ABSTRACT

We present methods for online linear optimization that take advantage of benign (as opposed to worst-case) sequences. Specifically if the sequence encountered by the learner is described well by a known "predictable process", the algorithms presented enjoy tighter bounds as compared to the typical worst case bounds. Additionally, the methods achieve the usual worst-case regret bounds if the sequence is not benign. Our approach can be seen as a way of adding prior knowledge about the sequence within the paradigm of online learning. The setting is shown to encompass partial and side information. Variance and path-length bounds can be seen as particular examples of online learning with simple predictable sequences. We further extend our methods and results to include competing with a set of possible predictable processes (models), that is "learning" the predictable process itself concurrently with using it to obtain better regret guarantees. We show that such model selection is possible under various assumptions on the available feedback. Our results suggest a promising direction of further research with potential applications to stock market and time series prediction.

연구 동기 및 목표

일반적인 온라인 학습 방법이 제공하는 최악의 경우 리그레트 경계 외에, 규칙적 또는 구조적인 순열에 대해서는 일반적으로 낙관적인 결과를 도출하지 못하는 한계를 해결한다.
관측된 순열이 약간의 예측 가능성을 가지는 경우, 즉 알려진 과정에 노이즈가 첨가된 경우에 대해 계산적으로 실현 가능한 알고리즘을 개발하여 더 날카운 리그레트 경계를 달성한다.
순열이 예측 가능하지 않은 경우에도 표준 최악의 경우 리그레트 경계를 유지하여 안정성을 확보한다.
여러 후보 예측 가능한 과정 중에서 최적의 것을 동시에 학습하고 최적화하는 것과 함께 모델 선택을 가능하게 하기 위해 프레임워크를 확장한다.
부분 정보 및 보조 정보 설정, 즉 온라인 볼록 최적화 및 밴딧 문제에 적용 가능하도록 한다.

제안 방법

순열을 예측 가능한 과정 $M_t$ 와 적대적 노이즈의 합으로 모델링하며, $M_t$ 에서의 이탈은 $\sigma_t$ 로 제한된다.
대칭화 원리와 제약 조건이 있는 적대적 분석을 사용하여 총 분산 $\sum_{t=1}^T \sigma_t^2$ 를 바탕으로 더 날카운 리그레트 경계를 유도한다.
$\sum_{t=1}^T \sigma_t^2$ 의 사전 지식이 필요 없도록 듀얼링 트릭(Doubleing Trick)을 적용하여 적응형 리그레트 경계를 가능하게 한다.
자기-일관성 장벽(Self-concordant barriers)을 사용하여 선형 최적화로의 감소를 통해 온라인 볼록 최적화에 이 방법을 적응적으로 적용한다.
단일 무기 밴딧 문제로의 감소를 통해 다중 무기 밴딧으로 확장하며, 관측된 보상에서 비편향 추정기를 사용한다.
단순체(Simplex) 위에 자기-일관성 장벽을 사용한 SCRiBLe 알고리즘을 적용하여 밴딧 설정에서 리그레트 경계를 도출하며, 시간과 차원에 대해 $O(\eta^{-1} \log dT)$ 의 의존성을 달성한다.

실험 결과

연구 질문

RQ1순열이 약간의 예측 가능성을 가지는 경우, 즉 알려진 추세에 유한한 노이즈가 첨가된 경우 온라인 학습 알고리즘이 더 날카운 리그레트 경계를 달성할 수 있는가?
RQ2최악의 경우에 대한 안정성을 훼손하지 않으면서 예측 가능한 과정에 대한 사전 지식를 온라인 학습에 통합할 수 있는가?
RQ3관측된 데이터에 가장 잘 맞는 예측 가능한 과정(모델)을 동시에 학습하면서 낮은 리그레트를 달성하는 것이 가능한가?
RQ4이 프레임워크는 온라인 볼록 최적화 및 밴딧 피드백과 같은 부분 정보 및 보조 정보 설정으로 확장 가능한가?
RQ5예측 가능한 과정이 알려져 있지 않지만 후보들이 제공되는 경우, 달성 가능한 가장 날카운 리그레트 경계는 무엇인가?

주요 결과

순열이 예측 가능한 과정에 가까운 경우, 제안된 알고리즘은 $O\left(\sum_{t=1}^T \sigma_t^2\right)^{1/2}$ 의 형태를 가진 리그레트 경계를 달성하며, 최악의 경우의 $O(\sqrt{T})$ 보다 크게 향상된다.
특정한 예측 가능한 구조가 존재하지 않는 경우에도 표준 최악의 경우 리그레트 경계 $O(\sqrt{T})$ 를 유지하여 안정성을 확보한다.
여러 예측 가능한 과정 간의 모델 선택이 가능하며, 다중 무기 밴딧 설정에서는 리그레트가 $O(\eta^{-1} \log(dT))$ 의 형태로 스케일링된다.
알고리즘은 적응형이다: $\sum_{t=1}^T \sigma_t^2$ 의 사전 지식이 필요 없으며, 듀얼링 트릭 덕분이다.
자기-일관성 장벽을 사용한 선형 최적화로의 감소를 통해 온라인 볼록 최적화로 프레임워크가 확장된다.
다중 무기 밴딧의 경우, 알고리즘은 기대 리그레트가 $\frac{1}{1 - 4\eta s d^2} \left( \inf_j \sum_{t=1}^T \langle e_j, x_t \rangle + d \eta^{-1} \log(dT) \right)$ 로 유계임을 보이며, 실용적 적용 가능성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.