[논문 리뷰] Online Learning: A Comprehensive Survey
본 조사는 온라인 학습 문헌을 체계적으로 검토하며, 이 중 온라인 감독 학습과 부분 피드백 설정에 초점을 맞추고 이론적 기초와 분류 체계를 제시한다.
Online learning represents an important family of machine learning algorithms, in which a learner attempts to resolve an online prediction (or any type of decision-making) task by learning a model/hypothesis from a sequence of data instances one at a time. The goal of online learning is to ensure that the online learner would make a sequence of accurate predictions (or correct decisions) given the knowledge of correct answers to previous prediction or learning tasks and possibly additional information. This is in contrast to many traditional batch learning or offline machine learning algorithms that are often designed to train a model in batch from a given collection of training data instances. This survey aims to provide a comprehensive survey of the online machine learning literatures through a systematic review of basic ideas and key principles and a proper categorization of different algorithms and techniques. Generally speaking, according to the learning type and the forms of feedback information, the existing online learning works can be classified into three major categories: (i) supervised online learning where full feedback information is always available, (ii) online learning with limited feedback, and (iii) unsupervised online learning where there is no feedback available. Due to space limitation, the survey will be mainly focused on the first category, but also briefly cover some basics of the other two categories. Finally, we also discuss some open issues and attempt to shed light on potential future research directions in this field.
연구 동기 및 목표
- 온라인 학습의 핵심 아이디어, 원리 및 분류 체계를 요약한다.
- 학습 이론, 최적화, 게임 이론에서의 온라인 학습 기초를 검토한다.
- 온라인 감독 학습과 부분 피드백 설정을 강조하고 비지도 학습에 간략히 언급한다.
- 온라인 학습의 미해결 문제와 향후 연구 방향을 논의한다.
제안 방법
- 피드백 유형에 따라 온라인 학습 기법을 분류한다: 온라인 감독 학습, 제한된 피드백, 그리고 비지도 학습.
- 온라인 이진 분류와 후회 최소화에 대한 표준 문제 형식을 제시한다.
- 경험적 위험 최소화, 과잉 위험 분해 및 온라인 볼록 최적화 프레임워크를 설명한다.
- 주요 알고리즘 계열을 설명한다: 1차, 2차 및 정규화 기반 방법들 (OGD, ONS, FTRL, OMD, EG, AdaGrad).
- 온라인 학습 맥락에서 게임 이론 및 반복 제로합 게임과의 연관성을 개관한다.
실험 결과
연구 질문
- RQ1온라인 학습의 주요 카테고리와 피드백 모델은 무엇인가?
- RQ2온라인 학습을 뒷받침하는 기초 이론(학습 이론, 최적화, 게임 이론)은 무엇인가?
- RQ3핵심 온라인 볼록 최적화 방법과 그 후회 보장은 무엇인가?
- RQ4온라인 학습 알고리즘은 고전적 배치 학습 및 데이터 스트림과 어떻게 연관되는가?
- RQ5온라인 학습 연구에서 남아 있는 문제와 향후 방향은 무엇인가?
주요 결과
- 피드백에 따라 온라인 학습 방법의 분류 체계를 제공한다: 온라인 감독 학습, 제한된 피드백이 있는 온라인 학습, 그리고 온라인 비지도 학습.
- 온라인 학습 맥락에서 후회, 경험적 위험, 편향-분산 트레이드오프를 정의하고 논의한다.
- 일阶, 이阶 및 정규화 기반 온라인 최적화 알고리즘과 이들의 이론적 보장을 검토한다.
- 온라인 학습을 게임 이론과 연결하며, 반복 제로합 게임에서의 내쉬 균형 및 미니맥스 개념을 포함한다.
- 온라인 학습 및 온라인 볼록 최적화에서의 미해결 이슈와 잠재적 향후 연구 방향을 지적한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.