Skip to main content
QUICK REVIEW

[논문 리뷰] Optimal Learners for Multiclass Problems

Amit Daniely, Shai Shalev‐Shwartz|arXiv (Cornell University)|2014. 05. 10.
Machine Learning and Algorithms참고 문헌 16인용 수 34
한 줄 요약

이 논문은 최적의 다중 클래스 학습을 위해서는 잘못된 학습(가설 클래스 외부의 가설을 출력하는 것)이 필요하다는 것을 입증한다. 이를 통해 어떤 경험이론적 리스크 최소화(ERM) 규칙도 최적이 될 수 없다는 것을 보여준다. 논문은 샘플 복잡도를 상수 요인 이내로 특성화하는 데 사용되는 새로운 차원 $\text{dim}(\text{H})$를 도입하고, 한 번의 포함 알고리즘이 거의 최적의 샘플 복잡도를 달성함을 증명한다. 또한 일반화된 선형 분류기의 경우 계산적으로 효율적인 최적 학습기를 구성하여 ERM보다 더 나은 샘플 복잡도를 확보한다.

ABSTRACT

The fundamental theorem of statistical learning states that for binary classification problems, any Empirical Risk Minimization (ERM) learning rule has close to optimal sample complexity. In this paper we seek for a generic optimal learner for multiclass prediction. We start by proving a surprising result: a generic optimal multiclass learner must be improper, namely, it must have the ability to output hypotheses which do not belong to the hypothesis class, even though it knows that all the labels are generated by some hypothesis from the class. In particular, no ERM learner is optimal. This brings back the fundmamental question of "how to learn"? We give a complete answer to this question by giving a new analysis of the one-inclusion multiclass learner of Rubinstein et al (2006) showing that its sample complexity is essentially optimal. Then, we turn to study the popular hypothesis class of generalized linear classifiers. We derive optimal learners that, unlike the one-inclusion algorithm, are computationally efficient. Furthermore, we show that the sample complexity of these learners is better than the sample complexity of the ERM rule, thus settling in negative an open question due to Collins (2005).

연구 동기 및 목표

  • 다중 클래스 분류에서 최적의 학습 방법을 규명하고자 하며, 특히 ERM 규칙의 한계를 감안할 때 이를 해결하고자 한다.
  • 이차적 분류에서 VC 차원을 다중 클래스 설정으로 일반화한 새로운 조합적 차원 $\text{dim}(\text{H})$를 사용하여 다중 클래스 가설 클래스의 샘플 복잡도를 특성화하고자 한다.
  • 한 번의 포함 알고리즘이 전이적 및 PAC 설정 모두에서 거의 최적의 샘플 복잡도를 달성함을 보여주며, 이는 이전 분석보다 향상된 결과이다.
  • 일반화된 선형 분류기의 경우 계산적으로 효율적인 최적 학습기를 구성하여 ERM의 샘플 복잡도를 능가하고자 한다.
  • Collins(2005)가 제기한 열린 문제를 해결하기 위해, 일반화된 선형 모델에서 ERM가 최적이 아니라는 것을 보여주고자 한다.

제안 방법

  • 특정 다중 클래스 쇄기 조건 하에서 $\mathcal{H}$가 쇄기하는 집합의 최대 크기를 정의하는 새로운 차원 개념 $\dim(\mathcal{H})$를 제안한다.
  • 샘플 수 $m$ 이후의 최선의 오차율을 측정하는 데 사용되는 새로운 수열 $\mu_{\mathcal{H}}(m)$를 활용하여 한 번의 포함 다중 클래스 학습기를 분석한다.
  • 한 번의 포함 학습기의 샘플 복잡도가 $\Theta\left(\frac{\mu_{\mathcal{H}}(m)}{m}\right)$임을 증명하여, 이는 전이적 설정에서 최적과 인치 2배 이내로 보장됨을 보여준다.
  • 전이적 학습에서 인도크티브 학습으로의 감소를 통해 최적성 보장을 PAC 모델로 확장하며, $\epsilon$ 및 $\delta$에 대해 로그 인자까지 허용한다.
  • 수열 $\mu_{\mathcal{H}}(m)$과 $\dim(\mathcal{H})$ 간의 관계를 연결하는 추측을 제기하며, $m \geq \dim(\mathcal{H})$일 때 $\mu_{\mathcal{H}}(m) = \Theta(\dim(\mathcal{H}))$라고 추측한다. 이는 샘플 복잡도의 깔끔한 특성화를 가능하게 한다.
  • 새로운 차원을 활용하여 일반화된 선형 분류기의 경우 계산적으로 효율적인 최적 학습기를 구성하며, ERM보다 더 나은 샘플 복잡도를 확보함으로써 Collins(2005)의 부정적 결과를 해결한다.

실험 결과

연구 질문

  • RQ1다중 클래스 분류에서 일반적인 최적 학습 알고리즘이 존재하는가? 만약 존재한다면, 그 성질은 무엇인가?
  • RQ2이차적 분류에서 VC 차원과 유사하게, 단일 조합적 차원으로 다중 클래스 학습의 샘플 복잡도를 특성화할 수 있는가?
  • RQ3왜 ERM는 다중 클래스 설정에서 최적이 아니며, 어떤 학습 규칙의 구조적 성질이 이를 충족하지 못하는가?
  • RQ4실제 가설 클래스인 일반화된 선형 모델의 경우 계산적으로 효율적인 최적 학습기를 구성할 수 있는가?
  • RQ5새로운 차원 $\dim(\mathcal{H})$는 Natarajan 차원이나 그래프 차원과 같은 기존 개념보다 샘플 복잡도를 더 날카롭게 특성화하는가?

주요 결과

  • 논문은 최적의 다중 클래스 학습 규칙가 반드시 잘못된 학습이어야 하며, 즉 가설 클래스 외부의 가설을 출력해야 한다는 것을 증명한다. 이는 ERM가 본질적으로 최적이 아니라는 것을 의미한다.
  • 한 번의 포함 알고리즘은 전이적 설정에서 최적과 인치 2배 이내의 샘플 복잡도를 달성하며, 이는 이전의 $\log(|\mathcal{Y}|)$ 요인 보장보다 향상된 결과이다.
  • 새로운 차원 $\dim(\mathcal{H})$는 Natarajan 차원과 그래프 차원 사이에 놓여 있다: $\Ndim(\mathcal{H}) \leq \dim(\mathcal{H}) \leq \Gdim(\mathcal{H})$이며, Natarajan의 결과를 유지하거나 초월하는 샘플 복잡도의 하한을 제공한다.
  • 일반화된 선형 분류기의 경우, 논문은 계산적으로 효율적인 최적 학습기를 구성하여 ERM의 샘플 복잡도를 뛰어넘는 결과를 도출한다. 이는 Collins(2005)에서 제기된 열린 문제를 해결한다.
  • 수열 $\mu_{\mathcal{H}}(m) = \Theta(\dim(\mathcal{H}))$라는 추측이 참이라면 샘플 복잡도는 깔끔하게 특성화될 수 있으며, $\epsilon_{\mathcal{H}}(m) = \Theta\left(\frac{\dim(\mathcal{H})}{m}\right)$ 및 $m_{\mathcal{H}}(\epsilon,\delta) = \Theta\left(\frac{\dim(\mathcal{H}) \log(1/\delta)}{\epsilon}\right)$가 성립한다.
  • 논문은 그래프 차원이 샘플 복잡도를 특성화하지 못함을 보여주며, 실제 샘플 복잡도보다 훨씬 클 수 있기 때문에 최적 학습을 특성화하는 데 부적절하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.