Skip to main content
QUICK REVIEW

[논문 리뷰] Consistency of Online Random Forests

Misha Denil, David S. Matheson|arXiv (Cornell University)|2013. 02. 20.
Data Stream Mining Techniques참고 문헌 27인용 수 37
한 줄 요약

이 논문은 온라인 랜덤 포레스트에 대한 최초의 일致성 결과를 확립하여, 미약한 정규성 조건 하에서 알고리즘이 점차적으로 진짜 조건부 평균으로 수렴함을 증명한다. 고정 크기의 프링지 데이터 구조와 추정된 불순도 및 예측 오차 기반의 온라인 분할 규칙을 사용함으로써, 모든 관련 영역이 결국 탐색되고 분할되며, 스트리밍 데이터 제약 조건에도 불구하고 일치성을 달성한다.

ABSTRACT

As a testament to their success, the theory of random forests has long been outpaced by their application in practice. In this paper, we take a step towards narrowing this gap by providing a consistency result for online random forests.

연구 동기 및 목표

  • 온라인 학습 변종에 대한 이론적-실천적 격차를 메우기 위해 온라인 랜덤 포레스트의 일치성을 확립하기 위해.
  • 스트리밍 데이터에서도 예측 정확도를 유지할 수 있는 이론적으로 탄탄한 온라인 랜덤 포레스트 알고리즘을 개발하기 위해.
  • 학습 데이터가 축적됨에 따라 알고리즘의 예측이 진짜 회귀 함수로 수렴함을 증명하기 위해.
  • 나무 성장 과정이 고정 크기의 프링지 데이터 구조에 의해 제약을 받는 상황에서도 일치성을 보장하기 위해.

제안 방법

  • 나무 성장을 위해 아직 사용되지 않은 비활성 데이터 포인트를 저장하기 위해 고정 크기의 프링지 데이터 구조를 사용한다.
  • 추정된 불순도 감소와 예측 오차를 기반으로 분할을 선택하는 온라인 분할 규칙을 적용한다.
  • 분할 품질과 잎 예측의 추정 오차를 제한하기 위해 허프딩 부등식을 사용한다.
  • 과거의 트리 구조에 조건을 두고 모든 잎에 대한 유니온 바ounds를 사용하여 모든 영역이 결국 탐색됨을 보장한다.
  • 모든 양의 분할 잠재력을 가진 잎이 유한 시간 내에 임의로 높은 확률로 프링지에 추가되도록 보장하는 재귀적 분할 규칙을 도입한다.
  • 셀의 부피가 깊이에 따라 지수적으로 감소하는 축소 셀 논증을 사용하여 진짜 함수로의 수렴을 보장한다.

실험 결과

연구 질문

  • RQ1스트리밍 데이터 가정 하에서 온라인 랜덤 포레스트가 일치성으로 증명될 수 있는가?
  • RQ2고정 크기의 프링지 데이터 구조가 온라인 랜덤 포레스트의 일치성에 악영향을 미치는가?
  • RQ3추정된 불순도와 예측 오차 기반의 온라인 분할 규칙이 진짜 조건부 평균으로의 수렴을 보장할 수 있는가?
  • RQ4언제나 일부 데이터만을 사용하여 나무 성장을 수행할 경우에도 일치성을 유지할 수 있는가?

주요 결과

  • 온라인 랜덤 포레스트 알고리즘은 일치성이 있다: 학습 포인트 수가 증가함에 따라 예측값이 진짜 회귀 함수로 확률적으로 수렴한다.
  • 모든 양의 분할 잠재력을 가진 잎들은 유한 시간 내에 임의로 높은 확률로 프링지에 추가되며, 이는 어떤 영역도 영구적으로 忽시당하지 않음을 보장한다.
  • K번의 분할에 의해 생성된 임의의 셀의 기대 부피는 (2Dm+1)/(2Dm+2)^K로 지수적으로 감소하여 영역이 빠르게 축소됨을 보장한다.
  • 분할 수가 데이터 축적에 대해 선형보다 느리게 증가하는 한, 고정 크기의 프링지가 있더라도 일치성이 유지된다.
  • 허프딩 부등식을 사용하여 유도된 이론적 경계는 분할 품질과 예측의 추정 오차가 높은 확률로 제어됨을 보장한다.
  • 모든 잎에서 동시에 분할이 이루어지지 않더라도, 알고리즘은 점차적으로 축소 잎 조건을 만족한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.