Skip to main content
QUICK REVIEW

[논문 리뷰] Bonsai -- Diverse and Shallow Trees for Extreme Multi-label Classification

Sujay Khandagale, Han Xiao|arXiv (Cornell University)|2019. 04. 17.
Text and Document Classification Technologies참고 문헌 42인용 수 111
한 줄 요약

tldr: Bonsai는 일반화된 레이블 표현과 얕고 분기가 큰 트리를 사용하여 빠른 학습과 꼬리 레이블 예측 정확도를 달성하고, 최신 트리 방법들을 능가하며 대규모 데이터셋에서 one-vs-rest와 견줄 만하다.

ABSTRACT

Extreme multi-label classification (XMC) refers to supervised multi-label learning involving hundreds of thousand or even millions of labels. In this paper, we develop a suite of algorithms, called Bonsai, which generalizes the notion of label representation in XMC, and partitions the labels in the representation space to learn shallow trees. We show three concrete realizations of this label representation space including : (i) the input space which is spanned by the input features, (ii) the output space spanned by label vectors based on their co-occurrence with other labels, and (iii) the joint space by combining the input and output representations. Furthermore, the constraint-free multi-way partitions learnt iteratively in these spaces lead to shallow trees. By combining the effect of shallow trees and generalized label representation, Bonsai achieves the best of both worlds - fast training which is comparable to state-of-the-art tree-based methods in XMC, and much better prediction accuracy, particularly on tail-labels. On a benchmark Amazon-3M dataset with 3 million labels, \\bonsai outperforms a state-of-the-art one-vs-rest method in terms of prediction accuracy, while being approximately 200 times faster to train. The code for Bonsai is available at \\url{https://github.com/xmc-aalto/bonsai}

연구 동기 및 목표

  • 전력 법칙 분포 아래 많은 꼬리 레이블을 갖는 XMC를 효율적으로 처리하도록 동기를 부여한다.
  • 입력 공간 레이블 표현을 넘어 확장하는 일반화된 레이블 표현 프레임워크를 제안한다.
  • 얕고 높은 차수 트리 구조를 개발하여 cascaded 예측에서의 오류 전파를 줄인다.
  • 다양한 레이블 표현과 얕은 트리를 결합하면 학습 속도와 정확도, 특히 꼬리 레이블에서의 성능이 함께 향상됨을 보여준다.

제안 방법

  • 각 레이블을 세 가지 공간에서 표현: 입력 공간(활성 인스턴스의 합), 출력 공간(다른 레이블과의 레이블 동시 발생), 그리고 입력 및 출력 표현을 연결하여 결합 공간으로 표현.
  • 레이블 공간을 K-means로 노드당 K개의 클러스터로 분할(K는 일반적으로 큼, K ≥ 100)하여 얕은 트리와 다양한 파티션을 생성.
  • 리프가 아닌 각 노드에서 K-way 원-대-나눗 분류기를 학습하여 트리를 따라 예측을 전달하고, 리프 노드에서 실제 레이블을 예측하는 원-대-나눗 분류기를 학습.
  • 다양성과 깊은 오류 전파를 피하기 위해 제약 없는 다중 방향(K-ary) 분할을 허용.
  • 예측 중 빔 탐색을 사용해 트리를 순회하고 리프 노드 분류기를 평가하여 전파 오류를 완화.

실험 결과

연구 질문

  • RQ1일반화된 레이블 표현이 XMC에서 파티션 품질과 꼬리 레이블 커버리지를 향상시킬 수 있는가?
  • RQ2차수를 늘려 얕은 트리를 만들면 깊은 이진 트리보다 오류 전파가 감소하고 꼬리 레이블 정확도가 향상되는가?
  • RQ3입력 공간, 출력 공간, 결합 공간 레이블 표현이 단독으로와 Bonsai 내 조합에서 어떻게 비교되는가?
  • RQ4웹 규모의 레이블 세트(예: 수백만 레이블)에 대한 Bonsai의 실용적 학습 속도와 확장성은 최첨단 방법에 비해 어떤가?
  • RQ5꼬리 레이블 분포와 특징 수가 다른 다양한 데이터셋에서 Bonsai의 성능은 어떤가?

주요 결과

  • 일반화된 레이블 표현을 사용하는 Bonsai는 여러 데이터셋에서 강력한 예측 성능과 꼬리 레이블 커버리지를 달성한다.
  • 고차-얕은 트리(K ≥ 100)가 더 깊은 이진 트리보다 오류 전파를 줄여 꼬리 레이블 정확도를 향상시킨다.
  • 공동 입력-출력 표현(Bonsai-io)은 보통 입력 전용(Bonsai-i)과 출력 전용(Bonsai-o)보다 우수하며, 특히 평균 레이블 수가 높은 경우에 그렇다.
  • 3백만 개의 레이블이 있는 Amazon-3M 데이터셋에서 Bonsai는 최첨단 한-대-다수(rest) 방법보다 학습 속도가 약 200배 빠르면서도 정확도는 경쟁력이 있다.
  • 다양한 데이터셋(EURLex-4K, Wikipedia-31K, WikiLSHTC-325K, Wikipedia-500K, Amazon-670K, Amazon-3M)에서 Bonsai 변형은 일관되게 Parabel보다 precision@k 및 nDCG@k 지표에서 우수한 성능을 보이며; DiSMEC은 특정 데이터셋에서 때때로 Bonsai를 앞서는 경우도 있지만 학습 비용이 상당히 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.