Skip to main content
QUICK REVIEW

[논문 리뷰] AttentionXML: Label Tree-based Attention-Aware Deep Model for High-Performance Extreme Multi-Label Text Classification

Ronghui You, Zihan Zhang|arXiv (Cornell University)|2018. 11. 01.
Text and Document Classification Technologies인용 수 93
한 줄 요약

AttentionXML은 XMTC를 극한 규모에서 처리하기 위한 다중 라벨 주의가 있는 라벨 트리 기반 심층 모델을 도입하여, 특히 tail 라벨에서 최첨단 성능을 달성합니다.

ABSTRACT

Extreme multi-label text classification (XMTC) is an important problem in the era of big data, for tagging a given text with the most relevant multiple labels from an extremely large-scale label set. XMTC can be found in many applications, such as item categorization, web page tagging, and news annotation. Traditionally most methods used bag-of-words (BOW) as inputs, ignoring word context as well as deep semantic information. Recent attempts to overcome the problems of BOW by deep learning still suffer from 1) failing to capture the important subtext for each label and 2) lack of scalability against the huge number of labels. We propose a new label tree-based deep learning model for XMTC, called AttentionXML, with two unique features: 1) a multi-label attention mechanism with raw text as input, which allows to capture the most relevant part of text to each label; and 2) a shallow and wide probabilistic label tree (PLT), which allows to handle millions of labels, especially for "tail labels". We empirically compared the performance of AttentionXML with those of eight state-of-the-art methods over six benchmark datasets, including Amazon-3M with around 3 million labels. AttentionXML outperformed all competing methods under all experimental settings. Experimental results also show that AttentionXML achieved the best performance against tail labels among label tree-based methods. The code and datasets are available at http://github.com/yourh/AttentionXML .

연구 동기 및 목표

  • XMTC를 매우 큰 라벨 집합으로 텍스트에 태깅하는 문제로 동기 부여하고, 맥락, 확장성, tail-label 성능의 도전을 다룬다.
  • 라벨별로 표현을 맞추기 위해 원시 텍스트에 주의를 사용하는 라벨 트리 기반의 심층 모델을 제안한다.
  • 수백만 개의 라벨에 대한 확장 가능한 학습 및 추론을 가능하게 하는 얕고 넓은 확률적 라벨 트리(PLT)를 도입한다.
  • 원시 텍스트에 대한 주의와 PLT의 조합이 다수의 데이터셋에서 baselines보다 우수한 성능을 낳으며, 특히 tail 라벨에 대해 그렇다.

제안 방법

  • 라벨의 초기 계층적 구분을 압축하여 트리 높이를 줄이고 라벨 분포를 균형 있게 만들기 위해 얕고 넓은 확률적 라벨 트리(PLT)를 구축한다.
  • raw text로부터 라벨별 다중 라벨 주의 메커니즘이 있는 BiLSTM 기반 신경 인코더를 사용해 라벨별 텍스트 표현을 생성한다.
  • 각 PLT 레벨마다 candidate-label-aware 샘플링을 사용하여 유용한 노드에 학습이 집중되도록 하는 레벨별 AttentionXML 모델을 학습시킨다.
  • 경로를 따라 확률 체인 규칙을 계산하여 레이블 점수를 얻으며 beam search로 PLT를 순회하여 예측한다.
  • 모델 크기 감소 및 일반화 개선을 위해 완전 연결층과 출력층에서의 파라미터를 레이블 간에 공유한다.
  • 얕은 레벨의 파라미터로 더 깊은 레벨 모델을 초기화해 수렴 속도를 높인다.

실험 결과

연구 질문

  • RQ1원시 텍스트에 대한 딥 어텐션을 가진 라벨 트리 기반 접근이 극단 규모에서 기존의 XMTC 방법을 능가할 수 있는가?
  • RQ2얕고 넓은 PLT가 tail-label 저하를 완화하고 tail-label 정확성을 향상시키는가?
  • RQ3레이블별 다중 주의가 단일 공유 표현보다 성능에 어떤 영향을 미치는가?
  • RQ4매우 큰 라벨 집합에 대해 앙상블 PLT가 정확도와 효율성에 어떤 영향을 주는가?

주요 결과

  • AttentionXML은 Amazon-3M를 포함한 여섯 XMTC 벤치마크에서 여덟 개의 최첨단 baselines를 능가했다(약 3백만 라벨).
  • AttentionXML-1(단일 PLT)은 이미 긴 텍스트 데이터셋에서 강력한 이득을 달성했으며; 앙상블 PLT가 정확도를 더 개선했다.
  • BiLSTM과 다중 라벨 주의의 조합은 XML-CNN 및 BiLSTM baselines보다 성능을 크게 개선했으며 특히 긴 텍스트에서 그렇다.
  • 얕고 넓은 PLT는 극한 규모의 데이터셋에서 확장 가능한 학습 및 추론을 가능하게 하면서도 경쟁력 있거나 우수한 정확도를 유지한다.
  • AttentionXML은 라벨 트리 방식 중 tail-label 성능이 우수하다는 것을 PSP@k 분석으로 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.