Skip to main content
QUICK REVIEW

[논문 리뷰] Hierarchical Taxonomy-Aware and Attentional Graph Capsule RCNNs for Large-Scale Multi-Label Text Classification

Hao Peng, Jianxin Li|arXiv (Cornell University)|2019. 06. 09.
Text and Document Classification Technologies참고 문헌 56인용 수 26
한 줄 요약

이 논문은 문서를 단어 순서를 유지하는 그래프로 모델링하여 비연속적이고 장거리적인 의미적 특징과 국소적인 순차적 의존성을 모두 포착하는, 대규모 다중 레이블 텍스트 분류를 위한 새로운 엔드 투 엔드 프레임워크 HE-AGCRCNN을 제안한다. 주어진 레이블 계층 구조를 고려한 가중 마진 손실와 함께 주목사용 LSTM 및 캡슐 네트워크를 통합함으로써, RCV1 및 EUR-Lex 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하며, 레이블 계층을 효과적으로 활용함으로써 다중 레이블 분류 정확도를 크게 향상시킨다.

ABSTRACT

CNNs, RNNs, GCNs, and CapsNets have shown significant insights in representation learning and are widely used in various text mining tasks such as large-scale multi-label text classification. However, most existing deep models for multi-label text classification consider either the non-consecutive and long-distance semantics or the sequential semantics, but how to consider them both coherently is less studied. In addition, most existing methods treat output labels as independent methods, but ignore the hierarchical relations among them, leading to useful semantic information loss. In this paper, we propose a novel hierarchical taxonomy-aware and attentional graph capsule recurrent CNNs framework for large-scale multi-label text classification. Specifically, we first propose to model each document as a word order preserved graph-of-words and normalize it as a corresponding words-matrix representation which preserves both the non-consecutive, long-distance and local sequential semantics. Then the words-matrix is input to the proposed attentional graph capsule recurrent CNNs for more effectively learning the semantic features. To leverage the hierarchical relations among the class labels, we propose a hierarchical taxonomy embedding method to learn their representations, and define a novel weighted margin loss by incorporating the label representation similarity. Extensive evaluations on three datasets show that our model significantly improves the performance of large-scale multi-label text classification by comparing with state-of-the-art approaches.

연구 동기 및 목표

  • 기존 모델이 텍스트 내에서 비연속적이고 장거리적인 의미적 특징과 국소적인 순차적 의존성을 동시에 포착하는 데에 한계가 있음을 해결하기 위해.
  • 다중 레이블 텍스트 분류에서 계층적 레이블 의존성이 간과됨으로써 의미 정보 손실이 발생하는 문제를 해결하기 위해.
  • 다양한 텍스트 특징 유형과 계층적 레이블 구조를 일관되게 통합하는 효율적인 딥 러닝 프레임워크를 설계하기 위해.
  • 유럽 거리 제약 조건에 의존하는 기존의 재귀적 정규화 방법에 비해 계산 복잡도를 감소시키기 위해.
  • 문서 수준과 레이블 수준의 구조적 정보를 활용하여 대규모 다중 레이블 텍스트 데이터셋에서 분류 성능을 향상시키기 위해.

제안 방법

  • 각 문서를 단어 순서를 유지하는 워드-오더-퍼스레빙 그래프로 표현하고, 이를 정규화된 워드 매트릭스로 변환하여 장거리 및 순차적 의미를 모두 보존한다.
  • 변동 길이의 단어 시퀀스 블록을 모델링하기 위해 주목사용 LSTM 모듈을 활용하여 순차적 특징 학습을 향상시키기 위해 다양한 주목사용 가중치를 할당한다.
  • 특징 간 계층적 공간적 관계를 학습하기 위해 캡슐 네트워크를 통합하여 공간 변형에 대한 강건성과 특징 주목사용을 향상시킨다.
  • 계층적 분류 구조를 기반으로 한 레이블의 구조적 관계를 반영한 계층적 테이터노미-의식 임베딩 방법을 설계한다.
  • 레이블 표현 유사도를 통합한 새로운 가중 마진 손실을 제안하여 일반화 성능 향상과 오차 전파 감소를 도모한다.
  • 그래프 컬러이션 연산을 순환 및 캡슐 네트워크와 융합하여 텍스트 내 국소적, 순차적, 전역적 의미 패턴을 동시에 학습한다.

실험 결과

연구 질문

  • RQ1통합된 딥 러닝 프레임워크가 텍스트 문서 내에서 비연속적이고 장거리적인 의미적 특징과 국소적인 순차적 의존성을 효과적으로 포착할 수 있는가?
  • RQ2계층적 레이블 의존성이 다중 레이블 텍스트 분류 성능 향상에 효과적으로 모델링될 수 있는가?
  • RQ3손실 함수에 레이블 계층 구조를 통합할 경우 분류 정확도 및 일반화 능력 향상에 어느 정도 기여하는가?
  • RQ4캡슐 네트워크와 주목사용 메커니즘이 기존의 CNN/RNN 기반 접근법에 비해 다중 레이블 텍스트 분류에서 특징 표현을 개선할 수 있는가?
  • RQ5제안된 HE-AGCRCNN 모델은 대규모 다중 레이블 텍스트 분류 벤치마크에서 최신 기술 수준의 모델들과 비교해 성능 및 효율성 면에서 어떻게 비교되는가?

주요 결과

  • 제안된 HE-AGCRCNN 모델은 RCV1 및 EUR-Lex 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하며, 기존 SOTA 방법들을 능가하는 다중 레이블 분류 성능을 보였다.
  • 주목사용 LSTM의 통합은 특히 복잡한 문장 구조를 가진 장문의 문서에서 국소적인 순차적 의미적 특징을 모델링하는 데에 뚜렷한 향상을 이뤘다.
  • 계층적 테이터노미-의식 가중 마진 손실은 레이블 유사도와 계층적 구조를 활용하여 더 나은 일반화 성능과 오차 전파 감소를 이끌어냈다.
  • 캡슐 네트워크 구성 요소는 텍스트 특징 간 공간적 관계를 포착함으로써 특징 학습을 향상시키고 입력의 노이즈나 변형에 대한 강건성을 높였다.
  • 워드 매트릭스 표현 방식은 전통적인 백오브워드나 n-그램 표현 방식보다 풍부한 의미 정보를 유지하여 더 나은 성능을 달성했다.
  • 모델은 대규모 데이터셋에서 뛰어난 효율성과 확장성을 보였으며, 높은 계산 비용을 유발하는 재귀적 정규화 기반 모델들을 능가했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.