Skip to main content
QUICK REVIEW

[論文レビュー] TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision

Yunyi Zhang, Ruozhen Yang|arXiv (Cornell University)|Feb 29, 2024
Text and Document Classification Technologies被引用数 7
ひとこと要約

TELEClass は、コーパス主導のトピック用語でラベル分類系統を強化し、コアクラスの注釈とパスベースのデータ拡張の双方にLLMsを活用して、効果的な弱教師付き階層テキスト分類を可能にする。2つの公開データセットで従来の弱教師付き・ゼロショット手法を上回る。

ABSTRACT

Hierarchical text classification aims to categorize each document into a set of classes in a label taxonomy, which is a fundamental web text mining task with broad applications such as web content analysis and semantic indexing. Most earlier works focus on fully or semi-supervised methods that require a large amount of human annotated data which is costly and time-consuming to acquire. To alleviate human efforts, in this paper, we work on hierarchical text classification with a minimal amount of supervision: using the sole class name of each node as the only supervision. Recently, large language models (LLM) have shown competitive performance on various tasks through zero-shot prompting, but this method performs poorly in the hierarchical setting because it is ineffective to include the large and structured label space in a prompt. On the other hand, previous weakly-supervised hierarchical text classification methods only utilize the raw taxonomy skeleton and ignore the rich information hidden in the text corpus that can serve as additional class-indicative features. To tackle the above challenges, we propose TELEClass, Taxonomy Enrichment and LLM-Enhanced weakly-supervised hierarchical text Classification, which combines the general knowledge of LLMs and task-specific features mined from an unlabeled corpus. TELEClass automatically enriches the raw taxonomy with class-indicative features for better label space understanding and utilizes novel LLM-based data annotation and generation methods specifically tailored for the hierarchical setting. Experiments show that TELEClass can significantly outperform previous baselines while achieving comparable performance to zero-shot prompting of LLMs with drastically less inference cost.

研究の動機と目的

  • 最小限の監視下で、ノード名のみを監督として階層テキスト分類を動機づける。
  • コーパス由来のトピック用語で分類体系を強化して疑似ラベルの品質を向上させる。
  • タクソノミー指導のアノテーションとパスベースのデータ拡張のために大規模言語モデルを活用する。
  • コアクラスと生成された疑似データを用いて全体のタクソノミーを網羅する多ラベル分類器を訓練する。

提案手法

  • トップダウン候補検索とLLM選択によるコアクラスの注釈を強化し、文書のコアクラスを識別する。
  • コーパスに基づくタクソノミー強化で、コーパスからクラスを示すトピック用語を採掘し、タクソノミーを拡張する。
  • 埋め込みベースの文書-クラス整合性を用いてコアクラスを豊富化したタクソノミーでクロス文書比較可能性を高める。
  • ルートからリーフまでの各パスに対するLLM生成の疑似文書によるパスベースのデータ拡張で、タクソノミー全体をカバーする。
  • コアおよび生成された疑似ラベルを用いたロギュ−ビリ奈アントマッチングネットワークを用いて多ラベルテキスト分類器を訓練する。
Figure 1 . An example document tagged with 3 classes. We automatically enrich each node with class-indicative terms and utilize LLMs to facilitate classification.
Figure 1 . An example document tagged with 3 classes. We automatically enrich each node with class-indicative terms and utilize LLMs to facilitate classification.

実験結果

リサーチクエスチョン

  • RQ1クラス名のみを supervison として用いて階層テキスト分類を効果的に学習できるか?
  • RQ2コーパスベースのタクソノミー強化は弱教師付き設定で疑似ラベルの質と最終性能を改善するか?
  • RQ3LLMs を統合してコアクラスの注釈を強化し、タクソノミー認識のある疑似文書を生成するにはどうするか?
  • RQ4パスベースデータ拡張が大規模タクソノミーのカバーと精度に与える影響は?

主な発見

  • TELEClass は Amazon-531 および DBPedia-298 でゼロショットおよび弱教師付きベースラインの中で最高の性能を達成した。
  • タクソノミー強化とパスベースデータ生成は補完的な利得をもたらし、強化は下位レベルの識別を助け、生成は特に Amazon-531 でカバーを改善する。
  • アブレーション研究では Gen-Only, NoEnrich, NoGen 変種を示す; TELEClass は全要素を備えると最も強力な結果を出し、強化と生成の相対寄与はデータセットにより異なる。
  • GPT-3.5-turbo プロンプトと比較して、タクソノミー指針とデータ拡張を備えた慎重に設計された TELEClass は階層分類精度で優る。
  • 完全教師付き訓練が全体としては最も強力だが、TELEClass は最小 supervision 下でその差を大幅に縮める。
Figure 2 . Overview of the TELEClass framework.
Figure 2 . Overview of the TELEClass framework.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。