[論文レビュー] Graph Convolutional Networks for Text Classification
この論文は Text GCN を紹介します。語と文書のヘテロジニアスコーパスグラフを二層の Graph Convolutional Network で学習し、外部埋め込みなしでテキストを分類します。複数のベンチマークで強力な結果を達成します。
Text classification is an important and classical problem in natural language processing. There have been a number of studies that applied convolutional neural networks (convolution on regular grid, e.g., sequence) to classification. However, only a limited number of studies have explored the more flexible graph convolutional neural networks (convolution on non-grid, e.g., arbitrary graph) for the task. In this work, we propose to use graph convolutional networks for text classification. We build a single text graph for a corpus based on word co-occurrence and document word relations, then learn a Text Graph Convolutional Network (Text GCN) for the corpus. Our Text GCN is initialized with one-hot representation for word and document, it then jointly learns the embeddings for both words and documents, as supervised by the known class labels for documents. Our experimental results on multiple benchmark datasets demonstrate that a vanilla Text GCN without any external word embeddings or knowledge outperforms state-of-the-art methods for text classification. On the other hand, Text GCN also learns predictive word and document embeddings. In addition, experimental results show that the improvement of Text GCN over state-of-the-art comparison methods become more prominent as we lower the percentage of training data, suggesting the robustness of Text GCN to less training data in text classification.
研究の動機と目的
- グローバルな語の共起を活用して、グラフ構造としてのテキスト分類を動機づける。
- エンドツーエンド学習のための語と文書ノードを持つコーパス全体のヘテロジニアスグラフを提案する。
- 2層の Text GCN が外部埋め込みなしで最先端のベースラインを上回ることを示す。
- Text GCN が解釈可能な語と文書の埋め込みを生成し、ラベル付きデータが限られている場合にも頑健であることを示す。
提案手法
- コーパス全体の語と文書ノードを用いた大規模なヘテロジニアスグラフを構築する。
- 入力特徴量を語と文書のワンホットベクトル(同一行列)として設定する。
- 文書-語エッジをTF-IDFの重みに、語-語エッジをスライドウィンドウの共起から正の PMI で接続する。
- 二層のグラフ畳み込みネットワークを適用して情報を伝播し、ノード埋め込みを生成する。
- 二層目の埋め込みにソフトマックス分類子を用いて文書分類を行う。
- ラベル付き文書でクロスエントロピ損失でエンドツーエンドに訓練する。ティコノフ正則化と Adam 最適化を用いる。
実験結果
リサーチクエスチョン
- RQ1Text GCN は外部語埋め込みなしで標準的なテキスト分類ベンチマークで高精度を達成できるか?
- RQ2訓練中にモデルは有意義な語と文書の埋め込みを学習するか?
- RQ3限られたラベルデータでの Text GCN の性能はベースラインと比較してどうか?
- RQ4グラフ構築の選択(ウィンドウサイズ、PMI)が性能に与える影響は?
主な発見
| モデル | 20NG | R8 | R52 | Ohsumed | MR |
|---|---|---|---|---|---|
| TF-IDF + LR | 0.8319 ± 0.0000 | 0.9374 ± 0.0000 | 0.8695 ± 0.0000 | 0.5466 ± 0.0000 | 0.7459 ± 0.0000 |
| CNN-rand | 0.7693 ± 0.0061 | 0.9402 ± 0.0057 | 0.8537 ± 0.0047 | 0.4387 ± 0.0100 | 0.7498 ± 0.0070 |
| CNN-non-static | 0.8215 ± 0.0052 | 0.9571 ± 0.0052 | 0.8759 ± 0.0048 | 0.5844 ± 0.0106 | 0.7775 ± 0.0072 |
| LSTM | 0.6571 ± 0.0152 | 0.9368 ± 0.0082 | 0.8554 ± 0.0113 | 0.4113 ± 0.0117 | 0.7506 ± 0.0044 |
| LSTM (pretrain) | 0.7543 ± 0.0172 | 0.9609 ± 0.0019 | 0.9048 ± 0.0086 | 0.5110 ± 0.0150 | 0.7733 ± 0.0089 |
| Bi-LSTM | 0.7318 ± 0.0185 | 0.9631 ± 0.0033 | 0.9054 ± 0.0091 | 0.4927 ± 0.0107 | 0.7768 ± 0.0086 |
| PV-DBOW | 0.7436 ± 0.0018 | 0.8587 ± 0.0010 | 0.7829 ± 0.0011 | 0.4665 ± 0.0019 | 0.6109 ± 0.0010 |
| PV-DM | 0.5114 ± 0.0022 | 0.5207 ± 0.0004 | 0.4492 ± 0.0005 | 0.2950 ± 0.0007 | 0.5947 ± 0.0038 |
| PTE | 0.7674 ± 0.0029 | 0.9669 ± 0.0013 | 0.9071 ± 0.0014 | 0.5358 ± 0.0029 | 0.7023 ± 0.0036 |
| fastText | 0.7938 ± 0.0030 | 0.9613 ± 0.0021 | 0.9281 ± 0.0009 | 0.5770 ± 0.0049 | 0.7514 ± 0.0020 |
| fastText (bigrams) | 0.7967 ± 0.0029 | 0.9474 ± 0.0011 | 0.9099 ± 0.0005 | 0.5569 ± 0.0039 | 0.7624 ± 0.0012 |
| SWEM | 0.8516 ± 0.0029 | 0.9532 ± 0.0026 | 0.9294 ± 0.0024 | 0.6312 ± 0.0055 | 0.7665 ± 0.0063 |
| LEAM | 0.8191 ± 0.0024 | 0.9331 ± 0.0024 | 0.9184 ± 0.0023 | 0.5858 ± 0.0079 | 0.7695 ± 0.0045 |
| Graph-CNN-C | 0.8142 ± 0.0032 | 0.9699 ± 0.0012 | 0.9275 ± 0.0022 | 0.6386 ± 0.0053 | 0.7722 ± 0.0027 |
| Graph-CNN-S | – | 0.9680 ± 0.0020 | 0.9274 ± 0.0024 | 0.6282 ± 0.0037 | 0.7699 ± 0.0014 |
| Graph-CNN-F | – | 0.9689 ± 0.0006 | 0.9320 ± 0.0004 | 0.6304 ± 0.0077 | 0.7674 ± 0.0021 |
| Text GCN | 0.8634 ± 0.0009 | 0.9707 ± 0.0010 | 0.9356 ± 0.0018 | 0.6836 ± 0.0056 | 0.7674 ± 0.0020 |
- Text GCN は 20NG, R8, R52, Ohsumed データセットで複数のベースラインを上回る(統計的有意性 p<0.05)。
- Text GCN は比較的少ない訓練データでも競争力があり、ラベルデータが乏しい場合にも頑健である。
- モデルは文書クラスと相関する解釈可能な二層目の語埋め込みを学習する。
- 二層の GCN で十分であり、より多くの層を追加しても改善は見られない。
- 外部埋め込みなしで、Text GCN は長文データセットでいくつかの強い監視法を上回ることができる;MR(短文)はエッジが限られ語順モデリングが欠如しているため不利である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。