[論文レビュー] A Network Perspective on Stratification of Multi-Label Data
この論文は、マルチラベルデータに対するSecond-Order Iterative Stratificationを拡張し、第二次ラベル関係(SOIS)を考慮した上で、従来のk-fold、labelset、ISと比較し、SOISがfold安定性、ラベルペアの証拠、およびネットワーク時代の指標の安定性を向上させつつ、一般化性能を維持することを示します。
In the recent years, we have witnessed the development of multi-label classification methods which utilize the structure of the label space in a divide and conquer approach to improve classification performance and allow large data sets to be classified efficiently. Yet most of the available data sets have been provided in train/test splits that did not account for maintaining a distribution of higher-order relationships between labels among splits or folds. We present a new approach to stratifying multi-label data for classification purposes based on the iterative stratification approach proposed by Sechidis et. al. in an ECML PKDD 2011 paper. Our method extends the iterative approach to take into account second-order relationships between labels. Obtained results are evaluated using statistical properties of obtained strata as presented by Sechidis. We also propose new statistical measures relevant to second-order quality: label pairs distribution, the percentage of label pairs without positive evidence in folds and label pair - fold pairs that have no positive evidence for the label pair. We verify the impact of new methods on classification performance of Binary Relevance, Label Powerset and a fast greedy community detection based label space partitioning classifier. Random Forests serve as base classifiers. We check the variation of the number of communities obtained per fold, and the stability of their modularity score. Second-Order Iterative Stratification is compared to standard k-fold, label set, and iterative stratification. The proposed approach lowers the variance of classification quality, improves label pair oriented measures and example distribution while maintaining a competitive quality in label-oriented measures. We also witness an increase in stability of network characteristics.
研究の動機と目的
- マルチラベルデータセットにおいて、より高次のラベル関係を preserve する層別データ分割の必要性を動機づける。
- 第二次ラベル関係(ラベルペア)を考慮した拡張された層別化アルゴリズム(SOIS)を提案する。
- SOISをk-fold、labelset、反復層化(iterative stratification)と、統計的、ネットワーク構造的、分類安定性指標を用いて評価する。
提案手法
- Sechidis らの Iterative Stratification を第二次ラベル関係(ラベルペア)を組み込むよう拡張する。
- ラベルペアに対する正の証拠で最初にサンプルを分配し、次に単一ラベルの証拠で分配し、負の証拠はfoldのサイズ要件を満たすように割り当てる。
- データ駆動の分割分類器のために、ラベル共起グラフ(重み付きおよび非重み付き)を構築し、速い貪欲的モジュラリティ最大化を適用してラベル空間を分割する。
- 各パーティション(コミュニティ)で個別の分類器を訓練し、それらの予測をアンサンブルする。
- 統計、ネットワーク、および一般化指標の両方で、BR、LP、およびデータ駆動LPを用いた重み付け graphs と非重み付け graphs の両方で、16のMULANデータセット上の層別化を評価し、k-foldおよびISと比較する。
実験結果
リサーチクエスチョン
- RQ1 stratificationプロセスにおける二次的関係(ラベルペア)は、第一次ISおよび従来法と比較して分散を低減し、fold品質の安定性を向上させるか。
- RQ2SOISはfold間のラベルおよびラベルペア証拠の分布と、モジュラリティなどのネットワーク特性にどのような影響を与えるか。
- RQ3SOIS強化された folds は BR、LP、データ駆動LP の分類器を通じた一般化性能をより安定して生み出すか。
- RQ4SOISはマルチラベル分類のラベル空間構造の保持において、他のコミュニティ検出戦略と比較してどの程度有利か。
主な発見
| データセット | kfold 平均 | kfold 標準偏差 | labelset 平均 | labelset 標準偏差 | SOIS 平均 | SOIS 標準偏差 | IS 平均 | IS 標準偏差 |
|---|---|---|---|---|---|---|---|---|
| Corel5k | 0.828 | 0.04 | 0.820 | 0.28 | 0.699 | 0.01 | 0.709 | 0.01 |
| bibtex | 0.694 | 0.03 | 0.851 | 0.29 | 0.662 | 0.02 | 0.687 | 0.02 |
| delicious | 0.592 | 0.00 | 0.887 | 0.30 | 0.582 | 0.00 | 0.584 | 0.00 |
| emotions | 0.285 | 0.11 | 0.256 | 0.14 | 0.161 | 0.04 | 0.251 | 0.09 |
| enron | 0.649 | 0.07 | 0.806 | 0.28 | 0.578 | 0.02 | 0.602 | 0.02 |
| genbase | 0.686 | 0.15 | 0.601 | 0.31 | 0.487 | 0.16 | 0.494 | 0.14 |
| mediamill | 0.491 | 0.03 | 0.596 | 0.23 | 0.324 | 0.01 | 0.364 | 0.01 |
| medical | 0.762 | 0.06 | 0.762 | 0.30 | 0.736 | 0.03 | 0.751 | 0.04 |
| rcv1subset1 | 0.712 | 0.02 | 0.729 | 0.26 | 0.581 | 0.01 | 0.606 | 0.02 |
| rcv1subset2 | 0.712 | 0.05 | 0.727 | 0.26 | 0.574 | 0.01 | 0.598 | 0.02 |
| rcv1subset3 | 0.721 | 0.04 | 0.731 | 0.26 | 0.583 | 0.01 | 0.606 | 0.02 |
| rcv1subset4 | 0.720 | 0.08 | 0.709 | 0.26 | 0.574 | 0.01 | 0.600 | 0.02 |
| rcv1subset5 | 0.714 | 0.03 | 0.732 | 0.26 | 0.584 | 0.02 | 0.603 | 0.02 |
| scene | 0.711 | 0.10 | 0.277 | 0.11 | 0.276 | 0.05 | 0.312 | 0.14 |
| tmc2007-500 | 0.218 | 0.02 | 0.347 | 0.17 | 0.159 | 0.01 | 0.207 | 0.03 |
| yeast | 0.078 | 0.03 | 0.095 | 0.04 | 0.062 | 0.01 | 0.064 | 0.02 |
- SOISはfold間のラベルペア証拠の保持において標準の非ネットワーク層別化を凌駕し、fold品質の変動を低減する。
- 二次階層化は、ISおよびk-foldと比較してラベルペア関連指標の安定性と全体的なfold統計を改善する。
- SOISは特に重み付きグラフで、訓練/テスト folds におけるネットワーク特性(モジュラリティ、コミュニティ数)の安定性を高める。
- 分類の安定性(BR、LP、FG/FGW 変種を通じて)はSOISで同等またはそれ以上であり、BRや重み付きグラフを用いた場合に顕著な利得を示す。
- k-foldはラベルおよびラベルペア証拠のバランスが不十分であり、labelset層別は多くの統計的およびネットワーク指標で低パフォーマンスを示す。一方、ISとSOISはより良い安定性を提供し、SOISはネットワークおよびfold安定性指標でISを上回ることが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。