[论文解读] A Network Perspective on Stratification of Multi-Label Data
该论文将迭代分层扩展到多标签数据的二阶标签关系(SOIS),将其与标准的 k-fold、labelset 和 IS 进行比较,并显示 SOIS 提高了折叠的稳定性、标签对证据以及网络时代指标,同时保持竞争性的泛化能力。
In the recent years, we have witnessed the development of multi-label classification methods which utilize the structure of the label space in a divide and conquer approach to improve classification performance and allow large data sets to be classified efficiently. Yet most of the available data sets have been provided in train/test splits that did not account for maintaining a distribution of higher-order relationships between labels among splits or folds. We present a new approach to stratifying multi-label data for classification purposes based on the iterative stratification approach proposed by Sechidis et. al. in an ECML PKDD 2011 paper. Our method extends the iterative approach to take into account second-order relationships between labels. Obtained results are evaluated using statistical properties of obtained strata as presented by Sechidis. We also propose new statistical measures relevant to second-order quality: label pairs distribution, the percentage of label pairs without positive evidence in folds and label pair - fold pairs that have no positive evidence for the label pair. We verify the impact of new methods on classification performance of Binary Relevance, Label Powerset and a fast greedy community detection based label space partitioning classifier. Random Forests serve as base classifiers. We check the variation of the number of communities obtained per fold, and the stability of their modularity score. Second-Order Iterative Stratification is compared to standard k-fold, label set, and iterative stratification. The proposed approach lowers the variance of classification quality, improves label pair oriented measures and example distribution while maintaining a competitive quality in label-oriented measures. We also witness an increase in stability of network characteristics.
研究动机与目标
- 在多标签数据集中,激励需要保持更高阶标签关系的分层数据划分。
- 提出一种扩展的分层算法(SOIS),它考虑二阶标签关系(标签对)。
- 使用统计、网络结构和分类稳定性指标,将 SOIS 与 k-fold、labelset 和迭代分层进行比较评估。
提出的方法
- 将 Sechidis 等人的 Iterative Stratification 扩展为包含二阶标签关系(标签对)
- 先按标签对的正证据分配样本,再按单标签证据分配,负证据用于达到折叠规模的可取性。
- 构建标签共现图(带权与无权),并应用快速贪婪模块化最大化来划分标签空间,以获得数据驱动的分区分类器。
- 在每个分区(社区)训练独立分类器并将它们的预测进行集合。
- 在16个 MULAN 数据集上使用 BR、LP,以及带权和无权图的数据驱动 LP 对分层进行评估;在统计、网络和泛化指标上与 k-fold 和 IS 进行比较。
实验结果
研究问题
- RQ1二阶关系在分层过程中是否能降低方差并改善折叠质量的稳定性,相较于一阶 IS 和传统方法?
- RQ2SOIS 如何影响折叠中标签和标签对证据的分布,以及对网络特性如模块性等的影响?
- RQ3SOIS 增强的折叠是否在 BR、LP 与数据驱动 LP 分类器上实现更稳定的泛化性能?
- RQ4SOIS 与替代的社区检测策略在保留多标签分类的标签空间结构方面的比较如何?
主要发现
| 数据集 | kfold 平均 | kfold 标准差 | labelset 平均 | labelset 标准差 | SOIS 平均 | SOIS 标准差 | IS 平均 | IS 标准差 |
|---|---|---|---|---|---|---|---|---|
| Corel5k | 0.828 | 0.04 | 0.820 | 0.28 | 0.699 | 0.01 | 0.709 | 0.01 |
| bibtex | 0.694 | 0.03 | 0.851 | 0.29 | 0.662 | 0.02 | 0.687 | 0.02 |
| delicious | 0.592 | 0.00 | 0.887 | 0.30 | 0.582 | 0.00 | 0.584 | 0.00 |
| emotions | 0.285 | 0.11 | 0.256 | 0.14 | 0.161 | 0.04 | 0.251 | 0.09 |
| enron | 0.649 | 0.07 | 0.806 | 0.28 | 0.578 | 0.02 | 0.602 | 0.02 |
| genbase | 0.686 | 0.15 | 0.601 | 0.31 | 0.487 | 0.16 | 0.494 | 0.14 |
| mediamill | 0.491 | 0.03 | 0.596 | 0.23 | 0.324 | 0.01 | 0.364 | 0.01 |
| medical | 0.762 | 0.06 | 0.762 | 0.30 | 0.736 | 0.03 | 0.751 | 0.04 |
| rcv1subset1 | 0.712 | 0.02 | 0.729 | 0.26 | 0.581 | 0.01 | 0.606 | 0.02 |
| rcv1subset2 | 0.712 | 0.05 | 0.727 | 0.26 | 0.574 | 0.01 | 0.598 | 0.02 |
| rcv1subset3 | 0.721 | 0.04 | 0.731 | 0.26 | 0.583 | 0.01 | 0.606 | 0.02 |
| rcv1subset4 | 0.720 | 0.08 | 0.709 | 0.26 | 0.574 | 0.01 | 0.600 | 0.02 |
| rcv1subset5 | 0.714 | 0.03 | 0.732 | 0.26 | 0.584 | 0.02 | 0.603 | 0.02 |
| scene | 0.711 | 0.10 | 0.277 | 0.11 | 0.276 | 0.05 | 0.312 | 0.14 |
| tmc2007-500 | 0.218 | 0.02 | 0.347 | 0.17 | 0.159 | 0.01 | 0.207 | 0.03 |
| yeast | 0.078 | 0.03 | 0.095 | 0.04 | 0.062 | 0.01 | 0.064 | 0.02 |
- SOIS 在跨折叠保留标签对证据方面优于标准的非网络分层,并降低折叠质量的变异性。
- 二阶分层提高与标签对相关的指标以及整体折叠统计量的稳定性,相比 IS 和 k-fold。
- SOIS 在训练/测试折叠间提供更稳定的网络特性(模块性、社区数量),尤其在带权图上。
- 分类稳定性(通过 BR、LP、FG/FGW 变体)与 SOIS 兼容或更好,使用 BR 或带权图时尤有显著提升。
- k-fold 在标签和标签对证据方面仍然平衡性较差;labelset 分层在大多数统计和网络指标中表现不佳;IS 和 SOIS 提供更好的稳定性,SOIS 在网络和折叠稳定性指标上常常优于 IS。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。