QUICK REVIEW

[論文レビュー] A Topological Regularizer for Classifiers via Persistent Homology

Chao Chen, Xiuyan Ni|arXiv (Cornell University)|Jun 27, 2018

Topological and Geometric Data Analysis被引用数 54

ひとこと要約

TopoReg は、持続的ホモロジーを介して計算される境界成分のロバスト性重みに基づく数を減らすことで分類器境界を正則化するトポロジカルペナルティを導入し、カーネル分類器の標準損失とともにこの項を最適化します。

ABSTRACT

Regularization plays a crucial role in supervised learning. Most existing methods enforce a global regularization in a structure agnostic manner. In this paper, we initiate a new direction and propose to enforce the structural simplicity of the classification boundary by regularizing over its topological complexity. In particular, our measurement of topological complexity incorporates the importance of topological features (e.g., connected components, handles, and so on) in a meaningful manner, and provides a direct control over spurious topological structures. We incorporate the new measurement as a topological penalty in training classifiers. We also pro- pose an efficient algorithm to compute the gradient of such penalty. Our method pro- vides a novel way to topologically simplify the global structure of the model, without having to sacrifice too much of the flexibility of the model. We demonstrate the effectiveness of our new topological regularizer on a range of synthetic and real-world datasets.

研究の動機と目的

分類境界の単純さを全体的な滑らかさよりも優先して強制する正規化の動機づけ。
境界成分のロバスト性ベースのトポロジカルペナルティを定義。
区分対応のサロゲート関数を用いた微分可能な近似と勾配計算を開発。
このアプローチをカーネルロジスティック回帰に適用し、マルチラベル設定へ拡張。
合成データセットと実世界データセットで、幾何ベースの基準法と比較して有効性を実証。

提案手法

f の零レベル集合として分類器境界をモデル化する；分類は sign(f) によって行う。
境界成分 c のロバスト性 ρ(c) を、c を除去する最小の摂動を用いて持続性ペアリング (p_c, q_c) により定量化。
L_T(f) = 境界成分ごとに ρ(c)^2 を総和し、最もロバストな成分を除外。
領域を離散化する； f および -f の持続的 0D ホモロジーを計算してペアリング Π_f と Π_-f を得、ペアリングからロバスト性を導出。
格子上のけばき推定値 ĥf に対して L_T(ĥf) がほぼ everywhere 微分可能であることを示し、その勾配を導出。
核付きロジスティック回帰に適用する場合、トップロジカルペナルティとして ŷ = f − 0.5 を用いる； ∇_w L_T = sum_c 2ĥf(p_c^*, w) ∂ĥf(p_c^*, w)/∂w を核設定での明示形とともに計算。
マルチラベルへは per-class scalar 関数 ψ^k を用いて、それらのトポロジカルペナルティを集計することで拡張。

実験結果

リサーチクエスチョン

RQ1分類境界のトポロジー特性を正則化として利用することで過度な平滑化を避けつつ一般化を改善できるか。
RQ2 supervised 学習においてトポロジ的特徴のロバスト性をどう定量化・最適化するか。
RQ3トップロジカルペナルティと標準損失を組み合わせた最適化を効率的な勾配法で最小化できるか。
RQ4フレームワークをマルチラベル設定および連結成分を超える高次のトポロジー特徴へ拡張できるか。

主な発見

Dataset	KNN	LG	SVM	EE	DGR	KLR	TopoReg
Blob-2 (500,5)	7.61	8.20	7.61	8.41	7.41	7.80	7.20
Moons (500,2)	20.62	20.00	19.80	19.00	19.01	18.83	18.63
Moons (1000,2,Noise 0%)	19.30	19.59	19.89	17.90	19.20	17.80	17.60
Moons (1000,2,Noise 5%)	21.60	19.29	19.59	22.00	22.30	19.00	19.00
Moons (1000,2,Noise 10%)	21.10	19.19	19.89	24.40	26.30	20.00	19.70
Moons (1000,2,Noise 20%)	23.00	19.79	19.40	30.60	30.20	19.50	19.40
AVERAGE	18.87	17.68	17.70	20.39	20.74	21.63	16.92
SPECT (267,22)	17.57	17.20	18.68	16.38	23.92	18.31	17.54
Congress (435,16)	5.04	4.13	4.59	4.59	4.80	4.12	4.58
Molec. (106,57)	24.54	19.10	19.79	17.25	16.32	19.10	12.62
Cancer (286,9)	29.36	28.65	28.64	28.68	31.42	29.00	28.31
Vertebral (310,6)	15.47	15.46	23.23	17.15	13.56	12.56	12.24
Energy (768,8)	0.78	0.65	0.65	0.91	0.78	0.52	0.52
AVERAGE	15.46	14.20	15.93	14.16	15.13	13.94	11.80
KIRC (243,166)	30.12	28.87	32.56	31.38	35.50	31.38	26.81
fMRI (1092,19)	46.70	74.91	74.08	82.51	31.32	34.07	33.24

TopoReg は合成データセットと実世界データセットのいずれでも、強力なベンチマークを一貫して改善または同等に維持する。
トポロジー的ペナルティはラベルノイズに対して頑健で、ノイズ条件下で幾何学的正規化よりも優れる場合がある。
piecewise-linear のサロゲートを用いることで、トポロジカルペナルティの微分可能性と現実的な勾配計算を実現。
メソッドは効率的に動作し（平均約 2.08 秒/データセット）、さまざまなデータ規模に拡張可能。
TopoReg の平均性能は、 tested データセットでも伝統的なカーネル、SVM、幾何学ベースの正規化を上回ることが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。