[論文レビュー] NeuroRule: A Connectionist Approach to Data Mining
この論文はニューラルネットワークから明示的で簡潔な分類ルールを抽出してデータマイニングを可能にすることを示し、NeuroRuleと決定木法を比較し、精度が競合的であることを示している。
Classification, which involves finding rules that partition a given data set into disjoint groups, is one class of data mining problems. Approaches proposed so far for mining classification rules for large databases are mainly decision tree based symbolic learning methods. The connectionist approach based on neural networks has been thought not well suited for data mining. One of the major reasons cited is that knowledge generated by neural networks is not explicitly represented in the form of rules suitable for verification or interpretation by humans. This paper examines this issue. With our newly developed algorithms, rules which are similar to, or more concise than those generated by the symbolic methods can be extracted from the neural networks. The data mining process using neural networks with the emphasis on rule extraction is described. Experimental results and comparison with previously published works are presented.
研究の動機と目的
- 伝統的な批判にもかかわらず、データマイニングにおける結合主義的手法の役割を主張する。
- ニューラルネットワークから明示的で実用的な分類ルールを抽出するアルゴリズムを開発する。
- 訓練、剪定、ルール抽出の機能を備えたデータマイニングシステムとしてNeuroRuleを提示する。
- ベンチマーク問題でC4.5という決定木のベースラインに対してNeuroRuleを実証的に評価する。
提案手法
- 入力・隠れ層・出力の3層前向きニューラルネットワークを用い、剪定のためのペナルティ項を含むクロスエントロピー誤差を適用する。
- 収束を促進するためにBFGSで学習を行う。
- 精度を保ちながら冗長な重みを除去する剪定アルゴリズムを適用する。
- 隠れノードの活性化を離散化し、入力から出力への依存関係を生成するルール抽出アルゴリズム(RX)を介して剪定後のネットワークから明示的なルールを抽出する。
- 高次数の隠れノードに対してサブネットワークを作成し、ルール抽出を簡素化することも可能。
- 抽出されたルールと精度をAgrawalらのベンチマーク問題でC4.5と比較する。
実験結果
リサーチクエスチョン
- RQ1訓練済みのニューラルネットワークから、精度を犠牲にせずに人間が解釈できる明示的なルールを抽出できるか。
- RQ2NeuroRuleはシンボリックに学習された方法(例: C4.5)と比較して、精度とルールの簡潔さの点でどうであるか。
- RQ3ネットワーク剪定がルール品質と計算効率に与える影響はどの程度か。
- RQ4ルール抽出プロセスは多数の属性を持つ大規模データベースへスケール可能か。
主な発見
| Func. | Pruned Networks Training | Pruned Networks Testing | C4.5 Training | C4.5 Testing |
|---|---|---|---|---|
| 1 | 98.1 | 100.0 | 98.3 | 100.0 |
| 2 | 96.3 | 100.0 | 98.7 | 96.0 |
| 3 | 98.5 | 100.0 | 99.5 | 99.1 |
| 4 | 90.6 | 92.9 | 94.0 | 89.7 |
| 5 | 90.4 | 93.1 | 96.8 | 94.4 |
| 6 | 90.1 | 90.9 | 94.0 | 91.7 |
| 7 | 91.9 | 91.4 | 98.1 | 93.6 |
| 9 | 90.1 | 90.9 | 94.4 | 91.8 |
- ニューラルネットワークは、関連する問題で決定木法よりも低い誤差を達成することが多い、簡潔で抽出可能なルールを生み出せる。
- Function 2の剪定後ネットワークは386の初期リンクのうちわずか17だけを使用し、コンパクトで解釈可能なルールを生み出した。
- NeuroRuleの分類精度は、複数のベンチマーク関数(例: Functions 1–3, 4–7, 9)においてC4.5と同等かそれ以上である。
- ルール抽出(RX)プロセスは隠れノードの活性化を離散化して依存関係を列挙し、入力を出力へマッピングするルールを生成する。
- 抽出されたルールは元の分類関数を密接に再現でき、単純な場合には厳密に一致する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。