QUICK REVIEW

[論文レビュー] An Algorithm to Extract Rules from Artificial Neural Networks for Medical Diagnosis Problems

S. M. Kamruzzaman, Md. Monirul Islam|arXiv (Cornell University)|Sep 23, 2010

Data Mining Algorithms and Applications参考文献 32被引用数 30

ひとこと要約

本稿では、訓練済みの3層フィードフォワード型人工ニューラルネットワーク（ANN）から解釈可能な分類ルールを抽出する4段階のアルゴリズムであるREANNを提案する。構成的手法を用いて隠れノードの数を決定し、不要な接続および入力を pruning し、ヒューリスティッククラスタリングによる隠れノード活性化の離散化を行い、圧縮されたネットワークからルールを抽出することで、乳がん、糖尿病、レンズのデータセットにおいて、他の手法と同等の高い予測精度とルール品質を達成する。

ABSTRACT

Artificial neural networks (ANNs) have been successfully applied to solve a variety of classification and function approximation problems. Although ANNs can generally predict better than decision trees for pattern classification problems, ANNs are often regarded as black boxes since their predictions cannot be explained clearly like those of decision trees. This paper presents a new algorithm, called rule extraction from ANNs (REANN), to extract rules from trained ANNs for medical diagnosis problems. A standard three-layer feedforward ANN with four-phase training is the basis of the proposed algorithm. In the first phase, the number of hidden nodes in ANNs is determined automatically by a constructive algorithm. In the second phase, irrelevant connections and input nodes are removed from trained ANNs without sacrificing the predictive accuracy of ANNs. The continuous activation values of the hidden nodes are discretized by using an efficient heuristic clustering algorithm in the third phase. Finally, rules are extracted from compact ANNs by examining the discretized activation values of the hidden nodes. Extensive experimental studies on three benchmark classification problems, i.e. breast cancer, diabetes and lenses, demonstrate that REANN can generate high quality rules from ANNs, which are comparable with other methods in terms of number of rules, average number of conditions for a rule, and predictive accuracy.

研究の動機と目的

医療診断における人工ニューラルネットワークの「ブラックボックス」問題に対処し、その予測を説明可能にする。
訓練済みのANNを人間が読み取り可能な分類ルールに変換する体系的な手法を開発する。
pruningと離散化を通じてモデルの複雑さを低減しつつ、予測精度を維持する。
臨床意思決定支援のため、最小限の条件で高精度なルールを生成する。
標準的な医療診断データセットを用いて、本手法の実用的有効性を検証する。

提案手法

段階1では、3層フィードフォワード型ANNにおける最適な隠れノード数を自動的に決定する構成的手法を用いる。
段階2では、予測性能を損なわず、訓練済みANNからの不要な接続および入力ノードをpruningする。
段階3では、効率的なヒューリスティッククラスタリングアルゴリズムを用いて、連続的な隠れノード活性化値を離散化する。
段階4では、隠れノードの離散化された活性化パターンを分析して分類ルールを抽出する。
ルール抽出プロセスは、圧縮・pruning・離散化されたネットワーク構造に基づき、入力条件から出力診断へのマッピングを実行する。
本手法は、3つのベンチマークデータセット（乳がん、糖尿病、レンズ）を用いて評価された。

実験結果

リサーチクエスチョン

RQ1体系的なアルゴリズムが、医療診断における高い予測精度を維持しつつ、訓練済みのANNから解釈可能なルールを抽出できるか？
RQ2提案されたpruningおよび離散化プロセスは、性能を損なわず、モデルの複雑さをどれほど効果的に低減できるか？
RQ3抽出されたルールは、他のルール抽出または分類手法と比較して、ルール数、ルール長、および精度の観点でどのように差がつくか？
RQ4REANNアルゴリズムは、標準的な医療データセットから臨床的に意味のある解釈可能なルールを生成できるか？
RQ54段階のプロセスは、最終的なルールセットの質および解釈可能性にどのような影響を与えるか？

主な発見

REANNは、乳がん、糖尿病、レンズの3つのベンチマーク医療診断データセットにおいて、訓練済みのANNから高品質なルールを効果的に抽出した。
抽出されたルールは、他の最先端のルール抽出および分類手法と同等の予測精度を達成した。
不要な接続および入力ノードのpruningにより、モデルの複雑さが低減され、よりコンactなネットワークが得られた。
ヒューリスティッククラスタリングアルゴリズムは、連続的な隠れノード活性化値の離散化を効果的に行い、信頼性の高いルール抽出を可能にした。
最終的なルールセットは、適切な数のルールと、1ルールあたりの平均条件数が少ないという特徴を持ち、解釈性が向上した。
結果から、REANNは医療診断用途におけるANNのブラックボックス問題に対する実用的な解決策を提供することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。