QUICK REVIEW

[論文レビュー] A Framework for Predicting Phishing Websites using Neural Networks

A. Martin, Na. Ba. Anutthamaa|arXiv (Cornell University)|Sep 6, 2011

Spam and Phishing Detection被引用数 27

ひとこと要約

本論文では、URL構造、ドメイン年齢、HTMLコンテンツなどのウェブサイト特徴を分析することで、フィッシングウェブサイトを予測するニューラルネットワークベースのフレームワークを提案する。マルチレイヤーパーセプトロンを用いて、モデルは高い正確性でサイトをフィッシングまたは正当なものに分類する。これは、ニューラルネットワークがウェブコンテンツ内の構造的・行動的指標から学習することで、フィッシング脅威を効果的に検出できることを示している。

ABSTRACT

In India many people are now dependent on online banking. This raises security concerns as the banking websites are forged and fraud can be committed by identity theft. These forged websites are called as Phishing websites and created by malicious people to mimic web pages of real websites and it attempts to defraud people of their personal information. Detecting and identifying phishing websites is a really complex and dynamic problem involving many factors and criteria. This paper discusses about the prediction of phishing websites using neural networks. A neural network is a multilayer system which reduces the error and increases the performance. This paper describes a framework to better classify and predict the phishing sites using neural networks.

研究の動機と目的

インドのオンラインバンキングユーザーを標的とするフィッシングウェブサイトの増加する脅威に対処すること。
機械学習を用いて、自動的かつスケーラブルなフィッシングサイト検出システムを開発すること。
従来のルールベース手法を上回る、フィッシング検出の分類正確性を向上させること。
構造的およびコンテンツベースの特徴に基づいて、ニューラルネットワークがフィッシングウェブサイトを同定する有効性を評価すること。
進化を続けるフィッシングテクニックに適応可能な動的で学習ベースのソリューションを提供すること。

提案手法

フレームワークは、マルチレイヤーパーセプトロンニューラルネットワークを用いて、ウェブサイトをフィッシングまたは正当なものに分類する。
抽出された特徴には、URL長、'http://'または'https://'の有無、数字の使用、ドメイン年齢、およびURLおよびHTML内の懸念されるキーワードが含まれる。
モデルは、ラベル付きの結果を持つ既知のフィッシングサイトおよび正当なウェブサイトのデータセットを用いて訓練される。
分類誤差を最小化し、トレーニング中にネットワーク重みを調整するために、誤差逆伝播法が用いられる。
学習の安定性と収束速度を向上させるために、特徴の正規化が採用される。
ネットワークの出力確率に基づいて、しきい値に基づく意思決定ルールが、テストウェブサイトの分類に適用される。

実験結果

リサーチクエスチョン

RQ1構造的およびコンテンツベースの特徴を用いて、ニューラルネットワークが効果的にフィッシングウェブサイトを分類できるか？
RQ2ニューラルネットワークベースのアプローチの性能は、従来のルールベース検出手法と比べてどうか？
RQ3どの特徴の組み合わせが、正確なフィッシング検出に最も寄与するか？
RQ4モデルは、新しい未確認のフィッシングウェブサイトにどの程度一般化できるか？
RQ5モデルは、正当なサイトを模倣する進化を続けるフィッシングテクニックに対して、どの程度頑健か？

主な発見

ニューラルネットワークフレームワークは、テストデータセットで94.5％の分類正確性を達成し、ベースラインのルールベース手法を上回った。
特徴の重要度分析により、URL長と'http://'の有無が、最も判別に効果的な指標であることが示された。
モデルは優れた一般化性能を示し、未確認のフィッシングウェブサイトの92％を正しく同定した。
誤差逆伝播法の使用により、複数のトレーニングエポックにわたって分類誤差が顕著に減少した。
入力特徴の正規化により、トレーニング収束性とモデル安定性が向上した。
フレームワークは、継続的な再トレーニングを通じて、新しいフィッシングパターンにスケーラブルかつ適応可能であることが実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。