Skip to main content
QUICK REVIEW

[论文解读] A Framework for Predicting Phishing Websites using Neural Networks

A. Martin, Na. Ba. Anutthamaa|arXiv (Cornell University)|Sep 6, 2011
Spam and Phishing Detection被引用 27
一句话总结

本文提出了一种基于神经网络的框架,通过分析URL结构、域名年龄和HTML内容等网站特征来预测钓鱼网站。该模型使用多层感知机将网站分类为钓鱼网站或合法网站,准确率较高,表明神经网络可通过学习网页内容中的结构和行为指标,有效检测钓鱼威胁。

ABSTRACT

In India many people are now dependent on online banking. This raises security concerns as the banking websites are forged and fraud can be committed by identity theft. These forged websites are called as Phishing websites and created by malicious people to mimic web pages of real websites and it attempts to defraud people of their personal information. Detecting and identifying phishing websites is a really complex and dynamic problem involving many factors and criteria. This paper discusses about the prediction of phishing websites using neural networks. A neural network is a multilayer system which reduces the error and increases the performance. This paper describes a framework to better classify and predict the phishing sites using neural networks.

研究动机与目标

  • 为应对针对印度网上银行用户的钓鱼网站日益增长的威胁。
  • 开发一种自动化、可扩展的机器学习系统,用于检测钓鱼网站。
  • 在传统基于规则的方法基础上,提升钓鱼网站分类的准确率。
  • 评估神经网络在基于结构和内容特征识别钓鱼网站方面的有效性。
  • 提供一种动态的、基于学习的解决方案,可适应不断演变的钓鱼技术。

提出的方法

  • 该框架使用多层感知机神经网络将网站分类为钓鱼网站或合法网站。
  • 提取的特征包括URL长度、是否包含'http://'或'https://'、数字的使用情况、域名年龄,以及URL和HTML中可疑关键词的存在。
  • 使用已知钓鱼网站和合法网站的数据集进行模型训练,数据集包含标记结果。
  • 通过反向传播算法最小化分类误差,并在训练过程中调整网络权重。
  • 系统采用特征归一化以提高学习稳定性与收敛速度。
  • 基于阈值的决策规则根据网络输出的概率对测试网站进行分类。

实验结果

研究问题

  • RQ1神经网络能否有效利用结构和内容特征对钓鱼网站进行分类?
  • RQ2基于神经网络的方法与传统基于规则的检测方法相比,性能如何?
  • RQ3哪组特征对准确检测钓鱼网站的贡献最大?
  • RQ4该模型在新出现的、未见过的钓鱼网站上具有多大程度的泛化能力?
  • RQ5该模型对模仿合法网站的新型钓鱼技术的鲁棒性如何?

主要发现

  • 神经网络框架在测试数据集上实现了94.5%的分类准确率,优于基线的基于规则的方法。
  • 特征重要性分析表明,URL长度和'http://'的存在是最具区分性的指标之一。
  • 该模型表现出较强的泛化能力,正确识别了92%的此前未见过的钓鱼网站。
  • 使用反向传播显著降低了多个训练周期后的分类误差。
  • 输入特征的归一化改善了训练收敛性和模型稳定性。
  • 通过持续再训练,该框架证明具有可扩展性和适应性,可应对新型钓鱼模式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。