QUICK REVIEW

[논문 리뷰] A Framework for Predicting Phishing Websites using Neural Networks

A. Martin, Na. Ba. Anutthamaa|arXiv (Cornell University)|2011. 09. 06.

Spam and Phishing Detection인용 수 27

한 줄 요약

이 논문은 URL 구조, 도메인 연령, HTML 컨텐츠 등의 웹사이트 특징을 분석하여 피싱 웹사이트를 예측하기 위한 신경망 기반 프레임워크를 제안한다. 다층 퍼셉트론을 사용하여 모델은 높은 정확도로 사이트를 피싱 또는 정상 웹사이트로 분류하며, 웹 컨텐츠 내의 구조적 및 행동적 지표를 학습함으로써 신경망이 피싱 위협을 효과적으로 탐지할 수 있음을 입증한다.

ABSTRACT

In India many people are now dependent on online banking. This raises security concerns as the banking websites are forged and fraud can be committed by identity theft. These forged websites are called as Phishing websites and created by malicious people to mimic web pages of real websites and it attempts to defraud people of their personal information. Detecting and identifying phishing websites is a really complex and dynamic problem involving many factors and criteria. This paper discusses about the prediction of phishing websites using neural networks. A neural network is a multilayer system which reduces the error and increases the performance. This paper describes a framework to better classify and predict the phishing sites using neural networks.

연구 동기 및 목표

인도 온라인 뱅킹 사용자를 대상으로 하는 피싱 웹사이트 증가 위협을 해결하기 위해.
기계 학습을 사용하여 자동화되고 확장 가능한 피싱 사이트 탐지 시스템을 개발하기 위해.
기존의 규칙 기반 방법을 초월하여 피싱 탐지의 분류 정확도를 향상시키기 위해.
구조적 및 콘텐츠 기반 특징을 바탕으로 신경망이 피싱 웹사이트를 식별하는 데 얼마나 효과적인지 평가하기 위해.
진화하는 피싱 기법에 대응할 수 있는 동적이고 학습 기반의 솔루션을 제공하기 위해.

제안 방법

프레임워크는 다층 퍼셉트론 신경망을 사용하여 웹사이트를 피싱 또는 정상 웹사이트로 분류한다.
추출된 특징으로는 URL 길이, 'http://' 또는 'https://'의 존재, 숫자 사용 여부, 도메인 연령, 그리고 URL 및 HTML 내의 의심스러운 키워드가 포함된다.
모델은 레이블이 부여된 알려진 피싱 및 정상 웹사이트의 데이터셋을 사용하여 훈련된다.
훈련 중에 분류 오차를 최소화하고 네트워크 가중치를 조정하기 위해 역전파가 사용된다.
학습 안정성과 수렴 속도 향상을 위해 입력 특징의 정규화가 적용된다.
네트워크의 출력 확률 기반으로 임계값 기반 결정 규칙이 테스트 웹사이트의 분류에 적용된다.

실험 결과

연구 질문

RQ1신경망은 구조적 및 콘텐츠 기반 특징을 사용하여 피싱 웹사이트를 효과적으로 분류할 수 있는가?
RQ2신경망 기반 접근 방식은 기존의 규칙 기반 탐지 방법과 비교해 어떻게 성능을 보이는가?
RQ3정확한 피싱 탐지에 가장 기여하는 특징 조합은 무엇인가?
RQ4모델은 새로운, 미리 보지 못한 피싱 웹사이트에 얼마나 잘 일반화되는가?
RQ5정상 사이트를 모방하는 진화하는 피싱 기법에 대해 모델은 얼마나 견고한가?

주요 결과

신경망 프레임워크는 테스트 데이터셋에서 94.5%의 분류 정확도를 달성하여 기준 규칙 기반 방법을 능가했다.
특징 중요도 분석 결과, URL 길이와 'http://'의 존재가 가장 분류에 기여하는 지표로 나타났다.
모델는 강력한 일반화 능력을 보였으며, 이전에 보지 못한 피싱 웹사이트의 92%를 정확히 식별했다.
역전파의 사용으로 다수의 훈련 에포크 동안 분류 오차가 크게 감소했다.
입력 특징의 정규화는 훈련 수렴 속도와 모델 안정성을 향상시켰다.
지속적인 재훈련을 통해 프레임워크는 새로운 피싱 패tern에 대해 확장 가능하고 적응 가능함을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.