Skip to main content
QUICK REVIEW

[논문 리뷰] Detecting Phishing Sites Using ChatGPT

Takashi Koide, Naoki Fukushi|arXiv (Cornell University)|2023. 06. 09.
Spam and Phishing Detection인용 수 22
한 줄 요약

논문은 웹페이지를 크롤링하고 프롬프트를 생성하며 텍스트와 이미지를 분석하여 피싱 사이트를 탐지하는 시스템인 ChatPhishDetector를 소개합니다. GPT-4V가 다국어 데이터셋에서 거의 완벽에 가까운 정밀도와 재현율을 달성합니다.

ABSTRACT

The emergence of Large Language Models (LLMs), including ChatGPT, is having a significant impact on a wide range of fields. While LLMs have been extensively researched for tasks such as code generation and text synthesis, their application in detecting malicious web content, particularly phishing sites, has been largely unexplored. To combat the rising tide of cyber attacks due to the misuse of LLMs, it is important to automate detection by leveraging the advanced capabilities of LLMs. In this paper, we propose a novel system called ChatPhishDetector that utilizes LLMs to detect phishing sites. Our system involves leveraging a web crawler to gather information from websites, generating prompts for LLMs based on the crawled data, and then retrieving the detection results from the responses generated by the LLMs. The system enables us to detect multilingual phishing sites with high accuracy by identifying impersonated brands and social engineering techniques in the context of the entire website, without the need to train machine learning models. To evaluate the performance of our system, we conducted experiments on our own dataset and compared it with baseline systems and several LLMs. The experimental results using GPT-4V demonstrated outstanding performance, with a precision of 98.7% and a recall of 99.6%, outperforming the detection results of other LLMs and existing systems. These findings highlight the potential of LLMs for protecting users from online fraudulent activities and have important implications for enhancing cybersecurity measures.

연구 동기 및 목표

  • 대량의 라벨링 학습 데이터가 없어도 LLM을 활용한 자동 피싱 탐지의 필요성을 해결합니다.
  • 로고나 URL뿐만 아니라 전체 웹사이트 콘텐츠(텍스트와 시각 자료)를 분석하여 다국어 피싱 탐지가 가능하도록 합니다.
  • 프롬프트와 프롬프트 설계가 LLM을 통해 사회 공학 및 브랜딩 모방을 식별하는 데 기여함을 보여줍니다.
  • 실제 환경에서 ChatPhishDetector의 효과를 확립하기 위해 LLM과 기준선의 성능을 비교합니다.

제안 방법

  • 최종 URL, 브라우저 렌더링 HTML, 스크린샷을 수집하기 위해 웹사이트를 크롤링합니다. 필요 시 OCR로 텍스트를 추출합니다.
  • Chain-of-Thought 프롬프트를 사용한 프롬프트 엔지니어링으로 LLM이 네 가지 하위 작업(SE 기법, 브랜드 식별, 피싱/비피싱 결론, JSON 출력)을 안내하도록 합니다.
  • HTML과 OCR 텍스트를 간소화하여 토큰 한도에 맞추되 피싱 탐지의 핵심 신호를 보존합니다.
  • 두 가지 모드로 작동합니다: Normal(텍스트 입력)과 Vision(텍스트+이미지 입력)으로 다중 모달 LLM의 활용을 극대화합니다.
  • 1,000개의 피싱 사이트와 1,000개의 비피싱 사이트 데이터셋에서 여러 LLM(GPT-4, GPT-4V, GPT-3.5, Gemini Pro, Llama 2)과 기준선(dnstwist, Phishpedia)을 사용해 평가합니다.

실험 결과

연구 질문

  • RQ1LLM이 전체 웹사이트 콘텐츠(다국어 텍스트 및 시각 자료)를 분석하여 피싱 사이트를 탐지할 수 있는가?
  • RQ2입력 모드(텍스트 vs. 비전)에 따라 다른 LLM의 정밀도, 재현율, 로버스트성이 피싱 탐지에서 어떻게 비교되는가?
  • RQ3브랜드 모방, 사회 공학 신호, 도메인-브랜드 일관성과 같은 신호가 정확한 피싱 분류를 이끄는가?
  • RQ4프롬프트 기반 피싱 탐지가 실제 배포에 대해 비용 효율적이고 확장성이 있는가?

주요 결과

시스템모드모델정밀도재현율정확도F-측정URLHTML이미지피싱비피싱
ChatPhishDetectorVisionGPT-4V98.7%99.6%99.2%99.2%
Gemini Pro VisionVisionGemini Pro Vision78.9%99.1%89.1%87.9%
GPT-4NormalGPT-498.3%98.4%98.4%98.4%
GPT-3.5NormalGPT-3.598.3%86.7%92.6%92.1%
Llama-2-70BNormalLlama-2-70B78.4%66.4%74.1%71.9%
Gemini ProNormalGemini Pro90.5%95.6%93.2%93.0%
Simple GPT-4NormalSimple GPT-498.4%75.5%87.2%85.5%
GPT-3.5NormalGPT-3.598.6%77.5%88.2%86.8%
dnstwist----31.3%------
Phishpedia----26.0%------
  • GPT-4V(비전 모드)가 데이터셋에서 최상의 성능을 보이며 98.7%의 정밀도와 99.6%의 재현율을 달성했습니다.
  • GPT-4(일반 모드)도 98.3%의 정밀도와 98.4%의 재현율로 강한 성능을 보였으며, GPT-3.5는 피싱 재현율이 특히 낮아 다소 뒤처졌습니다(86.7%).
  • 시스템은 어려운 사례들에서 GPT-4/GPT-4V 실행에서 172개의 고도로 벗어난 피싱 사이트를 100% 탐지하는 것을 정확히 식별했습니다.
  • 기준선(dnstwist 31.3% 정밀도, Phishpedia 26.0% 정밀도)에 비해 ChatPhishDetector가 GPT-4V/GPT-4를 사용했을 때 훨씬 높은 정확도와 광범위한 커버리지를 제공했습니다(다국어 및 비로고 기반 피싱 포함).
  • 피싱 분류는 phishing_score 임계값으로 조정될 수 있으며 강력한 ROC 성능(AUC 최대 0.998 for GPT-4V)을 보입니다.
  • 피싱 탐지 비용과 지연 시간은 배포에 적합합니다(GPT-4V: 약 $0.179/사이트, 약 25초/추론).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.