[論文レビュー] Detecting Phishing Sites Using ChatGPT
本論文は、ウェブページをクロールし、プロンプトを生成し、テキストと画像を分析することでフィッシングサイトを検出するシステム ChatPhishDetector を紹介します。GPT-4V は多言語データセットでほぼ完璧な精度と再現率を達成します。
The emergence of Large Language Models (LLMs), including ChatGPT, is having a significant impact on a wide range of fields. While LLMs have been extensively researched for tasks such as code generation and text synthesis, their application in detecting malicious web content, particularly phishing sites, has been largely unexplored. To combat the rising tide of cyber attacks due to the misuse of LLMs, it is important to automate detection by leveraging the advanced capabilities of LLMs. In this paper, we propose a novel system called ChatPhishDetector that utilizes LLMs to detect phishing sites. Our system involves leveraging a web crawler to gather information from websites, generating prompts for LLMs based on the crawled data, and then retrieving the detection results from the responses generated by the LLMs. The system enables us to detect multilingual phishing sites with high accuracy by identifying impersonated brands and social engineering techniques in the context of the entire website, without the need to train machine learning models. To evaluate the performance of our system, we conducted experiments on our own dataset and compared it with baseline systems and several LLMs. The experimental results using GPT-4V demonstrated outstanding performance, with a precision of 98.7% and a recall of 99.6%, outperforming the detection results of other LLMs and existing systems. These findings highlight the potential of LLMs for protecting users from online fraudulent activities and have important implications for enhancing cybersecurity measures.
研究の動機と目的
- LLM を活用した自動化されたフィッシング検出のニーズを、広範なラベル付き学習データを必要とせずに満たす。
- ロゴやURLだけでなく、ウェブサイト全体のテキストとビジュアルを分析して多言語のフィッシング検出を実現する。
- prompting と LLM のプロンプト設計が、社会工学とブランドなりすましを法域を超えて識別できることを示す。
- 現実のシナリオで ChatPhishDetector の有効性を、LLMs とベースラインと比較して検証する。
提案手法
- 必要に応じて OCR でテキストを抽出するため、最終 URL・ブラウザレンダリングHTML・スクリーンショットを収集するためにウェブサイトをクロールする。
- Chain-of-Thought プロンプトを用いたプロンプト工学により、LLMs を4つのサブタスク(SE 技術、ブランド識別、フィッシング/非フィッシング結論、JSON 出力)へ誘導する。
- HTML を簡略化し、OCR テキストを簡略化してトークン制限に適合させつつ、フィッシング検出の重要な信号を保持する。
- 通常モード(テキスト入力)とビジョンモード(テキスト+画像入力)の2つのモードで動作し、マルチモーダル LLM を活用する。
- 複数の LLM(GPT-4、GPT-4V、GPT-3.5、Gemini Pro、Llama 2)とベースライン(dnstwist、Phishpedia)を用い、1,000 件のフィッシングサイトと 1,000 件の非フィッシングサイトのデータセットで評価する。
実験結果
リサーチクエスチョン
- RQ1言語を横断してテキストとビジュアルを含むウェブサイト全体の内容を分析することで、LLM がフィッシングサイトを検出できるか。
- RQ2テキストモードとビジョンモードの異なる LLM と入力モードが、精度、再現率、堅牢性においてフィッシング検出でどう異なるか。
- RQ3ブランドなりすまし、ソーシャルエンジニアリングの手掛かり、ドメインとブランドの一貫性など、どの信号が正確なフィッシング分類を導くか。
- RQ4現実世界の展開に向けて、プロンプトベースのフィッシング検出は費用対効果が高くスケーラブルか。
主な発見
| System | Mode | Model | Precision | Recall | Accuracy | F-measure | URL | HTML | Image | Phishing | Non-phishing |
|---|---|---|---|---|---|---|---|---|---|---|---|
| ChatPhishDetector | Vision | GPT-4V | 98.7% | 99.6% | 99.2% | 99.2% | ✓ | ✓ | ✓ | ✓ | ✓ |
| Gemini Pro Vision | Vision | Gemini Pro Vision | 78.9% | 99.1% | 89.1% | 87.9% | ✓ | ✓ | ✓ | ✓ | ✓ |
| GPT-4 | Normal | GPT-4 | 98.3% | 98.4% | 98.4% | 98.4% | ✓ | ✓ | ✓ | ✓ | ✓ |
| GPT-3.5 | Normal | GPT-3.5 | 98.3% | 86.7% | 92.6% | 92.1% | ✓ | ✓ | ✓ | ✓ | ✓ |
| Llama-2-70B | Normal | Llama-2-70B | 78.4% | 66.4% | 74.1% | 71.9% | ✓ | ✓ | ✓ | ✓ | ✓ |
| Gemini Pro | Normal | Gemini Pro | 90.5% | 95.6% | 93.2% | 93.0% | ✓ | ✓ | ✓ | ✓ | ✓ |
| Simple GPT-4 | Normal | Simple GPT-4 | 98.4% | 75.5% | 87.2% | 85.5% | ✓ | ✓ | ✓ | ✓ | ✓ |
| GPT-3.5 | Normal | GPT-3.5 | 98.6% | 77.5% | 88.2% | 86.8% | ✓ | ✓ | ✓ | ✓ | ✓ |
| dnstwist | - | - | - | - | 31.3% | - | - | - | - | - | - |
| Phishpedia | - | - | - | - | 26.0% | - | - | - | - | - | - |
- GPT-4V(ビジョンモード)は、データセットで最高の性能を発揮し、98.7% の精度と 99.6% の再現率を達成。
- GPT-4(通常モード)も 98.3% の精度と 98.4% の再現率で強力に機能;GPT-3.5 は特にフィッシングの再現率が顕著に低い(86.7%)。
- システムは、GPT-4/GPT-4V の実行で、172 件の高度に適合しないフィッシングサイトを正しくすべて識別(検出率 100%)。
- ベースライン(dnstwist 31.3% 精度、Phishpedia 26.0% 精度)と比較して、GPT-4V/GPT-4 を用いた ChatPhishDetector は、はるかに高い精度と広いカバレッジ(多言語・非ロゴベースのフィッシングを含む)を提供。
- フィッシング分類は phishing_score の閾値調整で調整可能で、ROC の性能が高く(GPT-4V で AUC 最大 0.998)。
- フィッシング検出のコストと待機時間は導入可能なレベルである(GPT-4V:約 $0.179/サイト、推論約 25 秒)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。