[論文レビュー] Beyond BeautifulSoup: Benchmarking LLM-Powered Web Scraping for Everyday Users
この論文は伝統的なスクレイピングツールとLLM搭載エージェントを比較し、非専門ユーザーがセキュリティ状況の異なる35サイトで何を達成できるかを評価します。LASとELAのワークフローを比較し、速度、信頼性、複雑さのトレードオフを強調します。
Web scraping has historically required technical expertise in HTML parsing, session management, and authentication circumvention, which limited large-scale data extraction to skilled developers. We argue that large language models (LLMs) have democratized web scraping, enabling low-skill users to execute sophisticated operations through simple natural language prompts. While extensive benchmarks evaluate these tools under optimal expert conditions, we show that without extensive manual effort, current LLM-based workflows allow novice users to scrape complex websites that would otherwise be inaccessible. We systematically benchmark what everyday users can do with off-the-shelf LLM tools across 35 sites spanning five security tiers, including authentication, anti-bot, and CAPTCHA controls. We devise and evaluate two distinct workflows: (a) LLM-assisted scripting, where users prompt LLMs to generate traditional scraping code but maintain manual execution control, and (b) end-to-end LLM agents, which autonomously navigate and extract data through integrated tool use. Our results demonstrate that end-to-end agents have made complex scraping accessible - requiring as little as a single prompt with minimal refinement (less than 5 changes) to complete workflows. We also highlight scenarios where LLM-assisted scripting may be simpler and faster for static sites. In light of these findings, we provide simple procedures for novices to use these workflows and gauge what adversaries could achieve using these.
研究の動機と目的
- オフ・ザ・シェルフツールを用いた初学者のウェブスクレイピングがどこまで民主化されたかを評価する。
- 多様なサイト保護を横断して、LLM支援スクリプティング(LAS)とエンドツーエンドLLMエージェント(ELA)の2つのワークフローを評価する。
- Extraction Success Rate、実行時間、 manual effort を指標として、 usability と reliability を定量化する。
- 各ワークフローをいつ使用すべきかの実践的ガイダンスを提供し、潜在的な乱用リスクを特定する。
提案手法
- 5つのセキュリティ階層を横断する35サイトのベンチマークを定義する。
- 従来のスクレイピング(BeautifulSoup、Scrapy)とエンドツーエンドLLMエージェント(Claude、Simular.ai)を比較する。
- 固定プロンプトと標準化評価環境を用いて、成功、時間、 manual effort を測定する。
- LASはLLMにコード生成を促し、ユーザーが実行する形で評価する;ELAはエージェント駆動のナビゲーションと抽出で評価する。
- アクセス、抽出、CSV連携データ出力をサイトごとに最大3回の試行で記録する。

実験結果
リサーチクエスチョン
- RQ1オフ・ザ・シェルフのスクレイピングツールで、非専門ユーザーは現実的に何を達成できるか。
- RQ2サイト難易度階層ごとに、LASとELAの成功率、速度、必要な手動労力はどう異なるか。
- RQ3認証、反ボット機能、CAPTCHAを備えたサイトで、LLMエージェントは従来ツールより有効か。
- RQ4自動化が、静的サイトと動的サイトのどちらでスクリプティングより有利になるのはどの段階か。
- RQ5民主化されたLLM搭載ウェブスクレイピングにはどのような防御的影響が生じるか。
主な発見
| カテゴリ | BeautifulSoup | Scrapy | Claude | Simular.ai |
|---|---|---|---|---|
| シンプルHTML | 0.93 | 0.82 | 1.00 | 1.00 |
| 複雑HTML | 0.80 | 0.20 | 0.57 | 1.00 |
| シンプル認証 | Not Supported | Not Supported | 0.20 | 0.63 |
| 複雑認証 | Not Supported | Not Supported | 0.12 | 0.70 |
| CAPTCHA | Not Supported | Not Supported | 0.05 | 0.10 |
- エンドツーエンドLLMエージェントは、複雑で保護されたサイトでスクリプトより著しく優れており、従来ツールが失敗する場面でアクセスを可能にする。
- Simular.aiは、単純/複雑なHTMLで完璧なESRを達成し、認証ページとCAPTCHAでのパフォーマンスは強力だが普遍的ではない。
- 静的HTMLの場合、伝統的ツールは依然として高速で効果的、LASは簡単なケースで2秒未満で高いESRを発揮。
- CAPTCHAとMFAが多いサイトでは伝統的ツールは失敗または実用的でない労力となる一方、LLMエージェントは実行時間が数十秒程度と slower だが実行可能性は維持。
- 明確な強みの差が存在する:静的抽出にはLASが優れ、複雑・動的・保護されたコンテンツにはELAが適している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。