QUICK REVIEW

[論文レビュー] A Brief History of Web Crawlers

Seyed M. Mirtaheri, Mustafa Emre Dinçtürk|arXiv (Cornell University)|May 5, 2014

Web Data Mining and Analysis参考文献 55被引用数 32

ひとこと要約

この論文は、従来のクローラーからディープウェブおよびRIA（リッチインターネットアプリケーション）クローラーへのウェブクローラーの進化を包括的に調査し、そのアーキテクチャ、設計目的、課題を分析している。本稿ではRIAクローラーの分類法を提示し、完全性や状態カバレッジなどの基準を用いてその性能を評価し、モデルベースのクローリング、スケーラビリティ、動的ウェブアプリケーションにおけるウィジェット検出といった未解決の研究課題を特定している。

ABSTRACT

Web crawlers visit internet applications, collect data, and learn about new web pages from visited pages. Web crawlers have a long and interesting history. Early web crawlers collected statistics about the web. In addition to collecting statistics about the web and indexing the applications for search engines, modern crawlers can be used to perform accessibility and vulnerability checks on the application. Quick expansion of the web, and the complexity added to web applications have made the process of crawling a very challenging one. Throughout the history of web crawling many researchers and industrial groups addressed different issues and challenges that web crawlers face. Different solutions have been proposed to reduce the time and cost of crawling. Performing an exhaustive crawl is a challenging question. Additionally capturing the model of a modern web application and extracting data from it automatically is another open question. What follows is a brief history of different technique and algorithms used from the early days of crawling up to the recent days. We introduce criteria to evaluate the relative performance of web crawlers. Based on these criteria we plot the evolution of web crawlers and compare their performance

研究の動機と目的

初期のコンテンツインデキシングから現代のRIAクローリングに至るまでのウェブクローラーの歴史的発展をたどること。
ディープウェブおよびRIAクローラーのコアなコンponentsと設計戦略を特定・分類すること。
完全性、状態カバレッジ、効率性といった基準を用いて、クローラーの性能を比較するための評価基準を確立すること。
モデルベースの探索や状態爆発の緩和といった、RIAクローリングにおける未解決の研究課題を強調すること。
戦略、DOM処理、イベント処理技術に基づいて、RIAクローラーの分類法を提唱すること。

提案手法

クローリングは、アプリケーションの状態をノードとし、遷移をエッジとする有向グラフとしてモデル化される。
RIAクローラーは、クライント側コードを実行し、動的DOM状態をレンダリングするための仮想ブラウザとJavaScriptエンジンを用いる。
DOM-Seenモジュールは、ハッシュ比較や編集距離を用いて以前に観測済みの状態をチェックし、重複した探索を回避する。
イベント抽出モジュールはDOMからクライント側イベント（例：JavaScriptハンドラ）を特定し、URLを越えた状態遷移の発見を可能にする。
深さ優先探索、幅優先探索、およびコードカバレッジやDOMへの影響に基づくヒューリスティックな優先順位付けといった戦略が、イベント選択をガイドする。
高度なアプローチでは、最小チェーン分解、ラーラル・ポストマンソルバー、確率的モデルを用いて、状態カバレッジを最適化し、重複走査を削減する。

実験結果

リサーチクエスチョン

RQ1ウェブクローラーのアーキテクチャは、従来のURLベースのクローリングから、動的RIA状態を扱うものへどのように進化したか？
RQ2ディープウェブおよびRIAクローラーを特徴づける主な設計コンponentsと戦略は何か？
RQ3完全性、状態カバレッジ、効率性といった次元において、クローラーの性能をどのように客観的に評価できるか？
RQ4特にモデルベースの探索とスケーラビリティの面で、RIAクローリングにおける主要な未解決課題は何か？
RQ5独立したUIコンポーネント（ウィジェット）をどのように検出すれば、状態爆発を軽減し、クローリング効率を向上できるか？

主な発見

RIAクローラーは、URLが変更されない状態変更を処理する必要があり、URLベースのナビゲーションではなく、DOMベースの状態検出が必要である。
従来のクローリング戦略は、クライント側の状態遷移において常にURLが変更されるという前提に依存しているため、RIAでは機能しない。
DOMハッシュ化や編集距離比較といった技術は、RIAクローラーにおける以前に観測済みのアプリケーション状態の検出に有効である。
コードカバレッジや構造的影響が大きいイベントを優先するヒューリスティック戦略は、状態カバレッジを向上させ、重複した探索を削減する。
特に多数のイベント駆動型遷移を持つ複雑なRIAでは、指数的状態爆発の可能性があるため、スケーラビリティは依然として課題である。
すべての指標で最適なパフォーマンスを達成する単一のクローラー戦略は存在せず、完全性、効率性、スケーラビリティの間には必然的なトレードオフが存在する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。