[論文レビュー] Web Mining Research: A Survey
本稿は、データソースと目的に基づき、WebマイニングをWebコンテンツマイニング、Web構造マイニング、Web利用マイニングの3つのカテゴリーに体系的に分類する提案を行う。用語の混乱を明確にし、研究をこれらのカテゴリーにマッピングし、エージェントパラダイムと結びつける。情報検索、機械学習、自然言語処理分野における表現、学習アルゴリズム、応用の重要性を強調する。
With the huge amount of information available online, the World Wide Web is a fertile area for data mining research. The Web mining research is at the cross road of research from several research communities, such as database, information retrieval, and within AI, especially the sub-areas of machine learning and natural language processing. However, there is a lot of confusions when comparing research efforts from different point of views. In this paper, we survey the research in the area of Web mining, point out some confusions regarded the usage of the term Web mining and suggest three Web mining categories. Then we situate some of the research with respect to these three categories. We also explore the connection between the Web mining categories and the related agent paradigm. For the survey, we focus on representation issues, on the process, on the learning algorithm, and on the application of the recent works as the criteria. We conclude the paper with some research issues.
研究の動機と目的
- 研究コミュニティの間で曖昧で一貫性のない用語「Webマイニング」の使用を明確にすること。
- データソースと応用目的に基づき、Webマイニングの3カテゴリー枠組み(コンテンツマイニング、構造マイニング、利用マイニング)を提唱すること。
- 表現、プロセス、学習アルゴリズム、応用といった基準を用いて、各カテゴリーにおける最近の研究を分析・比較し、それらをこれらの3カテゴリーに位置づけること。
- Webマイニングのカテゴリーと知能的エージェントパラダイムとの関連を調査すること。
- 特にスケーラビリティ、時間的ダイナミクス、グラフベースの学習に注目した、Webマイニングにおける主な研究課題と今後の方向性を特定すること。
提案手法
- Webマイニングを3つの明確なカテゴリーに分類する:Webコンテンツマイニング(非構造化テキストから)、Web構造マイニング(ハイパーリンクグラフから)、Web利用マイニング(サーバーログおよびクリックストリームから)。
- 各カテゴリーにおける最近の研究を分析・比較するためのコア基準として、表現、プロセス、学習アルゴリズム、応用を用いる。
- 各Webマイニングカテゴリーを対応するエージェントパラダイムにマッピングする:コンテンツベースのエージェントをコンテンツマイニングに、構造認識型エージェントを構造マイニングに、ユーザーモデリングエージェントを利用マイニングに割り当てる。
- 情報検索、機械学習、自然言語処理分野で関連する主要な文献をレビューし、各カテゴリーに適したキーワークをサーベイする。
- Webマイニングにおけるグラフ構造の役割を分析し、Web固有のデータ構造を効果的に活用できる特殊な学習アルゴリズムの必要性を議論する。
- データベース、IR、機械学習コミュニティが交差する主要な応用分野として、情報統合およびWebウェアハウスプロジェクトを検討する。
実験結果
リサーチクエスチョン
- RQ1Webマイニングにおける主なデータソースと主な目的は何か。それらを体系的に分類する方法は何か?
- RQ2なぜ「Webマイニング」という用語は、さまざまな研究コミュニティ間でしばしば一貫性のない使い方をされるのか?
- RQ3提唱された3つのWebマイニングカテゴリー(コンテンツ、構造、利用)は、異なる種類の学習およびエージェント行動とどのように関連しているか?
- RQ4スケーラビリティ、マルチメディアコンテンツ、時間的ダイナミクスの観点から、従来のデータマイニング手法をWebデータに適用する際の主な課題は何か?
- RQ5機械学習と情報検索の技術を統合することで、検索、パーソナライゼーション、知識発見といったWebマイニング応用をどのように改善できるか?
主な発見
- 用語「Webマイニング」は頻繁に誤用され、異なる分野で混同されており、研究の比較や定義に混乱をもたらしている。
- Webマイニングは体系的に3つの明確なタイプに分類できる:コンテンツマイニング(テキストから)、構造マイニング(ハイパーリンクから)、利用マイニング(アクセスログから)、それぞれが固有のデータソースと目的を持つ。
- Webコンテンツマイニング分野の研究は、Web知識ベースやWebウェアハウスの構築を含む情報統合にますます注目しており、ワラッパー誘導やスキーママッチングを伴うことが一般的である。
- グラフ構造、特にハイパーリンクネットワークはWebマイニングにおいて広く存在し、トポロジカルな特徴を活用できる新しいまたは適応された機械学習アルゴリズムの開発に機会を提供する。
- Web利用マイニングはナビゲーションパターンの分析を通じてパーソナライゼーションとユーザーモデリングを可能にし、推薦システムや適応型Webインタフェースなどの応用を支援する。
- 情報統合およびWebウェアハウスプロジェクトにおいて、データベース、情報検索、機械学習コミュニティの統合が最も顕著に現れており、スキーマの異種性やワラッパーの保守といった課題に対処している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。