QUICK REVIEW

[論文レビュー] Penerapan Teknik Web Scraping pada Mesin Pencari Artikel Ilmiah

Ahmad Josi, Leon Andretti Abdillah|arXiv (Cornell University)|Oct 1, 2014

Educational Methods and Media Use被引用数 1

ひとこと要約

本稿では、Garuda、ISJD、Google Scholarなどの無料の学術検索エンジンから科学的論文をインデキシングするためのウェブスクレイピング技術を提案する。HTML構造とナビゲーションパターンを分析することで、学術的情報検索を支援するためのデータ抽出を自動化し、オープンアクセスリソースを用いた学術検索ツールの構築に実用的なフレームワークを貢献する。

ABSTRACT

Search engines are a combination of hardware and computer software supplied by a particular company through the website which has been determined. Search engines collect information from the through bots or crawlers that crawls the periodically. The process of retrieval of information from existing websites is called web scraping. Web scraping is a technique of extracting information from websites. Web scraping is closely related to Web indexing, as for how to develop a scraping technique that is by first studying the program makers HTML document from the website will be taken to the information in the HTML tag flanking the aim is for information collected after the program makers learn navigation techniques on the website information will be taken to a application mimicked the scraping that we will create. It should also be noted that the implementation of this writing only scraping involves a free search engine such as: portal garuda, Indonesian scientific journal databases (ISJD), google scholar.

研究の動機と目的

オープンアクセスの学術検索エンジンから科学的論文データを抽出するための体系的アプローチを開発すること。
複数の学術ポータルにわたる一貫したデータ収集を実現するためのナビゲーション技術を特定および実装すること。
HTMLタグ付きコンテンツから構造化された情報を抽出するために、人間のブラウジング行動を模倣するウェブスクレイピングアプリケーションを設計すること。
無料の検索エンジンを学術的情報インデキシングの信頼できるソースとして使用する可能性を評価すること。
公開利用可能なウェブリソースを活用して学術検索ツールを構築するための再利用可能なスクリーピングモデルを貢献すること。

提案手法

対象ウェブサイトのHTML構造を分析し、論文情報に関連するデータを含むタグを特定する。
クローラーロジックを用いて検索結果ページをナビゲートし、タイトル、著者、要旨などのメタデータを抽出する。
ウェブサイトのナビゲーションフローを理解することで、ユーザーの操作をシミュレートし、より深いコンテンツレイヤーにアクセスする。
HTMLを解析し、抽出されたデータを構造化された形式に格納するカスタムアプリケーションでスクリーピングロジックを実装する。
公開アクセスが保証されていることから、Garuda、ISJD、Google Scholarなどの無料アクセスの検索エンジンのみを対象とした。
HTMLタグの配置と構造における一貫したパターンを特定することで、動的コンテンツに対処するように設計された。

実験結果

リサーチクエスチョン

RQ1ウェブスクレイピングは、無料の学術検索エンジンから科学的論文データを効果的に抽出するためにどのように適用可能か？
RQ2Garuda や ISJD などの学術ポータルから信頼性の高いデータ抽出を可能にするHTML構造のパターンは何か？
RQ3複数の学術ウェブサイトにわたるデータ収集を自動化するために、ナビゲーション技術をどのように逆算的に設計できるか？
RQ4学術インデキシングのデータソースとして無料の検索エンジンを使用する際の制限とは何か？
RQ5多様な学術検索プラットフォームに適用可能な一貫性のあるスクリーピングモデルを構築することは可能か？

主な発見

本研究では、Garuda、ISJD、Google Scholarなどの無料の学術検索エンジンから構造化された論文データを抽出するウェブスクレイピングシステムを成功裏に実装した。
HTMLタグ構造とナビゲーションパターンの分析を通じて、キーメタデータを特定および抽出する手法が有効であることが示された。
アプリケーションは、複数の結果ページにわたるアクセスとデータ収集を、人間のブラウジング行動を模倣することで実現した。
アプリケーションプログラミングインターフェース（API）を必要とせずに、学術的コンテンツのインデキシングが実現可能であることが実証された。
結果から、オープンアクセスの学術検索エンジンが自動学術情報検索システムの信頼できるデータソースとして利用可能であることが示された。
開発されたスクリーピングモデルは、公開利用可能なウェブコンテンツのみを用いて、軽量な学術検索ツールの構築を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。