Skip to main content
QUICK REVIEW

[论文解读] Penerapan Teknik Web Scraping pada Mesin Pencari Artikel Ilmiah

Ahmad Josi, Leon Andretti Abdillah|arXiv (Cornell University)|Oct 1, 2014
Educational Methods and Media Use被引用 1
一句话总结

本文提出了一种网络爬虫技术,用于从 Garuda、ISJD 和 Google Scholar 等免费学术搜索引擎索引科学文献。通过分析 HTML 结构和导航模式,该方法实现了数据提取的自动化,以支持学术信息检索,为利用开放获取资源构建学术搜索工具提供了实用框架。

ABSTRACT

Search engines are a combination of hardware and computer software supplied by a particular company through the website which has been determined. Search engines collect information from the through bots or crawlers that crawls the periodically. The process of retrieval of information from existing websites is called web scraping. Web scraping is a technique of extracting information from websites. Web scraping is closely related to Web indexing, as for how to develop a scraping technique that is by first studying the program makers HTML document from the website will be taken to the information in the HTML tag flanking the aim is for information collected after the program makers learn navigation techniques on the website information will be taken to a application mimicked the scraping that we will create. It should also be noted that the implementation of this writing only scraping involves a free search engine such as: portal garuda, Indonesian scientific journal databases (ISJD), google scholar.

研究动机与目标

  • 开发一种系统化方法,从开放获取的学术搜索引擎中提取科学文献数据。
  • 识别并实施导航技术,实现在多个学术门户间的一致性数据收集。
  • 设计一种网络爬虫应用程序,模拟人工浏览行为,从 HTML 标记内容中提取结构化信息。
  • 评估使用免费搜索引擎作为学术信息索引可靠数据源的可行性。
  • 提供一个可复用的爬取模型,用于利用公开网络资源构建学术搜索工具。

提出的方法

  • 该方法涉及分析目标网站的 HTML 结构,以定位与文献信息相关的数据标签。
  • 利用爬虫逻辑遍历搜索结果页面,并提取标题、作者和摘要等元数据。
  • 该方法依赖于对网站导航流程的理解,以模拟用户交互并访问更深层的内容层级。
  • 爬取逻辑通过自定义应用程序实现,该程序解析 HTML 并将提取的数据以结构化格式存储。
  • 仅针对免费访问的搜索引擎——Garuda、ISJD 和 Google Scholar——以确保符合公开可访问性要求。
  • 系统通过识别 HTML 标签位置和结构的一致性模式,支持动态内容的处理。

实验结果

研究问题

  • RQ1如何有效应用网络爬虫从免费学术搜索引擎中提取科学文献数据?
  • RQ2哪些 HTML 结构模式能够实现从 Garuda 和 ISJD 等学术门户中可靠地提取数据?
  • RQ3如何逆向工程导航技术,以实现在多个学术网站间的自动化数据收集?
  • RQ4将免费搜索引擎用作学术索引数据源存在哪些局限性?
  • RQ5能否开发出一种适用于多样化学术搜索平台的一致性爬取模型?

主要发现

  • 本研究成功实现了从 Garuda、ISJD 和 Google Scholar 等免费学术搜索引擎提取结构化文献数据的网络爬虫系统。
  • 该方法在分析 HTML 标签结构和导航模式的基础上,有效识别并提取了关键元数据。
  • 该应用程序能够模拟人工浏览行为,访问并收集多个结果页面的数据。
  • 该方法在无需应用程序编程接口(API)的情况下,证明了其在学术内容索引中的可行性。
  • 结果表明,开放获取的学术搜索引擎可作为自动化学术信息检索系统可靠的数据源。
  • 所开发的爬取模型支持仅使用公开网络内容构建轻量级学术搜索工具。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。