QUICK REVIEW

[논문 리뷰] Penerapan Teknik Web Scraping pada Mesin Pencari Artikel Ilmiah

Ahmad Josi, Leon Andretti Abdillah|arXiv (Cornell University)|2014. 10. 01.

Educational Methods and Media Use인용 수 1

한 줄 요약

이 논문은 Garuda, ISJD, Google Scholar와 같은 무료 학술 검색 엔진에서 과학 논문을 인덱싱하기 위한 웹 스크래핑 기법을 제안한다. HTML 구조와 탐색 패턴을 분석함으로써 데이터 추출을 자동화하여 학술 정보 검색을 지원하며, 공개 접근 가능한 자료를 활용한 학술 검색 도구 구축을 위한 실용적인 프레임워크를 기여한다.

ABSTRACT

Search engines are a combination of hardware and computer software supplied by a particular company through the website which has been determined. Search engines collect information from the through bots or crawlers that crawls the periodically. The process of retrieval of information from existing websites is called web scraping. Web scraping is a technique of extracting information from websites. Web scraping is closely related to Web indexing, as for how to develop a scraping technique that is by first studying the program makers HTML document from the website will be taken to the information in the HTML tag flanking the aim is for information collected after the program makers learn navigation techniques on the website information will be taken to a application mimicked the scraping that we will create. It should also be noted that the implementation of this writing only scraping involves a free search engine such as: portal garuda, Indonesian scientific journal databases (ISJD), google scholar.

연구 동기 및 목표

공개 접근 가능한 학술 검색 엔진에서 과학 논문 데이터를 체계적으로 추출하는 방법을 개발하기 위해.
다양한 학술 포털 간 일관된 데이터 수집을 위한 탐색 기법을 식별하고 구현하기 위해.
사용자 브라우징 행동을 모방하여 HTML 태그 기반 콘텐츠에서 구조화된 정보를 추출할 수 있는 웹 스크래핑 애플리케이션을 설계하기 위해.
무료 검색 엔진을 학술 정보 인덱싱에 신뢰할 수 있는 자료로 사용할 수 있는지 타당성을 평가하기 위해.
공개 웹 자원을 활용해 학술 검색 도구를 구축하기 위한 재사용 가능한 스크래핑 모델을 기여하기 위해.

제안 방법

대상 웹사이트의 HTML 구조를 분석하여 논문 정보와 관련된 데이터를 담고 있는 태그를 식별하는 데 초점을 맞춘다.
크롤러 로직을 사용하여 검색 결과 페이지를 순회하고 제목, 저자, 초록과 같은 메타데이터를 추출한다.
사용자 상호작용을 시뮬레이션하고 더 깊은 콘텐츠 계층에 접근하기 위해 웹사이트의 탐색 흐름을 이해하는 데 의존한다.
HTML을 파싱하고 추출된 데이터를 구조화된 형식으로 저장하는 커스터마이징 애플리케이션에 스크래핑 로직을 구현한다.
공개 접근이 보장되는 무료 접근 검색 엔진—Garuda, ISJD, Google Scholar—만을 대상으로 하여 공공 가용성 원칙을 준수한다.
HTML 태그 배치 및 구조의 일관된 패턴을 식별함으로써 동적 콘텐츠를 처리할 수 있도록 설계되었다.

실험 결과

연구 질문

RQ1웹 스크래핑은 어떻게 효과적으로 무료 학술 검색 엔진에서 과학 논문 데이터를 추출하는 데 적용될 수 있는가?
RQ2Garuda와 ISJD와 같은 학술 포털에서 신뢰할 수 있는 데이터 추출을 가능하게 하는 HTML 구조 패턴은 무엇인가?
RQ3다양한 학술 웹사이트 간의 데이터 수집을 자동화하기 위해 탐색 기법을 어떻게 역공학적으로 분석할 수 있는가?
RQ4무료 검색 엔진을 학술 인덱싱의 자료로 사용할 때의 한계는 무엇인가?
RQ5다양한 학술 검색 플랫폼에서 작동하는 일관된 스크래핑 모델을 개발할 수 있는가?

주요 결과

연구는 Garuda, ISJD, Google Scholar와 같은 무료 학술 검색 엔진에서 구조화된 논문 데이터를 추출하는 웹 스크래핑 시스템을 성공적으로 구현하였다.
HTML 태그 구조와 탐색 패턴 분석을 통해 핵심 메타데이터를 식별하고 추출하는 데 효과적이었다.
응용 프로그램은 여러 결과 페이지에 접근하고 데이터를 수집하기 위해 인간의 브라우징 행동을 모방할 수 있었다.
응용 프로그램은 API가 필요 없이도 학술 콘텐츠 인덱싱에 실현 가능함을 입증하였다.
결과적으로 무료 접근 학술 검색 엔진이 자동화된 학술 정보 검색 시스템의 신뢰할 수 있는 자료로 활용될 수 있음을 보여주었다.
개발된 스크래핑 모델은 공개적으로 이용 가능한 웹 콘텐츠만을 사용하여 경량의 학술 검색 도구를 구축하는 데 기여할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.