[논문 리뷰] A Web Scraping Methodology for Bypassing Twitter API Restrictions
저자들은 API 한도를 넘어 역사적 Twitter 데이터를 수집하기 위한 Scrapy 기반 웹 스크래핑 접근법을 제안하고, Django UI 및 확장 가능한 크롤링을 위한 Scrapyd 데몬화를 포함합니다.
Retrieving information from social networks is the first and primordial step many data analysis fields such as Natural Language Processing, Sentiment Analysis and Machine Learning. Important data science tasks relay on historical data gathering for further predictive results. Most of the recent works use Twitter API, a public platform for collecting public streams of information, which allows querying chronological tweets for no more than three weeks old. In this paper, we present a new methodology for collecting historical tweets within any date range using web scraping techniques bypassing for Twitter API restrictions.
연구 동기 및 목표
- API 제약을 넘어 NLP, ML 및 감정 분석을 위한 역사적 Twitter 데이터의 필요성을 동기 부여한다.
- Twitter Search 엔드포인트를 활용하여 확장된 날짜 범위에 걸쳐 대량의 트윗을 수집하는 웹 스크래핑 방법론을 제안한다.
- 크롤러를 시작하고 모니터링하기 위한 GUI가 있는 배포 가능하고 데몬화된 시스템을 시연한다.
제안 방법
- 맞춤 HTTP 헤더를 사용하여 Twitter Search 엔드포인트로 고급 쿼리를 구성한다.
- HTML 페이로드에서 트윗을 추출하고 트윗 필드를 구문 분석하기 위해 Scrapy 기반 크롤러를 구현한다.
- 초기 검색 엔드포인트와 더 옛 결과를 위한 보조 타임라인 엔드포인트(최대 위치를 통한)를 사용하는 두 엔드포인트 전략을 사용한다.
- 최대 위치 값을 사용하여 다수의 트윗 라운드를 얻기 위해 반복적으로 페이지 매김한다.
- 데몬화된 일정 크롤링을 위한 scrapyd에 바인딩된 명령줄 인터페이스와 Django GUI를 제공한다.
- Scrapy 파이프라인을 통해 검색된 트윗을 관계형 또는 비관계형 데이터베이스에 저장한다.
실험 결과
연구 질문
- RQ1공개 검색 엔드포인트의 웹 스크래핑을 통해 표준 3주 창을 넘어 역사적 트윗을 검색할 수 있는가?
- RQ2확장된 날짜 범위에 걸친 페이지 매김과 함께 Scrapy 기반 파이프라인이 트윗을 수집하고 처리하는 효과는 어느 정도인가?
- RQ3총 트윗 수, 시간, 도달 범위 측면에서 Twitter API와 웹 스크래핑 접근법 간의 성능 트레이드오프는 무엇인가?
- RQ4GUI와 데몬화된 아키텍처가 대규모의 재현 가능한 트윗 데이터 수집을 단순화할 수 있는가?
주요 결과
- Twitter Scrapy는 같은 날짜 범위에서 48,929 트윗을 검색했고 Twitter API Stream은 46,000 트윗, 총 소요 시간이 1800s에서 1893s로 감소했습니다(참고: 표 3에 표시된 값).
- Twitter Scrapy는 Retweets 및 Mentions 제외 항목에서 48,601 트윗을 1,021초에 검색한 반면, API Search는 Retweets 및 Mentions 제외 항목에서 47,582 트윗을 2109초에 검색했다.
- 9-10-2017 to 19-10-2017 range에서, Twitter API Search는 29,895 트윗을 산출했고, Twitter Scrapy는 64,531 트윗을 산출했다.
- 본 방법론은 두 엔드포인트와 최대 위치 기반의 페이지 매김을 사용해 초기 결과를 넘어 더 오래된 트윗에 접근한다.
- EC2 환경에서 스크레이핑 작업의 스케줄링, 모니터링 및 배포를 가능하게 하는 Scrapyd 데몬이 있는 Django GUI를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.