Skip to main content
QUICK REVIEW

[논문 리뷰] Inscriptis -- A Python-based HTML to text conversion library optimized for knowledge extraction from the Web

Albert Weichselbraun|arXiv (Cornell University)|2021. 07. 12.
Topic Modeling참고 문헌 14인용 수 7
한 줄 요약

Inscriptis는 웹 콘텐츠에서 고정밀 지식 추출을 위해 설계된 Python 기반의 HTML-to-text 변환 라이브러리입니다. HTML 및 CSS 속성을 해석함으로써 공간적 레이아웃과 의미적 구조를 유지하며, 중첩된 테이블과 같은 복잡한 레이아웃을 처리하는 데서 Lynx, HTML2text, BeautifulSoup와 같은 도구들보다 뛰어난 성능을 보입니다. 또한 하류 NLP 작업을 위한 사용자 정의 주석 기능을 지원합니다.

ABSTRACT

Inscriptis provides a library, command line client and Web service for converting HTML to plain text. Its development has been triggered by the need to obtain accurate text representations for knowledge extraction tasks that preserve the spatial alignment of text without drawing upon heavyweight, browser-based solutions such as Selenium. In contrast to related software packages, Inscriptis (i) provides a layout-aware conversion of HTML that more closely resembles the rendering obtained from standard Web browsers; and (ii) supports annotation rules, i.e., user-provided mappings that allow for annotating the extracted text based on structural and semantic information encoded in HTML tags and attributes. These unique features ensure that downstream knowledge extraction components can operate on accurate text representations, and may even use information on the semantics and structure of the original HTML document.

연구 동기 및 목표

  • 기존 도구들이 지식 추출을 위해 레이아웃 인식이 부족한 HTML-to-text 변환을 보완하기 위해.
  • 웹 브라우저에서 렌더링된 그대로의 텍스트 요소 배치를 유지하는 정확한 텍스트 표현을 제공하기 위해.
  • HTML 및 CSS의 구조적 및 의미적 메타데이터를 유지함으로써 하류 NLP 작업을 지원하기 위해.
  • 근접성 및 포맷팅 신호를 유지함으로써 엔티티 인식, 감성 분석, 키워드 추출 등의 성능을 향상시키기 위해.
  • 연구 파ip라인 및 수동 주석 워크플로우에 통합할 수 있도록 확장 가능한 주석 지원을 제공하기 위해.

제안 방법

  • display, white-space, margin-top, vertical-align 등의 HTML 및 CSS 속성을 해석하는 레이아웃 인식 파싱 엔진을 사용합니다.
  • 정렬 속성(예: align, valign)을 해석하는 규칙 기반 시스템을 적용하여 출력에서 텍스트 위치를 유지합니다.
  • 사용자 정의 주석 규칙을 통해 HTML 요소 및 속성을 의미 레이블로 매핑할 수 있도록 지원합니다.
  • doccano용 JSONL, XML, 주석 처리된 HTML를 포함한 다양한 형식의 구조화된 출력을 생성합니다.
  • 내부적으로 중첩된 테이블이나 목록을 손상시키지 않고 처리하여 콘텐츠의 정렬을 유지합니다.
  • 데이터 파이프라인 및 연구 워크플로우에 통합하기 위한 명령줄 인터페이스와 웹 서비스를 제공합니다.

실험 결과

연구 질문

  • RQ1지식 추출을 위해 HTML-to-text 변환을 어떻게 개선할 수 있을까요? 특히 공간적 레이아웃과 의미적 구조를 유지하는 데 초점을 맞춰야 합니다.
  • RQ2표준 도구와 비교했을 때, 레이아웃 인식 변환은 하류 NLP 성능에 얼마나 기여할까요?
  • RQ3사용자 정의 주석 규칙은 엔티티 인식 및 감성 분석에 추출된 텍스트의 유용성을 향상시킬 수 있을까요?
  • RQ4Inscriptis는 Selenium과 같은 브라우저 에뮬레이션 도구와 비교해 정확도와 성능 면에서 어떻게 다릅니까?
  • RQ5구조적 메타데이터(예: 볼드, 이텔릭, 제목 등)를 유지할 경우 하류 NLP 작업에 어떤 영향을 미칠까요?

주요 결과

  • Inscriptis는 중첩된 테이블과 같은 복잡한 HTML 구조를 정확히 렌더링하여 Lynx와 같은 도구에서 발생하는 정렬 오류를 방지합니다.
  • HTML2text, BeautifulSoup, Cheerio와 같은 인기 있는 라이브러리보다 공간적 텍스트 배열과 의미적 구조를 더 잘 유지합니다.
  • 텍스트 위치에 영향을 주는 HTML 및 CSS 속성의 광범위한 서브셋을 해석함으로써 레이아웃 인식 변환을 지원합니다.
  • 주석 규칙을 통해 하류 컴ponent들이 원본 HTML의 구조적 및 의미적 신호를 활용할 수 있어 NLP 작업 정확도가 향상됩니다.
  • Inscriptis는 MedMon, ReTV, EPOCH를 포함한 다수의 국립 및 유럽 연구 프로젝트에서 채택되었으며, webLyzard와 같은 상용 플랫폼에서도 사용되고 있습니다.
  • 2016년 이래로 PyPI에서 135,000회 이상 다운로드되며 연구 및 생산 환경에서 강력한 보급과 신뢰성을 입증하고 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.