Skip to main content
QUICK REVIEW

[论文解读] Inscriptis -- A Python-based HTML to text conversion library optimized for knowledge extraction from the Web

Albert Weichselbraun|arXiv (Cornell University)|Jul 12, 2021
Topic Modeling参考文献 14被引用 7
一句话总结

Inscriptis 是一个基于 Python 的 HTML 转文本转换库,旨在从网页内容中实现高保真度的知识提取。它通过解析 HTML 和 CSS 属性来保留空间布局和语义结构,在处理嵌套表格等复杂布局时优于 Lynx、HTML2text 和 BeautifulSoup 等工具,同时支持可定制的注释,以提升下游自然语言处理任务的效果。

ABSTRACT

Inscriptis provides a library, command line client and Web service for converting HTML to plain text. Its development has been triggered by the need to obtain accurate text representations for knowledge extraction tasks that preserve the spatial alignment of text without drawing upon heavyweight, browser-based solutions such as Selenium. In contrast to related software packages, Inscriptis (i) provides a layout-aware conversion of HTML that more closely resembles the rendering obtained from standard Web browsers; and (ii) supports annotation rules, i.e., user-provided mappings that allow for annotating the extracted text based on structural and semantic information encoded in HTML tags and attributes. These unique features ensure that downstream knowledge extraction components can operate on accurate text representations, and may even use information on the semantics and structure of the original HTML document.

研究动机与目标

  • 解决现有工具在知识提取中缺乏布局感知的 HTML 转文本转换问题。
  • 提供准确的文本表示,保留文本元素在网页浏览器中渲染时的空间对齐方式。
  • 通过保留 HTML 和 CSS 的结构与语义元数据,支持下游自然语言处理任务。
  • 通过保持邻近关系和格式提示,提升实体识别、情感分析和关键词提取的性能。
  • 提供可扩展的注释支持,便于集成到研究工作流和人工注释流程中。

提出的方法

  • 使用布局感知的解析引擎,解析 HTML 和 CSS 属性(如 display、white-space、margin-top 和 vertical-align)。
  • 应用基于规则的系统,解释对齐属性(如 align、valign),并在输出中保留文本定位。
  • 支持用户自定义注释规则,将 HTML 元素和属性映射到语义标签。
  • 生成多种格式的结构化输出,包括 doccano 用的 JSONL、XML 和带注释的 HTML。
  • 处理复杂 HTML 结构(如嵌套表格和嵌套列表)时,不会导致内容坍缩或错位。
  • 提供命令行界面和 Web 服务,便于集成到数据处理管道和研究工作流中。

实验结果

研究问题

  • RQ1如何改进 HTML 到文本的转换,以在知识提取中保留空间布局和语义结构?
  • RQ2与标准工具相比,布局感知转换在多大程度上提升了下游自然语言处理任务的性能?
  • RQ3用户自定义的注释规则是否能提升提取文本在实体识别和情感分析中的实用性?
  • RQ4Inscriptis 与 Selenium 等浏览器模拟工具相比,在准确性和性能方面表现如何?
  • RQ5保留结构化元数据(如粗体、斜体、标题)对下游自然语言处理任务有何影响?

主要发现

  • Inscriptis 正确渲染了复杂的 HTML 结构(如嵌套表格),避免了 Lynx 等工具中常见的错位问题。
  • 它在保留文本空间排列和语义结构方面优于 HTML2text、BeautifulSoup 和 Cheerio 等流行库。
  • 该库通过解析影响文本定位的广泛 HTML 和 CSS 属性子集,实现布局感知转换。
  • 注释规则使下游组件能够利用原始 HTML 中的结构和语义线索,提升自然语言处理任务的准确性。
  • Inscriptis 已被多个国家级和欧洲级研究项目采用,包括 MedMon、ReTV 和 EPOCH,并被集成到 webLyzard 等商业平台中。
  • 自 2016 年以来,Inscriptis 在 PyPI 上的下载量已超过 13.5 万次,表明其在研究和生产环境中的广泛采用与可靠性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。