[논문 리뷰] Image-based table recognition: data, model, and evaluation
이 논문은 PubTabNet을 이미지 기반 표 인식용 최대 공개 데이터셋으로 소개하고, 표 이미지를 HTML로 변환하는 인코더-듀얼 디코더(EDD) 모델, 그리고 평가를 위한 트리 편집 거리 기반 메트릭(TEDS)을 제시합니다. 이 접근법은 이미지 입력만으로도 복잡한 표에서 기초선 baselines를 능가합니다.
Important information that relates to a specific topic in a document is often organized in tabular format to assist readers with information retrieval and comparison, which may be difficult to provide in natural language. However, tabular data in unstructured digital documents, e.g., Portable Document Format (PDF) and images, are difficult to parse into structured machine-readable format, due to complexity and diversity in their structure and style. To facilitate image-based table recognition with deep learning, we develop the largest publicly available table recognition dataset PubTabNet (https://github.com/ibm-aur-nlp/PubTabNet), containing 568k table images with corresponding structured HTML representation. PubTabNet is automatically generated by matching the XML and PDF representations of the scientific articles in PubMed Central Open Access Subset (PMCOA). We also propose a novel attention-based encoder-dual-decoder (EDD) architecture that converts images of tables into HTML code. The model has a structure decoder which reconstructs the table structure and helps the cell decoder to recognize cell content. In addition, we propose a new Tree-Edit-Distance-based Similarity (TEDS) metric for table recognition, which more appropriately captures multi-hop cell misalignment and OCR errors than the pre-established metric. The experiments demonstrate that the EDD model can accurately recognize complex tables solely relying on the image representation, outperforming the state-of-the-art by 9.7% absolute TEDS score.
연구 동기 및 목표
- 대규모 자동 주석 데이터셋(PubTabNet)과 HTML 표현을 PMCOA PDFs에서 추출하여 제공한다.
- 구조 토큰과 셀 콘텐츠 토큰을 각각 다루는 엔드투엔드 이미지 기반 표 인식 모델(EDD)을 개발한다.
- 다중 홉 구조 오류와 OCR 실수를 더 잘 포착하는 트리 편집 거리 기반 유사도 메트릭(TEDS)을 도입한다.
- PubTabNet에서 EDD 모델의 효과를 입증하고 합성 데이터셋 및 외부 베이스라인으로의 일반화를 평가한다.
제안 방법
- PubTabNet을 PMCOA PDF의 XML-정답 HTML과 대응하는 테이블 영역을 정렬하고 깨끗한 HTML 표현으로 큐레이션함으로써 생성한다.
- 구조 디코더와 셀 디코더를 가진 인코더-듀얼 디코더(EDD)를 제안하며, 구조 디코더가 표 구조를 생성하고 셀 콘텐츠를 위한 셀 디코더를 트리거한다.
- 구조 토큰 손실과 셀 토큰 손실을 결합한 듀얼 크로스 엔트로피 손실(람다 매개변수로 균형)을 사용하여 EDD를 학습한다(l = lambda * ls + (1 - lambda) * lc).
- HTML 트리로서 표를 표현하고, 구조 토큰과 셀 콘텐츠 토큰을 디코딩한 뒤 디코더의 출력을 합쳐 최종 HTML을 형성한다.
- 트리 편집 거리 기반 유사도(TEDS) 메트릭을 제안하여 Ta, Tb의 표 트리 간 EditDist를 max(|Ta|, |Tb|)로 나누어 1 - 값을 계산하며, td 노드에 대한 맞춤 대체 비용과 대체의 콘텐츠 유사성을 고려한다.
실험 결과
연구 질문
- RQ1대규모 자동 생성 데이터셋(PubTabNet)이 이미지 기반 표 인식을 견고하게 지원할 수 있는가?
- RQ2구조 인식-콘텐츠 인식 듀얼 디코더 아키텍처가 이미지에서 표를 인식할 때 단일 디코더/이미지-LaTeX 기반 베이스라인보다 정확도를 향상시키는가?
- RQ3트리 구조 유사도 메트릭(TEDS)이 인접성 기반 기존 메트릭보다 표의 오류(구조 및 OCR)에 더 충실한가?
- RQ4EDD 모델이 합성 표 데이터 및 외부 베이스라인에 대해 이미지 기반 입력에서 얼마나 잘 일반화되는가?
- RQ5테이블 크기, 병합 셀, 복잡한 헤더에 대한 한계는 무엇인가?
주요 결과
| 입력 | 방법 | 평균 TEDS (%) | 단순 | 복잡 | 전체 |
|---|---|---|---|---|---|
| Tabula | 78.0 | 57.8 | 67.9 | ||
| Traprange | 60.8 | 49.9 | 55.4 | ||
| Camelot | 80.0 | 66.0 | 73.0 | ||
| PDFPlumber | 44.9 | 35.9 | 40.4 | ||
| Acrobat Pro | 68.9 | 61.8 | 65.3 | ||
| Image | Acrobat Pro | 53.8 | 53.5 | 53.7 | |
| WYGIWYS | 81.7 | 75.5 | 78.6 | ||
| EDD | 91.2 | 85.4 | 88.3 |
- PubTabNet은 PMCOA XML 및 PDFs에서 유도된 대응 HTML 표현을 가진 568k 표 이미지를 포함한다.
- EDD 모델은 단순한 표와 복잡한 표 모두에서 이미지 입력만으로도 기초선 대비 상당히 우수한 성능(TEDS 점수)을 보인다.
- EDD는 간단/복잡 표를 모두 합친 평균 TEDS에서 91.2%를 달성하며 WYGIWYS 및 오프더셸프 도구보다 현저한 차이로 우수하다.
- TEDS는 기존 인접성 기반 메트릭보다 빈 셀과 다중 홉 정렬 불일치 및 OCR 오류를 더 효과적으로 포착한다.
- 합성 데이터에서 EDD는 거의 완벽한 TEDS(약 99.7–99.8%)에 근접하고 네 가지 범주에서 TIES보다 더 높은 정확 매치를 달성하며 강한 일반화를 보여준다.
- 모델은 표 크기에 대해 강인하지만 대형 표에서 성능이 감소하는데, 이는 크기별 처리로 보정될 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.