[논문 리뷰] Complicated Table Structure Recognition
GraphTSR는 그래프 신경망을 통해 PDF의 표 구조를 인식하고 셀 간 관계를 예측하며, 15k 표를 포함하는 대규모 데이터셋 SciTSR를 도입한다.
The task of table structure recognition aims to recognize the internal structure of a table, which is a key step to make machines understand tables. Currently, there are lots of studies on this task for different file formats such as ASCII text and HTML. It also attracts lots of attention to recognize the table structures in PDF files. However, it is hard for the existing methods to accurately recognize the structure of complicated tables in PDF files. The complicated tables contain spanning cells which occupy at least two columns or rows. To address the issue, we propose a novel graph neural network for recognizing the table structure in PDF files, named GraphTSR. Specifically, it takes table cells as input, and then recognizes the table structures by predicting relations among cells. Moreover, to evaluate the task better, we construct a large-scale table structure recognition dataset from scientific papers, named SciTSR, which contains 15,000 tables from PDF files and their corresponding structure labels. Extensive experiments demonstrate that our proposed model is highly effective for complicated tables and outperforms state-of-the-art baselines over a benchmark dataset and our new constructed dataset.
연구 동기 및 목표
- PDF에서 spanning 셀을 가진 표 구조를 인식하는 도전을 다룬다.
- 표 셀 간의 에지 예측 문제로 표 구조 인식을 재구성한다.
- 그래프TSR를 개발하여 셀 간 수직/수평 관계를 예측한다.
- 학습과 평가를 지원하기 위해 대규모 PDF 표 구조 데이터셋(SciTSR)을 만든다.
제안 방법
- 각 표를 표의 셀을 정점으로, 잠재 관계를 에지로 하는 그래프로 표현한다.
- 에지 예측 후보를 제한하기 위해 K-NN 그래프를 구성한다.
- 에지-정점 및 정점-에지 그래프 주의 블록을 교대로 사용하여 셀과 잠재 관계 간 정보를 전달하는 GraphTSR를 제안한다.
- 초기 정점/에지 특징(크기, 위치, 겹침, 거리)을 인코딩하고 주의(attention) 기반 메시지 전달을 사용하여 에지를 수직, 수평 또는 관계 없음으로 분류한다.
- Adam으로 교차 엔트로피 손실로 레이블된 에지를 학습하고, 관계 없음 vs 수직/수평 간의 클래스 불균형을 처리하기 위한 에지 가중치를 적용한다.
- 레이블링된 그래프를 후처리하여 최종 표 구조를 복원한다.
실험 결과
연구 질문
- RQ1그래프 기반 모델이 spanning 셀을 포함한 복잡한 표 구조를 PDF에서 정확히 추론할 수 있는가?
- RQ2학습된 에지 예측 방식이 단순/복잡한 표 모두에서 규칙 기반 및 이미지 기반 대안보다 성능이 우수한가?
- RQ3GraphTSR은 데이터셋 간 일반화 능력이 얼마나 되는가(SciTSR 대 ICDAR-2013) 및 spanning 셀의 존재 하에서?
- RQ4그래프 주의 블록의 수가 인식 정확도(특히 재현율)에 어떤 영향을 주는가?
주요 결과
| Method | Macro-Precision | Macro-Recall | Macro-F1 | Micro-Precision | Micro-Recall | Micro-F1 |
|---|---|---|---|---|---|---|
| Tabby | 0.363 | 0.397 | 0.379 | 0.141 | 0.332 | 0.196 |
| DeepDeSRT | - | - | - | - | - | - |
| Adobe | 0.480 | 0.490 | 0.485 | 0.647 | 0.468 | 0.543 |
| GraphTSR | 0.711 | 0.696 | 0.703 | 0.630 | 0.620 | 0.625 |
- GraphTSR은 ICDAR-2013, SciTSR, SciTSR-COMP 데이터셋에서 매크로-F1 및 마이크로-F1 지표로 최첨단 대안보다 우수한 성능을 보인다.
- 복잡한 표(SciTSR-COMP)에서 그래프TSR은 대안 대비 최소 7%의 F1 향상을 달성한다.
- GraphTSR은 일반화가 강하게 나타나 ICDAR-2013 데이터에 대해 학습 없이도 우수한 성능을 보인다.
- 대부분의 대안은 복잡한 표에서 성능이 저하하는 반면, GraphTSR은 비교적 강건한 성능을 유지한다.
- 그래프 주의 블록의 수(N)를 증가시키면 재현율 등에서 상당한 성능 향상이 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.