[논문 리뷰] PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML
이 논문은 MASTER와 PSENet을 기반으로 한 네 부분 작업 파이프라인(표 구조 인식, 텍스트 행 탐지, 텍스트 행 인식, 박스 배정)을 사용하여 표 이미지를 HTML로 변환하고, 개발 데이터에서 TEDs 점수 96.84%, 최종 평가에서 96.32%를 달성했다.
This paper presents our solution for ICDAR 2021 competition on scientific literature parsing taskB: table recognition to HTML. In our method, we divide the table content recognition task into foursub-tasks: table structure recognition, text line detection, text line recognition, and box assignment.Our table structure recognition algorithm is customized based on MASTER [1], a robust image textrecognition algorithm. PSENet [2] is used to detect each text line in the table image. For text linerecognition, our model is also built on MASTER. Finally, in the box assignment phase, we associatedthe text boxes detected by PSENet with the structure item reconstructed by table structure prediction,and fill the recognized content of the text line into the corresponding item. Our proposed methodachieves a 96.84% TEDS score on 9,115 validation samples in the development phase, and a 96.32%TEDS score on 9,064 samples in the final evaluation phase.
연구 동기 및 목표
- 과학 문헌 파싱을 위한 표 이미지를 HTML로 재구성하는 작업의 동기를 제시한다.
- 표-HTML 변환에서 문제를 분리하기 위한 네 가지 하위 작업 프레임워크를 제안한다.
- 표 구조 예측과 텍스트 행 인식을 모두 위해 MASTER를 활용한다.
- 견고한 텍스트 행 탐지를 위해 PSENet를 사용하고 HTML 셀을 채우기 위한 박스 배정 전략을 설계한다.
제안 방법
- 문제를 네 가지 하위 작업으로 나눈다: 표 구조 인식, 텍스트 행 탐지, 텍스트 행 인식, 및 박스 배정.
- MASTER를 표 구조 분기와 별도의 박스 회귀 분기로 맞춤화한다.
- 표 이미지에서 텍스트 행을 탐지하기 위해 PSENet를 사용한다.
- 단일 행 및 다중 행 텍스트의 혼합 데이터 세트에서 MASTER를 기반으로 텍스트 행 인식기를 학습한다.
- 탐지된 텍스트 박스를 HTML 표 셀에 매핑하기 위해 세 가지 규칙의 박스 배정 전략(Center Point Rule, IOU Rule, Distance Rule)을 적용한다.
- PubTabNet 데이터에서 TEDS 지표로 엔드 투 엔드 HTML 생성을 평가한다.
실험 결과
연구 질문
- RQ1네 가지 하위 작업 파이프라인이 이미지로부터 높은 구조적 충실도로 표 HTML을 신뢰성 있게 재구성할 수 있는가?
- RQ2구조 예측과 텍스트 행 인식이 TEDS로 측정되는 HTML 충실도를 최대화하기 위해 어떻게 상호 작용하는가?
- RQ3매칭 전략(Center Point, IOU, Distance)이 최종 HTML 콘텐츠 정확도에 어떤 영향을 미치는가?
- RQ4데이터 증가, 옵티마이저 선택, 동기화 기법이 엔드-투-엔드 TEDS 성능에 어떤 영향을 주는가?
주요 결과
- 개발 단계의 검증 세트에서 96.84% TEDS를 달성(9,115 샘플).
- 최종 평가 세트에서 96.32% TEDS를 달성(9,064 샘플).
- 엔드-투-엔드 접근법은 높은 TEDS 점수를 위해 표 구조 예측의 정확성 중요성을 강조한다.
- PSENet를 사용한 텍스트 행 탐지는 표 셀 내의 강력한 행 위치화를 제공한다.
- 박스 배정 규칙(Center Point, IOU, Distance)이 텍스트 박스를 재구성된 표 구조에 효과적으로 매핑한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.