[논문 리뷰] BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding
BERTgrid는 문서 레이아웃에 맞춰 맥락화된 BERT 워드피스 임베딩의 2D 격자를 생성하여 이전의 그리드 기반 방법들보다 인보이스 필드 추출을 향상시킵니다.
For understanding generic documents, information like font sizes, column layout, and generally the positioning of words may carry semantic information that is crucial for solving a downstream document intelligence task. Our novel BERTgrid, which is based on Chargrid by Katti et al. (2018), represents a document as a grid of contextualized word piece embedding vectors, thereby making its spatial structure and semantics accessible to the processing neural network. The contextualized embedding vectors are retrieved from a BERT language model. We use BERTgrid in combination with a fully convolutional network on a semantic instance segmentation task for extracting fields from invoices. We demonstrate its performance on tabulated line item and document header field extraction.
연구 동기 및 목표
- 2D 문서 구조(레이아웃, 글꼴, 위치)를 활용하여 인보이스에서 정보 추출을 향상시키고자 함.
- 공간 정보를 보존하면서 의미 컨텍스트를 인코딩하는 그리드 기반 표현을 개발함.
- 헤더 및 행 아이템 필드 추출에 대해 기존의 그리드 기반 방법들과 비교하여 접근법을 평가함.
제안 방법
- 문서를 공간적으로 배치된 영역에 해당하는 단어를 담고 있는 각 셀에 맥락화된 BERT 워드피스 임베딩을 포함하는 2D 격자로 표현함.
- 직렬화된 문서 텍스트를 사전 학습된 BERT 모델에 입력하고 각 워드피스의 임베딩으로 두 번째로 마지막 히든 레이어를 사용함.
- OCR에서 추출된 워드 위치를 BERT 임베딩과 결합하여 입력 텐서 W를 구성하고, 이를 완전 합성곱 신경망으로 의미적 세분화 및 경계-상자 회귀에 사용함.
- 입력 표현 영향만을 분리하기 위해 BERTgrid를 Chargrid, Wordgrid 및 하이브리드 변형(C+BERTgrid, C+Wordgrid)과 동일한 다운스트림 네트워크를 사용하여 비교함.
- 다운스트림 태스크에 대해 BERT를 미세조정하지 않고 Nvidia V100에서 모델당 800k 반복 학습시킴.
실험 결과
연구 질문
- RQ1맥락화된 워드피스 레벨 임베딩이 2D 문서 격자에서 비맥락적 또는 문자 수준의 격자에 비해 인보이스 헤더 및 행 항목의 추출 정확도를 향상시키는가?
- RQ2BERTgrid가 Chargrid 및 Wordgrid와 비교해 어떤 성능을 나타내며, 조합 모델(C+BERTgrid, C+Wordgrid)이 추가 이점을 제공하는가?
- RQ3도메인 특화 사전학습 BERT 표현을 사용하는 것이 복잡한 레이아웃의 문서에서 다운스트림 정보 추출 작업에 미치는 영향은 무엇인가?
주요 결과
| Mean | Amount | Number | Date | Vendor name | LI mean | LI quantity | |
|---|---|---|---|---|---|---|---|
| Chargrid | 61.76% | 91.42% | 83.90% | 85.74% | 40.91% | 56.59% | 66.97% |
| Wordgrid | 60.36% | 88.79% | 77.35% | 84.08% | 39.75% | 55.98% | 66.19% |
| C+Wordgrid | 62.94% | 90.53% | 84.34% | 87.12% | 41.63% | 58.19% | 66.79% |
| BERTgrid | 64.21% | 92.44% | 84.99% | 87.79% | 44.86% | 59.38% | 71.97% |
| C+BERTgrid | 65.48% | 92.38% | 86.25% | 88.46% | 47.22% | 60.42% | 73.18% |
- BERTgrid 및 그 하이브리드 C+BERTgrid는 헤더 및 행 항목 필드의 평균 추출 정확도에서 모든 기준선보다 우수하다.
- C+BERTgrid는 평균 추출 정확도 65.48%, Chargrid 기준선 대비 상대적 향상 6.02%를 달성했다.
- 맥락화된 워드피스 임베딩은 비맥락적 워드/문자 격자보다 수렴 속도가 빠르며 레이아웃 의존적 의미를 더 잘 처리한다.
- 워드그리드만 사용하면 어휘 외단어(out-of-vocabulary) 문제로 성능이 떨어지며, 단어- 및 문자 수준 정보를 결합하는 것이 최상의 결과를 낳았다.
- 대규모 비라벨 인보이스 코포스에서 BERT를 사전학습하면 다운스트림 모델에서의 임베딩에 도메인 지식이 잘 반영된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.