Skip to main content
QUICK REVIEW

[논문 리뷰] Image-to-Markup Generation with Coarse-to-Fine Attention

Yuntian Deng, Anssi Kanervisto|arXiv (Cornell University)|2016. 09. 16.
Mathematics, Computing, and Information Processing인용 수 85
한 줄 요약

이 논문은 이미지에서 레이아웃을 고려한 LaTeX 변환을 위한 신경 인코더-디코더 모델에 계층적 세분화 주의 메커니즘(coarse-to-fine attention mechanism)을 제안한다. 다중 행 순환 인코더와 두 단계 주의 메커니즘(먼저 지원 영역을 선택하고, 그 다음 세분화된 주의를 적용함)을 사용함으로써, 계산 비용을 줄이면서도 실제 렌더링된 수식에서 77.46%의 일치 정확도를 달성한다. 이는 전통적인 OCR 시스템을 능가하며, 미세조정을 통해 손글씨 데이터에 대해서도 강한 일반화 성능을 보여준다.

ABSTRACT

We present a neural encoder-decoder model to convert images into presentational markup based on a scalable coarse-to-fine attention mechanism. Our method is evaluated in the context of image-to-LaTeX generation, and we introduce a new dataset of real-world rendered mathematical expressions paired with LaTeX markup. We show that unlike neural OCR techniques using CTC-based models, attention-based approaches can tackle this non-standard OCR task. Our approach outperforms classical mathematical OCR systems by a large margin on in-domain rendered data, and, with pretraining, also performs well on out-of-domain handwritten data. To reduce the inference complexity associated with the attention-based approaches, we introduce a new coarse-to-fine attention layer that selects a support region before applying attention.

연구 동기 및 목표

  • 수동으로 설계된 문법이나 레이아웃 규칙에 의존하지 않고, 이미지에서 직접 구조적 마크업(e.g., LaTeX)을 생성할 수 있는 데이터 기반 신경 모델을 개발하는 것.
  • 일반적인 주의 메커니즘이 시퀀스 생성 과정에서 높은 계산 비용을 유발하는 문제를 해결하기 위해, 주의 탐색 횟수를 줄이는 계층적 세분화 주의 메커니즘을 도입하는 것.
  • 실제로 렌더링된 수학 수식으로 구성된 새로운 대규모 데이터셋을 바탕으로 모델의 성능을 평가하는 것.
  • 합성 손글씨 데이터로의 미세조정을 통해, 모델이 도메인 외부의 손글씨 데이터로의 일반화 성능을 평가하는 것.
  • 주의 기반 모델이 수식 인식과 같이 복잡한 레이아웃과 구조를 포함한 비표준 OCR 작업에서 CTC 기반 OCR 시스템을 능가할 수 있음을 보여주는 것.

제안 방법

  • 입력 이미지를 특징 맵으로 인코딩하기 위해 컨volutional 신경망(CNN)을 사용하고, 이후 수직적 레이아웃과 공간적 구조를 모델링하기 위해 다중 행 순환 인코더를 적용한다.
  • 계층적 세분화 주의 메커니즘을 도입: 먼저 거시적 수준의 소프트 주의가 지원 영역(예: 4×4 격자)을 선택하고, 그 다음 미세 수준의 주의가 해당 영역 내에서만 작동하여 계산량을 줄인다.
  • 거시적 수준의 주의는 정확도와 효율성의 균형을 맞추기 위해 REINFORCE에 기반한 하드 주의 변형 또는 스퍼스맥(sparsemax)을 사용하여 훈련한다.
  • 디코더는 이미지 특징와 이전 예측에 조건부로 LaTeX 토큰을 한 개씩 순차적으로 생성하는 자동회귀 RNN이다.
  • 새로운 데이터셋 Im2Latex-100k(실제로 렌더링된 10만 개의 수학 수식과 해당 LaTeX 마크업을 포함)를 사용하여 교차 엔트로피 손실 기반으로 엔드 투 엔드로 모델을 훈련한다.
  • 제로샷 일반화 실험을 위해 합성 손글씨 데이터셋을 생성하였으며, 이는 CROHME 벤치마크 데이터에 대한 미세조정을 가능하게 한다.

실험 결과

연구 질문

  • RQ1명시적인 레이아웃 문법이나 분할 기반 접근 없이도, 엔드 투 엔드 신경 모델이 렌더링된 수학 수식에서 정확한 LaTeX 마크업을 생성할 수 있는가?
  • RQ2계층적 세분화 주의 메커니즘이 추론 복잡도를 효과적으로 줄이면서도 이미지에서 마크업 생성의 정확도를 유지하는가?
  • RQ3합성 손글씨 데이터로 사전 훈련한 모델이, 제한된 도메인 내 데이터를 가진 실제 손글씨 수식으로 일반화할 수 있는가?
  • RQ4복잡한 레이아웃과 구조를 포함한 비표준 OCR 작업에서, 주의 기반 모델의 성능이 CTC 기반 접근 방식보다 뛰어나게 되는가?
  • RQ5다양한 구성 요소(예: 다중 행 인코더, 위치 임베딩, 계층적 세분화 주의)가 최종 모델 성능에 기여하는 정도는 어떠한가?

주요 결과

  • 제안된 모델은 Im2Latex-100k 테스트 세트에서 77.46%의 일치 정확도를 달성하여, 도메인 내 렌더링된 데이터에서 기존의 수학 OCR 시스템을 크게 능가한다.
  • 계층적 세분화 주의 메커니즘은 표준 주의의 평균 세분화 주의 탐색 횟수 355회에서 하드 주의 기반으로 16회로 줄였으며, 정확도는 2.5% 감소에 그친다.
  • 스퍼스맥 변형의 계층적 세분화 주의는 76.15%의 정확도를 달성하면서도 74회의 세분화 주의 탐색을 사용하여 효율성과 성능 사이의 좋은 균형을 이룬다.
  • 다중 행 순환 인코더는 성능 향상에 크게 기여하여, 단일 행 또는 비순환 인코더보다 정확도가 높다.
  • 단지 16,000개의 훈련 예제만으로도 모델은 50%의 정확도에 도달하며, 이는 강력한 데이터 효율성을 시사하지만, 더 큰 데이터셋을 사용할수록 성능이 향상된다.
  • 합성 손글씨 데이터로 사전 훈련한 후 CROHME 2013 및 2014 데이터셋에 대해 미세조정을 수행한 결과, MyScript를 제외한 최상위 상용 시스템과 유사한 성능을 보였다. MyScript는 더 많은 도메인 내 데이터에 접근할 수 있기 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.