[논문 리뷰] TextBoxes: A Fast Text Detector with a Single Deep Neural Network
TextBoxes는 단일 순전파에서 단어 바운딩 박스를 예측하는 빠른 현장 텍스트 탐지를 위한 완전 합층 네트워크를 제시하며, 높은 정확도와 속도를 제공하고, 인식기(CRNN)와 결합할 때 단어 탐지 및 엔드투엔드 인식 성능이 더 향상됩니다.
This paper presents an end-to-end trainable fast scene text detector, named TextBoxes, which detects scene text with both high accuracy and efficiency in a single network forward pass, involving no post-process except for a standard non-maximum suppression. TextBoxes outperforms competing methods in terms of text localization accuracy and is much faster, taking only 0.09s per image in a fast implementation. Furthermore, combined with a text recognizer, TextBoxes significantly outperforms state-of-the-art approaches on word spotting and end-to-end text recognition tasks.
연구 동기 및 목표
- 자연 이미지에서 강건하고 실시간인 장면 텍스트 탐지를 촉진한다.
- 단어 바운딩 박스를 직접 예측하는 엔드투엔드 학습 가능한 네트워크를 개발한다.
- 단어의 큰 가로세로 비율의 큰 변화를 특화된 출력 층과 기본 상자(default boxes)를 활용해 다룬다.
- 탐지와 인식을 결합하면 단어 스팟팅과 엔드투엔드 인식 성능이 향상됨을 보여준다.
제안 방법
- 다수의 합성곱 계층 뒤에 텍스트-박스 층을 추가한 VGG-16 기반의 28-층 완전 합층 네트워크를 사용한다.
- 맵의 각 위치에서 텍스트 존재 점수와 여러 기본 상자에 대한 바운딩 박스 오프셋(긴 종횡비 포함)을 예측한다.
- 텍스트-박스 층에서 불규칙한 1x5 합성곱 필터를 사용해 단어 형태에 맞는 직사각형 수용 영역을 생성한다.
- 기본 상자를 실제 단어 박스와 일치시키고 분류(소프트맥스)와 위치 추정(smooth L1)을 결합한 다중 작업 손실을 최적화한다.
- 다중 스케일 입력 테스트(다섯 스케일)를 적용해 정확도를 추가로 높이고, 출력 합치를 위해 표준 비최대 억제(NMS)를 사용한다.
실험 결과
연구 질문
- RQ1단일 완전 합층 네트워크가 자연 현장에서 높은 정확도와 속도로 단어 바운딩 박스를 직접 예측할 수 있는가?
- RQ2불규칙한 인셉션 스타일의 출력 계층과 긴 종횡비의 기본 상자가 극단적인 종횡비를 가진 단어 탐지를 개선하는가?
- RQ3탐지와 텍스트 인식기(CRNN)를 통합하면 단어 스팟팅과 엔드투엔드 텍스트 인식 성능이 향상되는가?
- RQ4장면 텍스트 탐지를 위한 다중 스케일 입력이 정확도와 속도에 미치는 영향은 무엇인가?
주요 결과
- TextBoxes는 ICDAR 2011 및 ICDAR 2013 벤치마크에서 고속으로 최첨단 텍스트 위치 추정 성능을 달성한다.
- 단일 스케일 입력에서 이미지당 0.09초를 달성하고, 다중 스케일 입력에서는 Titan X GPU에서 이미지당 0.73초를 달성한다.
- 인식에 CRNN을 사용하면 단어 스팟팅 및 엔드투엔드 인식 결과가 향상되며 탐지에 의미적 수준의 규제화를 제공한다.
- TextBoxes는 텍스트-박스 층과 불규칙한 수용 영역 덕분에 큰 종횡비를 가진 단어들에서 특히 SSD 및 다른 기초선보다 더 나은 성능을 보인다.
- 사전과 함께 사용할 때 TextBoxes는 강력한 엔드투엔드 인식 성능을 달성하며 회상/정밀도 향상과 다양한 데이터세트에서 경쟁력 있는 F-점수를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.