QUICK REVIEW

[논문 리뷰] Learning Markov Clustering Networks for Scene Text Detection

Zichuan Liu, Guosheng Lin|arXiv (Cornell University)|2018. 05. 22.

Handwritten Text Recognition Techniques참고 문헌 19인용 수 28

한 줄 요약

이 논문은 마르코프 군집화 네트워크(MCN)를 제안하며, 이는 이미지를 확률적 유량 그래프(SFG)로 모델링하고, 미분 가능한 마르코프 군집화를 적용하여 국소 영역을 인스턴스 수준의 바운딩 박스로 군집화함으로써 비최대 억제(NMS) 없이도 상향식 시나리오 텍스트 검출을 수행하는 프레임워크이다. MCN는 MSRA-TD500에서 F-스코어 0.83의 최고 성능을 기록하고 34 FPS의 실시간 추론을 달성하여 다중 방향성 및 척도가 변하는 텍스트 객체를 검출하는 데 있어 이전 방법들을 능가한다.

ABSTRACT

A novel framework named Markov Clustering Network (MCN) is proposed for fast and robust scene text detection. MCN predicts instance-level bounding boxes by firstly converting an image into a Stochastic Flow Graph (SFG) and then performing Markov Clustering on this graph. Our method can detect text objects with arbitrary size and orientation without prior knowledge of object size. The stochastic flow graph encode objects' local correlation and semantic information. An object is modeled as strongly connected nodes, which allows flexible bottom-up detection for scale-varying and rotated objects. MCN generates bounding boxes without using Non-Maximum Suppression, and it can be fully parallelized on GPUs. The evaluation on public benchmarks shows that our method outperforms the existing methods by a large margin in detecting multioriented text objects. MCN achieves new state-of-art performance on challenging MSRA-TD500 dataset with precision of 0.88, recall of 0.79 and F-score of 0.83. Also, MCN achieves realtime inference with frame rate of 34 FPS, which is $1.5 imes$ speedup when compared with the fastest scene text detection algorithm.

연구 동기 및 목표

사전에 정의된 앵커 박스에 의존함으로써 임의의 크기와 방향의 텍스트를 처리하는 데 어려움을 겪는 상향식 객체 검출의 한계를 해결하기 위해.
국소 예측의 엔드 투 엔드, 병렬 처리 가능한 군집화를 가능하게 하여 비최대 억제(NMS)의 필요성을 제거하기 위해.
로컬 상관관계와 의미적 맥락을 포괄하는 탄력적이고 데이터 기반의 프레임워크를 개발하여 척도가 변하는 것과 기울어진 텍스트의 강력한 검출을 위해.
어려운 벤치마크인 MSRA-TD500에서 높은 정확도를 유지하면서도 실시간 추론 속도를 달성하기 위해.

제안 방법

등거리로 겹치는 이미지 영역을 노드로 하고, 노드 간 유량 가중치를 국소 상관관계와 의미적 유사도를 나타내도록 하는 확률적 유량 그래프(SFG)를 구성한다.
SFG에 마르코프 군집화(MC)를 적용하여 강하게 연결된 성분을 식별하며, 이는 완전한 텍스트 인스턴스에 해당한다.
전체 프레임워크의 엔드 투 엔드 학습을 가능하게 하기 위해 마르코프 군집화를 미분 가능한 신경망 레이어로 구현한다.
후처리를 통해 군집화된 노드에서 바운딩 박스를 생성함으로써 NMS를 회피하고 GPU의 완전한 병렬 처리를 가능하게 한다.
유량 점수를 생성하기 위해 완전히 컨volutional 백본을 사용하며, 군집화는 SFG 상에서 반복적인 확률 전파를 통해 수행된다.
군집의 밀도와 분리도를 최적화하는 손실 함수를 사용하여 프레임워크를 엔드 투 엔드로 훈련시킨다.

실험 결과

연구 질문

RQ1상향식, 그래프 기반 군집화 접근 방식이 앵커 기반의 상향식 방법보다 임의의 방향성 및 척도가 변하는 텍스트 검출에서 승리할 수 있는가?
RQ2마르코프 군집화를 엔드 투 엔드로 학습 가능한 미분 가능한 형태로 만들 수 있는가?
RQ3군집화 과정을 GPU에서 완전히 병렬화하여 NMS 없이 실시간 추론을 달성할 수 있는가?
RQ4제안된 방법이 다중 방향성 및 긴 텍스트 인스턴스를 포함한 벤치마크에서 최고 성능을 달성하는가?

주요 결과

MCN는 도전적인 MSRA-TD500 데이터셋에서 F-스코어 0.83의 새로운 최고 성능을 기록하였으며, 정밀도 0.88과 재현율 0.79를 기록하였다.
ICDAR 2013에서 MCN은 F-스코어 0.88을 기록하여 NMS 없이도 이전 방법과 동등하거나 이를 초월하는 성능을 달성하였다.
512×512 입력에서 MCN은 34 FPS의 추론 속도를 기록하였으며, 가장 빠른 기존 방법 대비 1.5배 빠른 속도를 기록하였다.
긴 텍스트와 기울어진 텍스트에 대해 뛰어난 강건성을 보였으며, 유연한 기하학적 처리 덕분에 MSRA-TD500에서 ICDAR 2013보다 뚜렷한 성능 향상을 보였다.
마르코프 군집화는 매우 빠르게 수렴하며, 최적 성능를 위해 단지 5회 반복(N=5)이면 충분하며, 군집 계산은 단지 0.86ms가 소요되었다.
낮은 노드 밀도(16×16)에서도 높은 정확도를 유지하여, 작은 텍스트 객체에서 약한 국소 유량이 존재하는 상황에서도 강건함을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.