QUICK REVIEW

[논문 리뷰] PixelLink: Detecting Scene Text via Instance Segmentation

Dan Deng, Haifeng Liu|arXiv (Cornell University)|2018. 01. 04.

Handwritten Text Recognition Techniques참고 문헌 22인용 수 53

한 줄 요약

PixelLink는 픽셀 링크를 통한 인스턴스 분할로 장면 텍스트를 감지하고, 회귀 기반 경계 상자 로컬라이제이션을 피하며 분할 결과로부터 텍스트 경계 상자를 직접 추출할 수 있게 한다.

ABSTRACT

Most state-of-the-art scene text detection algorithms are deep learning based methods that depend on bounding box regression and perform at least two kinds of predictions: text/non-text classification and location regression. Regression plays a key role in the acquisition of bounding boxes in these methods, but it is not indispensable because text/non-text prediction can also be considered as a kind of semantic segmentation that contains full location information in itself. However, text instances in scene images often lie very close to each other, making them very difficult to separate via semantic segmentation. Therefore, instance segmentation is needed to address this problem. In this paper, PixelLink, a novel scene text detection algorithm based on instance segmentation, is proposed. Text instances are first segmented out by linking pixels within the same instance together. Text bounding boxes are then extracted directly from the segmentation result without location regression. Experiments show that, compared with regression-based methods, PixelLink can achieve better or comparable performance on several benchmarks, while requiring many fewer training iterations and less training data.

연구 동기 및 목표

경계 상자 회귀의 필요 없이 인스턴스 분할을 활용한 텍스트 검출을 동기 부여한다.
가까이 모여 있는 텍스트 인스턴스를 분리하기 위한 픽셀-링크 기반 네트워크를 제안한다.
분할 결과에서 직접 경계 상자를 추출하고 회귀 기반 방법과 비교한다.

제안 방법

공유된 VGG16 백본을 사용하는 두 개의 헤드 CNN으로 픽셀 단위의 텍스트/비텍스트 예측과 여덟 방향의 픽셀 링크를 예측한다.
픽셀은 텍스트/비텍스트로 라벨링되며 이웃 픽셀 간의 링크는 같은 인스턴스 연결성을 나타낸다.
양의 링크를 통해 연결 구성요소를 형성하는 인스턴스 분할로 텍스트 인스턴스를 표현한다.
회귀 기반 위치 예측 없이 minAreaRect를 사용해 CC에서 경계 상자를 추출한다.
강력한 학습을 위한 Instance-Balanced Cross-Entropy Loss와 Online Hard Example Mining.
노이즈 제거를 위한 간단한 기하학적 포스트 필터링을 포함한 전처리.

실험 결과

연구 질문

RQ1자연 풍경의 텍스트 인스턴스를 위치 회귀 없이 픽셀 링크를 이용한 인스턴스 분할로 효과적으로 감지할 수 있는가?
RQ2픽셀-링크 기반 방법이 회귀 기반 방법에 비해 데이터나 학습 반복이 덜 필요하면서도 비슷하거나 더 높은 정확도를 달성할 수 있는가?
RQ3표준 벤치마크(IC15, IC13, TD500)에서 PixelLink의 성능은 회귀 기반 탐지기와 비교하여 어떤가?
RQ4네트워크 해상도, 링크 임계값, 포스트 필터링이 탐지 성능에 미치는 영향은 무엇인가?
RQ5세그먼테이션 결과에서의 경계 상자 추출이 대회 벤치마크에 충분한가?

주요 결과

모델	재현율 (R)	정밀도 (P)	F-점수 (F)	FPS
PixelLink+VGG16 2s	82.0	85.5	83.7	3.0
PixelLink+VGG16 4s	81.7	82.9	82.3	7.3
EAST+PVANET2x MS	78.3	83.3	81.0	—
EAST+PVANET2x	73.5	83.6	78.2	13.2
EAST+VGG16	72.8	80.5	76.4	6.5
SegLink+VGG16	76.8	73.1	75.0	—
CTPN+VGG16	51.6	74.2	60.9	—

PixelLink는 IC15에서 회귀 기반 방법과 비교해 경쟁력 있거나 우수한 F-스코어를 달성하면서도 더 적은 학습 반복 및 더 적은 데이터로 학습한다.
IC15에서 PixelLink 4s는 F=82.3에 이르고 7.3 FPS로, 정확도에서 몇몇 회귀 기반 베이스라인을 능가한다.
PixelLink 2s는 4s 버전보다 더 높은 정확도를 보이지만 속도는 느리다(F=83.7, 3.0 FPS).
링크 메커니즘이 필수적임을 보여주는 분석 결과; 링크 제거 시 재현율과 정밀도가 크게 감소한다.
Instance-Balance와 처음부터의 학습은 ImageNet 사전학습 없이도 더 빠른 수렴과 강력한 성능을 가능하게 한다.
IC13에서 2s와 MS를 사용한 PixelLink의 F는 스케일에 따라 약 88.1–87.5로, 여러 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.