QUICK REVIEW

[논문 리뷰] TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

Shangbang Long, Jiaqiang Ruan|arXiv (Cornell University)|2018. 07. 04.

Handwritten Text Recognition Techniques참고 문헌 47인용 수 32

한 줄 요약

TextSnake는 학습 가능한 반지름과 방향을 가진 중심축을 따라 정렬되고 겹치는 디스크의 시퀀스를 사용하여 임의의 형태의 텍스트—특히 곡선형 및 다중 방향 텍스트—를 감지하기 위한 유연하고 미분 가능한 표현을 제안한다. 전역 컨volution 네트워크로 훈련된 이 방법은 기존 방법에 비해 Total-Text 벤치마크에서 F-측정치를 40퍼센트 이상 향상시키며 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Driven by deep neural networks and large scale datasets, scene text detection methods have progressed substantially over the past years, continuously refreshing the performance records on various standard benchmarks. However, limited by the representations (axis-aligned rectangles, rotated rectangles or quadrangles) adopted to describe text, existing methods may fall short when dealing with much more free-form text instances, such as curved text, which are actually very common in real-world scenarios. To tackle this problem, we propose a more flexible representation for scene text, termed as TextSnake, which is able to effectively represent text instances in horizontal, oriented and curved forms. In TextSnake, a text instance is described as a sequence of ordered, overlapping disks centered at symmetric axes, each of which is associated with potentially variable radius and orientation. Such geometry attributes are estimated via a Fully Convolutional Network (FCN) model. In experiments, the text detector based on TextSnake achieves state-of-the-art or comparable performance on Total-Text and SCUT-CTW1500, the two newly published benchmarks with special emphasis on curved text in natural images, as well as the widely-used datasets ICDAR 2015 and MSRA-TD500. Specifically, TextSnake outperforms the baseline on Total-Text by more than 40% in F-measure.

연구 동기 및 목표

기존의 스트레스 없는 표현 방식(예: 축에 맞춰진 직사각형 또는 기울인 직사각형)에 의존하는 스트리트 텍스트 검출기의 한계를 해결하기 위해, 곡선형 및 자유형 텍스트에서 실패하는 문제를 해결한다.
수평, 기울임, 곡선형 형태를 포함한 어떤 형태의 텍스트 인스턴스도 정확하게 기술할 수 있는 일반적인 표현 방식을 개발한다.
가변 너비와 방향을 가진 학습 가능한 연속적인 중심 궤적을 통해 텍스트의 정확한 기하학적 모델링을 가능하게 한다.
Total-Text와 SCUT-CTW1500와 같이 곡선형 텍스트에 중점을 둔 벤치마크에서 검출 성능을 향상시키면서도, 표준 데이터셋에서도 뛰어난 성능을 유지한다.

제안 방법

TextSnake는 각 디스크가 가변 반지름과 방향을 가지며 중심축에 정렬된 순서가 있고 상호 겹치는 디스크의 시퀀스로 텍스트 인스턴스를 표현한다.
중심축, 반지름, 방향은 새로운 유연한 미분 가능한 클러스터링 레이어(TCL)를 갖춘 단일 전역 컨volution 네트워크(FCN)를 통해 종합적으로 예측된다. 이 TCL 메커니즘은 예측된 중심점을 순서화하고 겹치지 않게 하여 명확한 인스턴스 분리와 인스턴스 세그멘테이션의 단순화를 가능하게 한다.
모델은 중심점, 반지름, 방향 예측을 결합한 다중 작업 손실 함수로 훈련되며, 공간적 일관성을 강제하기 위해 미분 가능한 클러스터링을 적용한다.
이 표현 방식은 곡선형 텍스트를 직선 형태로 변환하는 캐논리컬 변환을 가능하게 하여 후속 인식 작업에 유리하다.
이 방법은 ICDAR 2015, MSRA-TD500, Total-Text, SCUT-CTW1500에서 훈련 및 평가되었으며, 수평, 기울임, 곡선형 텍스트 모두에서 일관된 성능을 보였다.

실험 결과

연구 질문

RQ1학습 가능한 연속적인 중심축 표현이 곡선형 및 비정형 텍스트 감지에서 고정된 기하학적 표현(예: 직사각형, 사다리형)보다 우월한가?
RQ2훈련 중에 곡선형 텍스트가 없는 데이터셋을 사용할 경우, 이 유연하고 미분 가능한 표현이 추론 시 곡선형 텍스트를 얼마나 잘 일반화하는가?
RQ3텍스트를 가변 반지름 디스크의 시퀀스로 모델링할 경우, 곡선형 텍스트에 중점을 둔 벤치마크에서 검출 정확도가 얼마나 향상되는가?
RQ4제안된 표현 방식이 인스턴스 세그멘테이션을 단순화하고, 후속 인식 작업을 위한 캐논리컬 형태로의 변환을 용이하게 하는가?
RQ5곡선형 텍스트 전용 데이터셋에서 최신 기술 수준의 성능을 달성하면서도 표준 벤치마크에서 우수한 성능을 유지하는가?

주요 결과

TextSnake는 MSRA-TD500에서 78.3%의 F-측정치를 기록하여 EAST, SegLink, PixelLink와 같은 이전 방법들을 초월하였다.
Total-Text 벤치마크에서 TextSnake는 베이스라인 대비 F-측정치를 40.0% 향상시켜 새로운 최신 기술 수준의 결과를 달성하였다.
교차 데이터셋 평가에서, ICDAR 2015에서의 미세조정 후 TextSnake는 Total-Text에서 64.6%의 F-측정치, CTW1500에서 64.4%의 F-측정치를 기록하였으며, SegLink, EAST, PixelLink를 크게 앞서나갔다.
이 방법은 강력한 일반화 능력을 보였다: 곡선형 텍스트 데이터셋에서의 미세조정 없이도 곡선형 텍스트에서 우수한 성능을 보였으며, 형태 변화에 대한 강건성을 입증하였다.
미분 가능한 클러스터링 레이어(TCL)의 사용은 정확하고 겹치지 않는 중심축 예측을 가능하게 하여 인스턴스 분리의 단순화와 검출 정확도 향상을 이끌었다.
예측된 기하학적 정보는 곡선형 텍스트를 캐논리컬 형태로 효과적으로 변환할 수 있게 하여, 후속 텍스트 인식 작업에 유리한 영향을 미쳤다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.