QUICK REVIEW

[논문 리뷰] Unsupervised Feature Learning for Writer Identification and Writer Retrieval

Vincent Christlein, Martin Gropp|arXiv (Cornell University)|2017. 05. 25.

Handwritten Text Recognition Techniques참고 문헌 43인용 수 90

한 줄 요약

이 논문은 라벨이 없는 저자 식별 및 검색을 위해 SIFT 기술자 군집 소속을 대체 레이블로 사용하여 ResNet을 훈련하는 비지도 딥 페처 학습 방법을 제안한다. 이 방법은 ICDAR17 Historical-WI 데이터셋에서 최신 기술을 초월하는 성능을 달성하며, 전통적인 수작업 특징 및 지도 학습 대체 클래스 방법을 모두 능가한다. m-VLAD 인코딩과 이진화된 패치를 사용할 경우 테스트 세트에서 mAP가 74.8%에 도달한다.

ABSTRACT

Deep Convolutional Neural Networks (CNN) have shown great success in supervised classification tasks such as character classification or dating. Deep learning methods typically need a lot of annotated training data, which is not available in many scenarios. In these cases, traditional methods are often better than or equivalent to deep learning methods. In this paper, we propose a simple, yet effective, way to learn CNN activation features in an unsupervised manner. Therefore, we train a deep residual network using surrogate classes. The surrogate classes are created by clustering the training dataset, where each cluster index represents one surrogate class. The activations from the penultimate CNN layer serve as features for subsequent classification tasks. We evaluate the feature representations on two publicly available datasets. The focus lies on the ICDAR17 competition dataset on historical document writer identification (Historical-WI). We show that the activation features trained without supervision are superior to descriptors of state-of-the-art writer identification methods. Additionally, we achieve comparable results in the case of handwriting classification using the ICFHR16 competition dataset on historical Latin script types (CLaMM16).

연구 동기 및 목표

라벨이 없는 저자 데이터가 필요한 저자 식별 및 검색을 위한 딥 러닝 방법을 개발하기 위해.
비지도 SIFT 기술자 군집화가 CNN 훈련을 위한 효과적인 대체 클래스로 기능할 수 있는지 조사하기 위해.
역사적 문서 데이터셋에서 비지도 특징, 최신 수작업 특징 및 지도 학습 특징의 성능을 평가하기 위해.
군집 수, 네트워크 깊이, 이진화와 같은 전처리 선택 사항과 같은 하이퍼파라미터에 대한 방법의 강건성과 민감도를 평가하기 위해.

제안 방법

학습 이미지에서 SIFT 기술자를 추출하고 k-means를 사용하여 군집화하여 대체 클래스를 생성한다.
SIFT 키포인트 위치 중심의 이미지 패치를 사용하여, 군집 인덱스를 타겟 레이블로 삼아 딥 리서럴 네트워크(ResNet)를 훈련한다.
훈련된 CNN의 두 번째 레이어 활성화 값을 국소 특징 기술자로 사용한다.
전역 이미지 표현을 위해 국소 기술자를 VLAD(Vector of Locally Aggregated Descriptors)로 인코딩한다.
VLAD 벡터에 거듭제곱 정규화를 적용하고, 이를 분류 또는 검색 작업에 사용한다.
공개 벤치마크(Icdar17 및 Clamm16)를 사용하여 저자 식별 및 스크립트 유형 분류에 대해 방법을 평가한다.

실험 결과

연구 질문

RQ1비지도 SIFT 기술자 군집화가 저자 레이블이 없는 환경에서 딥 CNN 훈련을 위한 효과적인 대체 레이블로 기능할 수 있는가?
RQ2비지도 특징 학습의 성능이 저자 식별에서 최신 수작업 특징(SIFT + FV, C-Zernike + m-VLAD)과 비교해 어떻게 되는가?
RQ3대체 클래스 수(즉, 군집 수)가 학습된 특징의 성능에 상당한 영향을 미치는가?
RQ4입력 패치의 이진화가 CNN 훈련과 특징 품질 향상에 유익한가?
RQ5제안된 방법이 중세 스크립트 유형 분류와 같은 다른 문서 분석 작업으로 일반화 가능한가?

주요 결과

제안된 비지도 방법은 ICDAR17 Historical-WI 테스트 세트에서 평균 평균 정확도(mAP) 74.8%를 달성하여, SIFT + FV(62.2%) 및 C-Zernike + m-VLAD(69.2%) 방법을 모두 능가한다.
2개의 대체 군집을 사용하는 것만으로도 실제 저자 정보를 대체 클래스로 사용하는 것보다 더 우수한 성능을 내며, 이는 저자 수가 적은 상황에서 군집 기반 지도 학습이 클래스 수준의 지도 학습보다 더 효과적임을 시사한다.
군집 수에 대해 강건한 성능을 보이며, 1,000개 이상의 군집에서 성능이 안정화되며, 5,000개 군집에서 최고 성능를 기록한다.
입력 패치의 이진화는 강도 정보 손실에도 불구하고 정밀도를 향상시키고 더 나은 특징 학습을 이끌어내며, 최적화가 더 쉬워지기 때문일 것이다.
표준 SIFT보다 제한된 SIFT(R-SIFT)를 키포인트 검출에 사용할 경우 略으로 더 좋은 결과를 얻었으며, 이는 모호한 패치를 걸러내는 것이 훈련 품질을 향상시킨다는 것을 시사한다.
44층의 더 깊은 네트워크는 20층 버전에 비해 성능 향상이 미미하여, 이 작업에 있어 깊이가 핵심 요소가 아님을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.