QUICK REVIEW

[논문 리뷰] A learning-based approach to text image retrieval: using CNN features and improved similarity metrics

Mao Tan, Siping Yuan|arXiv (Cornell University)|2017. 03. 23.

Image Retrieval and Classification Techniques인용 수 2

한 줄 요약

이 논문은 사전 훈련된 합성곱 신경망을 사용하여 문서 이미지에서 다중 깊이 특징을 추출하고 융합하는 CNN 기반의 콘텐츠 기반 접근법을 제안한다. 가중치를 적용한 특징 융합과 개선된 유사도 측정 방법을 통해, 영어와 중국어가 혼합된 다국어 문서 이미지에서 기존의 OCR 기반 방법에 비해 더 높은 검색 정확도를 달성한다.

ABSTRACT

Rapid increase of digitized document give birth to high demand of document image retrieval. While conventional document image retrieval approaches depend on complex OCR-based text recognition and text similarity detection, this paper proposes a new content-based approach, in which more attention is paid to features extraction and fusion. In the proposed approach, multiple features of document images are extracted by different CNN models. After that, the extracted CNN features are reduced and fused into weighted average feature. Finally, the document images are ranked based on feature similarity to a provided query image. Experimental procedure is performed on a group of document images that transformed from academic papers, which contain both English and Chinese document, the results show that the proposed approach has good ability to retrieve document images with similar text content, and the fusion of CNN features can effectively improve the retrieval accuracy.

연구 동기 및 목표

학술 및 텍스트 문서의 급속한 디지털화로 인해 효율적인 문서 이미지 검색에 대한 수요가 증가하고 있음.
다국어 또는 저품질 이미지에서 오류가 발생하기 쉬운 복잡한 텍스트 인식에 의존하는 OCR 기반 접근법의 한계를 극복함.
텍스트 전사 대신 깊이 특징을 활용하는 콘텐츠 기반 검색 시스템을 개발함.
학습된 가중치를 기반으로 다중 CNN으로 추출한 특징을 융합하여 검색 정확도를 향상시킴.
영어와 중국어 텍스트가 혼합된 문서 이미지에서의 효과성을 입증함.

제안 방법

다양한 사전 훈련된 CNN 모델을 사용하여 문서 이미지에서 다중 깊이 특징을 추출함.
추출된 CNN 특징의 차원을 감소시켜 효율성 향상과 중복 감소를 도모함.
특징 중요도를 기반으로 가중 평균을 사용하여 감소된 특징을 단일 표현으로 융합함.
개선된 유사도 측정 방법을 사용하여 융합된 쿼리 이미지 특징과 데이터베이스 이미지 특징 간의 유사도를 계산함.
쿼리 이미지와의 유사도 점수를 기반으로 문서 이미지를 순위 매김함.
혼합된 영어 및 중국어 텍스트를 포함한 학술 논문에서 변환된 문서 이미지 데이터셋을 기반으로 시스템을 훈련하고 평가함.

실험 결과

연구 질문

RQ1다국어 문서를 위한 텍스트 이미지 검색에서 CNN 기반 특징 추출 방법이 전통적인 OCR 기반 방법보다 우수한가?
RQ2다중 CNN 모델에서 추출한 특징을 융합할 경우 검색 정확도에 어떤 영향을 미치는가?
RQ3개선된 유사도 측정 방법의 사용이 검색 성능에 어떤 영향을 미치는가?
RQ4가중치를 적용한 특징 융합은 문서 이미지의 표현을 얼마나 향상시킬 수 있는가?
RQ5영어와 중국어 텍스트가 혼합된 문서 이미지에서 제안된 방법의 효과성은 어떠한가?

주요 결과

제안된 방법은 혼합된 다국어 문서 이미지에서 기존의 OCR 기반 접근법보다 더 높은 검색 정확도를 달성한다.
가중 평균을 사용한 특징 융합은 개별 CNN 특징을 사용하는 것보다 검색 성능을 크게 향상시킨다.
깊이 신경망 특징의 사용은 텍스트 인식에 대한 의존도를 감소시켜 OCR 오류에 더 강건한 시스템을 만든다.
복잡한 레이아웃과 다국어 콘텐츠를 포함한 문서 이미지에서 시스템은 뛰어난 성능을 보인다.
개선된 유사도 측정 방법은 미세한 시각적 및 구조적 차이를 포착하여 관련 이미지의 순위를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.