Skip to main content
QUICK REVIEW

[논문 리뷰] Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition

Qiuming Luo, Tao Zeng|arXiv (Cornell University)|2026. 02. 03.
Handwritten Text Recognition Techniques인용 수 0
한 줄 요약

엔트로피 인식 기반의 이중 뷰 구조 프레임워크를 통해 제로샷 HCCR에 대해 시각적 표현과 의미 표현을 연결하고, CASIA-HWDB 및 ICDAR13에서 제로샷/소수샷 성능을 최첨단으로 달성한다.

ABSTRACT

Zero-shot Handwritten Chinese Character Recognition (HCCR) aims to recognize unseen characters by leveraging radical-based semantic compositions. However, existing approaches often treat characters as flat radical sequences, neglecting the hierarchical topology and the uneven information density of different components. To address these limitations, we propose an Entropy-Aware Structural Alignment Network that bridges the visual-semantic gap through information-theoretic modeling. First, we introduce an Information Entropy Prior to dynamically modulate positional embeddings via multiplicative interaction, acting as a saliency detector that prioritizes discriminative roots over ubiquitous components. Second, we construct a Dual-View Radical Tree to extract multi-granularity structural features, which are integrated via an adaptive Sigmoid-based gating network to encode both global layout and local spatial roles. Finally, a Top-K Semantic Feature Fusion mechanism is devised to augment the decoding process by utilizing the centroid of semantic neighbors, effectively rectifying visual ambiguities through feature-level consensus. Extensive experiments demonstrate that our method establishes new state-of-the-art performance, achieving an accuracy of 55.04\% on the ICDAR 2013 dataset ($m=1500$), significantly outperforming existing CLIP-based baselines in the challenging zero-shot setting. Furthermore, the framework exhibits exceptional data efficiency, demonstrating rapid adaptability with minimal support samples, achieving 92.41\% accuracy with only one support sample per class.

연구 동기 및 목표

  • 제로샷 HCCR에서 정보 불균형을 해결하기 위해 구분 가능 리듀를 우선시하는 엔트로피 인식 메커니즘을 도입한다.
  • 글로벌 레이아웃과 로컬 공간 역할을 보존하기 위해 문자의 계층적, 이중 뷰 구조 표현을 모델링한다.
  • 시각적 글리프 특징과 의미적 부호 representations를 교차 모달 적응 매칭 모듈로 연결한다.
  • 쓰는 handwriting 변동성에 강건함을 높이기 위해 Top-K 의미적 특징 융합을 통해 디코더 가이던스를 제공한다.
  • 표준 HCCR 벤치마크에서 데이터 효율적인 제로샷 및 소수샷 성능을 입증한다.

제안 방법

  • 리듬 엔트로피에 의해 리듀를 양자 곱 상호작용으로 조절하는 엔트로피 인식 위치 임베딩(EAPE).
  • 깊이 위치 임베딩으로 깊이 변화에 따른 부모 중심의 글로벌 뷰와 자식 중심의 로컬 뷰를 제공하는 이중 뷰 리듀 트리(DVRT).
  • 문자당 다섯 개의 오프라인 사전 계산 피처 벡터: 엔트로피 표현, 리듀 코드, 깊이 피처, 글로벌 구조 피처, 로컬 구조 피처.
  • 적응 시그모이드 게이트퓨전 및 교차 모달 어텐션을 통한 리듀 시맨틱 매칭 모듈로 시각적 피처를 의미 프로토타입과 정렬.
  • 디코더 가이드를 위한 상위-K 교차 모달 이웃을 집계하여 강건한 의미 프로토타입을 형성하는 Top-K 의미 피처 융합.
  • 주요 방정식으로는 v_i = e_i ⊙ (H(r_i) · p_i)의 엔트로피 가중치 부여 및 v_ent으로의 집계, 깊이 위치를 위한 DP 임베딩, 다단계 융합과 교차 어텐션 메커니즘(논문 내의 방정식 (1)-(12))을 포함한다.
Figure 1: The overall architecture of the proposed Entropy-Aware Structural Alignment Network. The framework consists of three input branches and a central matching mechanism: (1) The Visual Branch (top-left) employs a ResNet-based backbone to extract feature maps from handwritten character images.
Figure 1: The overall architecture of the proposed Entropy-Aware Structural Alignment Network. The framework consists of three input branches and a central matching mechanism: (1) The Visual Branch (top-left) employs a ResNet-based backbone to extract feature maps from handwritten character images.

실험 결과

연구 질문

  • RQ1정보 이론적 측정이 제로샷 인식에서 리듀 구성 요소에 어떤 개선을 가져오는가?
  • RQ2이중 뷰 구조 표현이 ZSL을 위한 중국 문자들의 글로벌 레이아웃과 로컬 구성 요소를 더 잘 포착할 수 있는가?
  • RQ3엔트로피 인식 특징을 활용한 적응형 교차 모달 정렬이 HCCR의 시각-의미 매칭을 개선하는가?
  • RQ4Top-K 의미 피처 융합이 제로샷/소수샷 환경에서 handwriting 변동성에 대한 강건함을 향상시키는가?

주요 결과

  • 제로샷 설정에서 ICDAR 2013 데이터셋에 대해 55.04% 정확도를 달성하여 CLIP 기반 기준선을 능가한다.
  • 클래스당 지원 샘플 한 개만으로도 92.41%의 정확도를 달성하는 강한 데이터 효율성을 보여준다.
  • 엔트로피 인식 조절 및 이중 뷰 구조가 판별 특징 가중치와 구조적 충실도를 향상시키는 데 효과적임을 보여준다.
  • 적응 게이팅이 있는 교차 모달 주의력이 손으로 쓴 시각 자료와 리듀 기반 의미 프로토타입 간의 더 깊은 정합을 가능하게 한다.
  • Top-K 융합은 이웃 리듀들로부터의 의미 합의를 활용하여 강건함을 향상시키는 데 기여한다.
Figure 2: Illustration of the Multi-grid 2D Elastic Deformation . A dense 2D elastic mesh is constructed over the radical image, where control points $p_{m,n}$ (visualized as red dots) are independently perturbed.
Figure 2: Illustration of the Multi-grid 2D Elastic Deformation . A dense 2D elastic mesh is constructed over the radical image, where control points $p_{m,n}$ (visualized as red dots) are independently perturbed.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.