Skip to main content
QUICK REVIEW

[論文レビュー] Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition

Qiuming Luo, Tao Zeng|arXiv (Cornell University)|Feb 3, 2026
Handwritten Text Recognition Techniques被引用数 0
ひとこと要約

エントロピーを考慮したデュアルビューの構造フレームワークにより、視覚表現と意味表現を結びつけ、零-shotの手書き漢字認識を実現。CASIA-HWDBとICDAR13で零-shot/少数-shotの最先端性能を達成。

ABSTRACT

Zero-shot Handwritten Chinese Character Recognition (HCCR) aims to recognize unseen characters by leveraging radical-based semantic compositions. However, existing approaches often treat characters as flat radical sequences, neglecting the hierarchical topology and the uneven information density of different components. To address these limitations, we propose an Entropy-Aware Structural Alignment Network that bridges the visual-semantic gap through information-theoretic modeling. First, we introduce an Information Entropy Prior to dynamically modulate positional embeddings via multiplicative interaction, acting as a saliency detector that prioritizes discriminative roots over ubiquitous components. Second, we construct a Dual-View Radical Tree to extract multi-granularity structural features, which are integrated via an adaptive Sigmoid-based gating network to encode both global layout and local spatial roles. Finally, a Top-K Semantic Feature Fusion mechanism is devised to augment the decoding process by utilizing the centroid of semantic neighbors, effectively rectifying visual ambiguities through feature-level consensus. Extensive experiments demonstrate that our method establishes new state-of-the-art performance, achieving an accuracy of 55.04\% on the ICDAR 2013 dataset ($m=1500$), significantly outperforming existing CLIP-based baselines in the challenging zero-shot setting. Furthermore, the framework exhibits exceptional data efficiency, demonstrating rapid adaptability with minimal support samples, achieving 92.41\% accuracy with only one support sample per class.

研究の動機と目的

  • 零-shot HCCRにおける部首間の情報不均衡を、識別的な部首を優先するエントロピー対応機構を導入して解消する。
  • 文字の階層的でデュアルビューな構造表現をモデル化し、グローバルなレイアウトと局所的な空間的役割を保つ。
  • 視覚的グリフ特徴と意味的部首表現を、クロスモーダルの適応的マッチングモジュールを介して橋渡しする。
  • 筆跡のばらつきに対する頑健性を高めるため、Top-K の意味特徴フュージョンを用いてデコーダを強化する。
  • 標準的なHCCRベンチマークでデータ効率の良い零-shotおよび少数-shot性能を示す。

提案手法

  • エントロピーを用いた位置埋め込み(EAPE)により、部首埋め込みを部首のエントロピーで調整する乗算的相互作用。
  • デュアルビューの部首木(DVRT)により、親中心のグローバルビューと子中心のローカルビューを、深さ-位置埋め込みとともに提供。
  • 各文字あたり事前計算済み5つの特徴ベクトル:エントロピー表現、部首符号化、深さ特徴、グローバル構造特徴、ローカル構造特徴。
  • 部首意味マッチングモジュールを用いた適応的シグモイド・ゲートフュージョンとクロスモーダルアテンションで視覚特徴と意味的プロトタイプを整合。
  • Top-K意味特徴フュージョンで、デコーダ案内のための上位K個のクロスモーダル近傍を統合して頑健な意味的プロトタイプを形成。
  • 主要方程式には、v_i = e_i ⊙ (H(r_i) · p_i) におけるエントロピー加重、v_entへの集約、深さ-位置のDP埋め込み、マルチステージのフュージョンとクロスアテンション機構(論文の式(1)〜式(12))が含まれる。
Figure 1: The overall architecture of the proposed Entropy-Aware Structural Alignment Network. The framework consists of three input branches and a central matching mechanism: (1) The Visual Branch (top-left) employs a ResNet-based backbone to extract feature maps from handwritten character images.
Figure 1: The overall architecture of the proposed Entropy-Aware Structural Alignment Network. The framework consists of three input branches and a central matching mechanism: (1) The Visual Branch (top-left) employs a ResNet-based backbone to extract feature maps from handwritten character images.

実験結果

リサーチクエスチョン

  • RQ1情報理論的指標を部首成分に適用することで零-shot認識が改善されるか。
  • RQ2デュアルビューの構造表現はZSLにおけるグローバルレイアウトと局所部品の捕捉に有効か。
  • RQ3エントロピー対応特徴を用いた適応的クロスモーダル整合は視覚→意味のマッチングを向上させるか。
  • RQ4Top-K意味特徴フュージョンは零-shot/少数-shot設定で筆跡ばらつきに対する頑健性を高めるか。

主な発見

  • 零-shot設定でICDAR 2013データセットで55.04%の精度を達成し、CLIPベースのベースラインを上回る。
  • クラスごとに1つのサポートサンプルのみで92.41%の精度を達成するなど、高いデータ効率を示す。
  • エントロピー対応モジュレーションとデュアルビュー構造が識別的特徴の重み付けと構造忠実性を向上させる効果を示す。
  • 適応ゲーティングを持つクロスモーダルアテンションにより、手書きビジュアルと部首ベースの意味的プロトタイプ間の整合が深まる。
  • Top-K フュージョンは隣接する部首からの意味的コンセンサスを活用して頑健性を向上させる。
Figure 2: Illustration of the Multi-grid 2D Elastic Deformation . A dense 2D elastic mesh is constructed over the radical image, where control points $p_{m,n}$ (visualized as red dots) are independently perturbed.
Figure 2: Illustration of the Multi-grid 2D Elastic Deformation . A dense 2D elastic mesh is constructed over the radical image, where control points $p_{m,n}$ (visualized as red dots) are independently perturbed.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。