QUICK REVIEW

[論文レビュー] ET-SAM: Efficient Point Prompt Prediction in SAM for Unified Scene Text Detection and Layout Analysis

Xike Zhang, Maoyuan Ye|arXiv (Cornell University)|Mar 26, 2026

Handwritten Text Recognition Techniques被引用数 0

ひとこと要約

ET-SAMは軽量なポイントデコーダを導入し、スパースな語中心プロンプトを生成することで、SAMベースの統一的なシーンテキスト検出とレイアウト分析を、異種アノテーション間の共同学習と組み合わせてより高速化します。

ABSTRACT

Previous works based on Segment Anything Model (SAM) have achieved promising performance in unified scene text detection and layout analysis. However, the typical reliance on pixel-level text segmentation for sampling thousands of foreground points as prompts leads to unsatisfied inference latency and limited data utilization. To address above issues, we propose ET-SAM, an Efficient framework with two decoders for unified scene Text detection and layout analysis based on SAM. Technically, we customize a lightweight point decoder that produces word heatmaps for achieving a few foreground points, thereby eliminating excessive point prompts and accelerating inference. Without the dependence on pixel-level segmentation, we further design a joint training strategy to leverage existing data with heterogeneous text-level annotations. Specifically, the datasets with multi-level, word-level only, and line-level only annotations are combined in parallel as a unified training set. For these datasets, we introduce three corresponding sets of learnable task prompts in both the point decoder and hierarchical mask decoder to mitigate discrepancies across datasets.Extensive experiments demonstrate that, compared to the previous SAM-based architecture, ET-SAM achieves about 3$ imes$ inference acceleration while obtaining competitive performance on HierText, and improves an average of 11.0% F-score on Total-Text, CTW1500, and ICDAR15.

研究の動機と目的

統一的なシーンテキスト検出とレイアウト分析のための、従来のSAMベース手法の高い待機時間とデータ使用制限に対処する。
スパースな語ヒートマップと前景ポイントを生成する軽量なポイントデコーダを開発する。
異種のテキストレベルアノテーションを持つデータセットでの共同学習を可能にし、データスケーラビリティを向上させる。
ポイントデコーダと階層的マスクデコーダの両方でタスクプロンプトを導入し、データセット間の差異を緩和する。

提案手法

密なピクセルレベルの前景サンプリングを、語中心のヒートマップを出力し、プロンプトとしてスパースポイントを抽出する軽量なポイントデコーダに置換する。
凍結されたSAMプロンプトエンコーダを用いて、これらのポイントを語プロンプトへ変換し、語・語グループ・テキストライン・段落マスクを出力する階層的マスクデコーダへ渡す。
異種データ分布と異なるテキスト粒度を扱うため、ポイントデコーダとHM-Decoderの双方に学習可能なタスクプロンプトを導入する。
複数レベル・語レベル・テキストラインデータを統一学習プールへ混ぜ、同期バッチでの共同学習戦略を採用する。
複合損失: L = 50*L_point + L_word + L_word_group + L_line + 0.5*L_para。ここでL_pointはL2ヒートマップ損失、他は BCE・Dice・IoUベースの項を組み合わせる。
訓練時には語ヒートマップを用いてテキストラインデータセットの疑似ラベルを生成し、語中心の監視と整合させる。

実験結果

リサーチクエスチョン

RQ1スパースな語中心プロンプトは、SAMベースモデルが低遅延で競合する統一シーンテキスト検出とレイアウト分析を達成できるのか？
RQ2異種のテキストアノテーション（語レベル、行レベル、マルチレベル）を共同活用してデータスケーラビリティとモデルの頑健性を向上させられるのか？
RQ3タスクプロンプトがポイントデコーダとHM-Decoderに対して、異なるデータセットやテキスト粒度でどのような影響を与えるのか？
RQ4軽量なポイントデコーダは、ピクセルベースのプロンプト戦略と比較して推論をどの程度加速しつつ性能を維持できるのか？

主な発見

ET-SAMはHi-SAMベースラインに対して推論速度を約3倍程度向上させつつ、HierTextの性能を競合的に維持する。
混合アノテーションでの共同学習は、ファインチューニング後の単一レベルベンチマークで有意な利得を生み出す（Total-Text、CTW1500、ICDAR15で平均11.0% Fスコア改善）。
共同学習後の単一レベル結果は、Total-Text、CTW1500、ICDAR15の各データで大幅な改善を示し、最大で平均11.0%のFスコア向上。
ポイントデコーダとHM-Decoderの両方でタスクプロンプトを導入することが、語・テキストライン・段落レベルを横断したデータセット適応と全体的なセグメンテーション品質を改善する。
Hi-SAMの密なピクセルレベルのプロンプトサンプリングを、提案された語ヒートマップベースのポイントデコーダに置換することで、待機時間を大幅に削減できる（バリアントで約3.6x速くなる）一方、主要指標を維持または改善する。
本アプローチは曲線・密集テキストでの質的結果が良好で、段落レベルの微調整機会がまだ残っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。