Skip to main content
QUICK REVIEW

[論文レビュー] Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling

Xinxin Zhao, Jian Jiang|arXiv (Cornell University)|Feb 25, 2026
Dental Radiography and Imaging被引用数 0
ひとこと要約

この論文は、SAMベースの歯科画像分割フレームワークを三段階の階層エンコーダと双方向シーケンスブロックで構成し、分割品質と効率を向上させ、歯科データセットで顕著なmIoUの改善を達成する。

ABSTRACT

Tooth image segmentation is a cornerstone of dental digitization. However, traditional image encoders relying on fixed-resolution feature maps often lead to discontinuous segmentation and poor discrimination between target regions and background, due to insufficient modeling of environmental and global context. Moreover, transformer-based self-attention introduces substantial computational overhead because of its quadratic complexity (O(n^2)), making it inefficient for high-resolution dental images. To address these challenges, we introduce a three-stage encoder with hierarchical feature representation to capture scale-adaptive information in dental images. By jointly leveraging low-level details and high-level semantics through cross-scale feature fusion, the model effectively preserves fine structural information while maintaining strong contextual awareness. Furthermore, a bidirectional sequence modeling strategy is incorporated to enhance global spatial context understanding without incurring high computational cost. We validate our method on two dental datasets, with experimental results demonstrating its superiority over existing approaches. On the OralVision dataset, our model achieves a 1.1% improvement in mean intersection over union (mIoU).

研究の動機と目的

  • 効率的でスケーラブルなモデルを用いて多尺度構造と全局文脈を扱い、高品質な歯科画像分割を動機づける。
  • 階層的特徴を持つタスク特化型画像エンコーダを開発し、細かな構造を保持しつつ文脈認識を維持する。
  • 全体的な空間文脈を線形計算量で捉える双方向シーケンスブロックを組み込む。
  • マルチスケール特徴ピラミッドとプロンプトベースのデコーダを統合し、正確な歯科分割マスクを生成する。

提案手法

  • 三段階ダウンサンプリングエンコーダを導入し、マルチスケールの歯科画像特徴を構築する。
  • 状態空間モデルを用いた双方向シーケンスブロック(BSB)を実装し、二次の自己注意を置換して前方・後方の文脈統合を実現する。
  • デコーダにおけるトップダウンフュージョンを介して階層特徴を融合し、マスク生成を導く3レベルの特徴ピラミッドを形成する。
  • ポイント/ボックスプロンプトを条件として分割マスクを生成するプロンプトエンコーダーとSAMベースのデコーダを採用する。
  • クロスエントロピー損失とDice損失の組み合わせ、クラスウェイト付与とテスト時拡張で頑健性を向上させる。

実験結果

リサーチクエスチョン

  • RQ1階層的なマルチスケール特徴と双方向シーケンスブロックは、既存のSAMベース手法と比較して歯科画像分割の品質と境界精度を改善できるか。
  • RQ2提案エンコーダとBSBは高解像度の歯科画像において遅延を低減しつつ、mIoUと境界IoUを維持・向上できるか。
  • RQ3ノイズのある複雑な口腔環境においてマルチスケール特徴の統合が分割性能にどう影響するか。

主な発見

VariantmIoUmBIoU
Bidirectional SSM (DSD ablation)90.787.2
Bidirectional SSM + Conv1d (DSD ablation)90.987.9
No Gate (DSD ablation)90.887.2
Shared Gate (DSD ablation)91.487.9
Dual Gate (Ours)91.988.7
  • OralVisionで、提案手法はベースラインより平均IoU(mIoU)を1.1ポイント改善。
  • 双方向シーケンスブロックはアブレーションでmIoUを改善:None 89.1% → Bidirectional SSM 90.7% → Bidirectional SSM + Conv1d 90.9%(DSD)で改善。
  • さらなるアブレーションではゲート設計の影響が示され:No Gate 90.8 mIoU / 87.2 mBIoU; Shared Gate 91.4 mIoU / 87.9 mIoU; Dual Gate (我々) 91.9 mIoU / 88.7 mIoU。
  • 本手法は高解像度での遅延を他手法より低く維持し、品質と効率の両立を検証。
  • DSDとOralVisionデータセットの実験は、ノイズのある歯科画像下で境界線が堅牢に識別される分割マスクの改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。