[논문 리뷰] Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling
이 논문은 3단계 계층 인코더와 양방향 시퀀스 블록을 갖춘 SAM 기반 치과 이미지 분할 프레임워크를 제안하여 분할 품질과 효율성을 향상시키고, 치과 데이터셋에서 유의한 mIoU 향상을 달성합니다.
Tooth image segmentation is a cornerstone of dental digitization. However, traditional image encoders relying on fixed-resolution feature maps often lead to discontinuous segmentation and poor discrimination between target regions and background, due to insufficient modeling of environmental and global context. Moreover, transformer-based self-attention introduces substantial computational overhead because of its quadratic complexity (O(n^2)), making it inefficient for high-resolution dental images. To address these challenges, we introduce a three-stage encoder with hierarchical feature representation to capture scale-adaptive information in dental images. By jointly leveraging low-level details and high-level semantics through cross-scale feature fusion, the model effectively preserves fine structural information while maintaining strong contextual awareness. Furthermore, a bidirectional sequence modeling strategy is incorporated to enhance global spatial context understanding without incurring high computational cost. We validate our method on two dental datasets, with experimental results demonstrating its superiority over existing approaches. On the OralVision dataset, our model achieves a 1.1% improvement in mean intersection over union (mIoU).
연구 동기 및 목표
- 효율적이고 확장 가능한 모델로 다중 스케일 구조와 글로벌 컨텍스트를 다루며 고품질의 치과 이미지 분할을 동기부여합니다.
- 계층적 특징을 가진 작업 특화 이미지 인코더를 개발하여 미세 구조를 보존하면서 맥락 인식을 유지합니다.
- 전방향 및 후방 컨텍스트를 선형 복잡도로 포착하기 위한 양방향 시퀀스 블록을 도입합니다.
- 정확한 치과 분할 마스크 생성을 위해 멀티스케일 피처 피라미드와 프롬프트 기반 디코딩을 통합합니다.
제안 방법
- 치과 이미지 다중 스케일 피처를 구축하기 위한 3단계 다운샘플링 인코더를 도입합니다.
- 상태 공간 모델을 사용하여 제곱형 자기주의를 대체하고 앞뒤 컨텍스트를 축적하는 양방향 시퀀스 블록(BSB)을 구현합니다.
- 디코더에서 상향식 융합을 통해 계층적 피처를 융합하여 마스크 생성을 유도하는 3단계 피처 피라미드를 형성합니다.
- 포인트/상자 프롬프트에 조건화된 분할 마스크를 생성하기 위해 프롬프트 인코더와 SAM 기반 디코더를 채택합니다.
- 교차 엔트로피 손실과 Dice 손실의 조합으로 학습하고, 클래스 가중치 및 테스트 시 증강으로 견고성을 높입니다.
실험 결과
연구 질문
- RQ1계층적 다중 스케일 특징과 양방향 시퀀스 블록이 기존 SAM 기반 방법에 비해 치과 이미지 분할 품질과 경계 정확도를 향상시킬 수 있는가?
- RQ2제안된 인코더와 BSB가 고해상도 치과 이미지에서 latency를 낮추는 효율성 향상을 제공하면서 mIoU와 경계 IoU를 보존하거나 개선하는가?
- RQ3다중 스케일 특징 융합이 노이즈가 많은 구강 환경에서 분할 성능에 어떤 영향을 미치는가?
주요 결과
| Variant | mIoU | mBIoU |
|---|---|---|
| 양방향 SSM (DSD 제거) | 90.7 | 87.2 |
| 양방향 SSM + Conv1d (DSD 제거) | 90.9 | 87.9 |
| 게이트 없음 (DSD 제거) | 90.8 | 87.2 |
| 공유 게이트 (DSD 제거) | 91.4 | 87.9 |
| 이중 게이트(저자 제안) | 91.9 | 88.7 |
- 오랄비전에서 제안 방법은 기준선 대비 평균 IoU(mIoU)에서 1.1 포인트의 향상을 달성합니다.
- 양방향 시퀀스 블록은 제거 ablation에서 mIoU를 향상시키며: None 89.1% → Bidirectional SSM 90.7% → Bidirectional SSM + Conv1d 90.9% on DSD.
- 추가 축소에서 게이트 설계의 영향이 나타납니다: No Gate 90.8 mIoU / 87.2 mBIoU; Shared Gate 91.4 mIoU / 87.9 mIoU; Dual Gate (저자 제안) 91.9 mIoU / 88.7 mIoU.
- 다른 접근법들에 비해 고해상도 이미지에서 낮은 지연 시간을 유지하여 효율성과 품질을 검증합니다.
- DSD 및 OralVision 데이터셋의 실험에서 노이즈가 많은 치과 영상에서 견고한 경계 구분으로 향상된 분할 마스크를 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.