[논문 리뷰] Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation
이 논문은 비대칭 컨볼루션, 확장 컨볼루션, 그리고 밀집 연결을 사용하여 저연산 비용으로도 높은 정확도를 달성하는 실시간 세분화 네트워크인 EDANet을 제안한다. 단일 GTX 1080Ti에서 108 FPS로 실행되며, 최신 모델 수준의 mIoU 성능을 보이며, 추가 모듈이나 사전학습 없이 ICNet 대비 2.7배 빠른 속도를 기록한다.
Real-time semantic segmentation plays an important role in practical applications such as self-driving and robots. Most semantic segmentation research focuses on improving estimation accuracy with little consideration on efficiency. Several previous studies that emphasize high-speed inference often fail to produce high-accuracy segmentation results. In this paper, we propose a novel convolutional network named Efficient Dense modules with Asymmetric convolution (EDANet), which employs an asymmetric convolution structure and incorporates dilated convolution and dense connectivity to achieve high efficiency at low computational cost and model size. EDANet is 2.7 times faster than the existing fast segmentation network, ICNet, while it achieves a similar mIoU score without any additional context module, post-processing scheme, and pretrained model. We evaluate EDANet on Cityscapes and CamVid datasets, and compare it with the other state-of-art systems. Our network can run with the high-resolution inputs at the speed of 108 FPS on one GTX 1080Ti.
연구 동기 및 목표
- 자율주행 및 로봇 공학과 같은 실용적 응용 분야에서 실시간 세분화의 속도와 정확도 간 상충 관계를 해결한다.
- 컨텍스트 모듈, 후처리, ImageNet 사전학습에 의존하지 않고도 높은 성능을 유지하는 경량 네트워크 아키텍처를 개발한다.
- 비대칭 컨볼루션을 확장 컨볼루션과 밀집 연결과 융합하여 특징 표현을 향상시키면서도 FLOPs와 모델 크기를 최소화한다.
- 고해상도 입력에서도 높은 추론 속도를 확보하면서도 최신 모델 수준의 mIoU 성능을 유지한다.
제안 방법
- 표준 3×3 컨볼루션을 1×3 및 3×1 구성 요소로 분해하는 비대칭 컨볼루션 모듈을 설계하여 FLOPs를 33% 감소시킨다.
- 점차 증가하는 확장률을 가진 확장 컨볼루션을 통합하여 다운샘플링 없이 감지 영역을 확장하고, 공간 해상도를 유지한다.
- 모든 레이어 간에 밀집 스케터드 연결을 적용하여 특징 재사용과 기울기 흐름을 향상시키고, 표현 학습을 개선한다.
- 다중 스케일 특징을 활용한 인코더-디코더 아키텍처로 네트워크를 구성하며, 인코더 및 디코더 경로 모두에 비대칭 모듈을 사용한다.
- 모델 크기와 FLOPs를 최소화하면서도 고해상도 입력 처리를 유지하는 방식으로 추론 최적화를 수행한다.
- 클래스 불균형을 보완하기 위해 클래스 가중치를 적용한 교차 엔트로피 손실을 사용하여 엔드 투 엔드 학습을 수행한다.
실험 결과
연구 질문
- RQ1비대칭 컨볼루션은 실시간 네트워크에서 FLOPs를 줄이면서도 세분화 정확도를 유지할 수 있는가?
- RQ2확장 컨볼루션과 밀집 연결의 조합은 공간 해상도와 특징 품질을 유지하는 데 얼마나 효과적인가?
- RQ3컨텍스트 모듈이나 후처리 없이도 경량 네트워크가 경쟁 가능한 mIoU 성능을 달성할 수 있는가?
- RQ4고해상도 입력을 가진 표준 벤치마크에서 제안된 아키텍처의 추론 속도는 얼마인가?
- RQ5Cityscapes 및 CamVid와 같은 다양한 데이터셋에서 최신 기법들과 비교해 모델 성능은 어떠한가?
주요 결과
- EDANet는 단일 GTX 1080Ti에서 고해상도 입력을 처리하면서도 108 FPS의 추론 속도를 기록하며, ICNet 대비 2.7배 더 빠르다.
- Cityscapes 검증 세트에서 EDANet는 mIoU 72.8%를 달성하여 추가 모듈 없이도 최신 기술 수준의 성능을 보였다.
- 비대칭 컨볼루션 분해를 통해 표준 3×3 컨볼루션 대비 FLOPs를 33% 감소시켰다.
- 밀집 연결을 통한 효과적인 특징 전파 덕분에 희귀 클래스를 포함한 모든 클래스에서 높은 정확도를 유지했다.
- CamVid 데이터셋에서 EDANet는 72.1%의 mIoU를 기록하여 다양한 데이터셋 간의 강력한 일반화 능력을 입증했다.
- ICNet 대비 2.7배 더 빠른 속도를 기록하면서도 유사한 mIoU 성능을 유지함으로써 정확도를 희생시키지 않는 효율성을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.