QUICK REVIEW

[논문 리뷰] LEDNet: A Lightweight Encoder-Decoder Network for Real-Time Semantic Segmentation

Yu Wang, Quan Zhou|arXiv (Cornell University)|2019. 05. 07.

Advanced Neural Network Applications참고 문헌 26인용 수 21

한 줄 요약

LEDNet는 실시간 세분화를 위한 경량 비대칭 인코더-디코더 CNN으로, 잔차 블록에서 채널 분할 및 셔플 연산을 사용하여 계산량을 줄이고 정확도를 유지하며, 디코더에서 주목사 Pyramidal Network(APN)을 활용하여 특징 표현을 향상시킵니다. 단일 GTX 1080Ti에서 100만 개 미만의 파라미터를 사용하여 87.1%의 카테고리 mIoU와 71 FPS 이상의 성능을 달성하여 최신 기술 수준을 확립합니다.

ABSTRACT

The extensive computational burden limits the usage of CNNs in mobile devices for dense estimation tasks. In this paper, we present a lightweight network to address this problem,namely LEDNet, which employs an asymmetric encoder-decoder architecture for the task of real-time semantic segmentation.More specifically, the encoder adopts a ResNet as backbone network, where two new operations, channel split and shuffle, are utilized in each residual block to greatly reduce computation cost while maintaining higher segmentation accuracy. On the other hand, an attention pyramid network (APN) is employed in the decoder to further lighten the entire network complexity. Our model has less than 1M parameters,and is able to run at over 71 FPS in a single GTX 1080Ti GPU. The comprehensive experiments demonstrate that our approach achieves state-of-the-art results in terms of speed and accuracy trade-off on CityScapes dataset.

연구 동기 및 목표

모바일 및 실시간 응용 프로그램에서 딥 컨볼루션 네트워크의 계산 부담을 완화하기 위해, 특히 세분화와 같은 밀도 예측 작업에 초점을 맞춥니다.
자원 제약이 있는 장치에 배포하기 위해 높은 세분화 정확도와 낮은 추론 비용을 동시에 확보하는 경량 네트워크를 설계합니다.
새로운 연산을 잔차 블록에 도입하고 효율적인 디코더 아키텍처를 사용하여 모델 복잡도를 감소시키면서도 특징 표현 능력을 유지합니다.
CityScapes 벤치마크에서 속도, 정확도, 모델 크기 간의 새로운 최고 성능 트레이드오프를 달성합니다.

제안 방법

인코더는 채널 분할 및 셔플 연산을 적용하여 계산 비용을 줄이고 특징 간 통신을 향상시키는 새로운 잔차 모듈을 적용한 ResNet 기반 백본을 사용합니다.
채널 분할은 입력 특징을 반으로 나누어 두 개의 브랜치로 분리한 후, 딥웨이즈 분리형 컨볼루션과 채널 셔플을 적용하여 채널 간 특징 혼합을 수행합니다.
디코더는 공간 피ラ미드 풀링과 학습 가능한 주목사 가중치를 사용하여 다중 척도 특징을 효율적으로 집계하는 주목사 피라미드 네트워크(APN)를 활용합니다.
APN 아키텍처는 파rameter 수를 크게 증가시키지 않으면서도 큰 수신장치를 확보하여, 최소한의 계산 오버헤드로 특징 표현을 향상시킵니다.
표준 최적화 기법을 사용하여 전체 네트워크를 엔드 투 엔드로 훈련하며, 다항 학습률 정책, 모멘터니, 가중치 감쇠를 적용합니다.
파라미터 수를 최소화하고 요인 분할 컨볼루션을 사용하여 추론 속도를 최적화하여 소비자용 GPU에서 높은 FPS 성능을 달성합니다.

실험 결과

연구 질문

RQ1경량 인코더-디코더 아키텍처는 모바일 플랫폼에서 실시간 추론 속도를 유지하면서도 높은 세분화 정확도를 달성할 수 있는가?
RQ2채널 분할 및 셔플 연산은 잔차 블록에서 특징 표현을 향상시키고 계산량을 어떻게 줄이는가?
RQ3디코더에 주목사 기반 피라미드 구조를 도입하면 복잡한 확장 컨볼루션을 대체하면서도 낮은 복잡도로 성능을 유지할 수 있는가?
RQ4비대칭 인코더-디코더 설계를 사용할 경우, 모델 크기, 추론 속도, 세분화 정확도 간의 트레이드오프는 어떻게 되는가?

주요 결과

LEDNet은 미세 및 굵은 애너테이션을 모두 사용하여 훈련한 결과, CityScapes 테스트 세트에서 87.1%의 카테고리 mIoU를 달성하여 비교된 모든 베이스라인을 능가합니다.
단일 GTX 1080Ti GPU에서 71 FPS 이상으로 실행되어 실시간 응용에 적합합니다.
100만 개 미만의 파라미터를 사용함에도 불구하고, SegNet보다 30배 작고, ENet보다 1.5배 더 빠릅니다. 이는 더 높은 정확도를 유지하면서도 성능을 확보한 것입니다.
CityScapes 데이터셋에서 속도와 정확도 간의 최고 수준의 트레이드오프를 달성하였으며, ERFNet, ICNet, CGNet과 같은 최신 기술 수준의 경량 네트워크를 모두 능가합니다.
CityScapes 테스트 세트에서 19개 카테고리 중 13개에서 가장 높은 mIoU를 기록하여 다양한 객체 유형에 대한 강력한 일반화 능력을 입증합니다.
시각적 비교 결과, LEDNet은 특히 보행자나 교통 표지판과 같은 작은 복잡한 객체에 대해 일관되고 정확한 세분화 결과를 생성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.