[논문 리뷰] Dilated Residual Networks
DRN은 dilation을 사용해 합성곱 신경망에서 높은 공간 해상도를 유지하고 깊이를 늘리지 않으면서 ImageNet 분류를 개선하고, 위치 지정 및 분할을 향상시킵니다.
Convolutional networks for image classification progressively reduce resolution until the image is represented by tiny feature maps in which the spatial structure of the scene is no longer discernible. Such loss of spatial acuity can limit image classification accuracy and complicate the transfer of the model to downstream applications that require detailed scene understanding. These problems can be alleviated by dilation, which increases the resolution of output feature maps without reducing the receptive field of individual neurons. We show that dilated residual networks (DRNs) outperform their non-dilated counterparts in image classification without increasing the model's depth or complexity. We then study gridding artifacts introduced by dilation, develop an approach to removing these artifacts (`degridding'), and show that this further increases the performance of DRNs. In addition, we show that the accuracy advantage of DRNs is further magnified in downstream applications such as object localization and semantic segmentation.
연구 동기 및 목표
- 자연 이미지 및 다운스트림 태스크에서 CNN의 공간 해상도를 보존할 필요성을 제시한다.
- 해상도 유지를 위해 스트라이드를 dilation으로 대체하여 Dilated Residual Network(DRN)을 제안한다.
- 확장으로 인한 그리딩(별칭) 아티팩트를 조사하고 성능 향상을 위해 degridding을 소개한다.
- ImageNet 분류, 약지도된 위치지정, Cityscapes 의미 분할에서 DRN의 개선을 보여준다.
제안 방법
- 해상도 보존을 위해 ResNet 블록의 마지막 두 그룹에서 stride-2 하위 샘플링을 2-확장 컨볼루션으로 대체하여 해상도를 보존한다.
- 네트워크 출력에서 특징 맵 해상도를 28x28로 증가시키기 위해 G4_1 및 G5_1의 stride를 제거한다.
- 나중 계층에 확장 인자(2와 4)를 적용하여 출력 해상도를 높이면서 수용 영역을 유지한다.
- 그리딩 아티팩트를 완화하기 위해 max pooling을 대체하고 점진적으로 확장된 계층을 추가하며 특정 잔차 연결을 제거하는 degridding 스킴(DRN-C)을 도입한다.
- 원하는 경우 분류를 위해 글로벌 평균 풀이를 1x1 컨볼루션으로 대체하고 재훈련 없이 위치 지정을 위한 고해상도 활성 맵을 가능하게 한다.
- DRN이 분류 네트워크를 픽셀 수준 맵을 생성하도록 변환하여 약지도된 위치지정을 직접 수행하는 방법를 시연한다.
실험 결과
연구 질문
- RQ1중간 출력 해상도를 dilation으로 증가시키면 네트워크 깊이를 늘리지 않고도 ImageNet 분류 성능을 향상시킬까?
- RQ2dilation으로 인한 그리딩 아티팩트가 정확도에 어떤 영향을 미치며 이를 효과적으로 완화할 수 있는가( degridding )?
- RQ3DRN이 표준 ResNet과 비교해 약지도된 위치지정 및 의미 분할과 같은 다운스트림 태스크의 성능을 향상시키는가?
- RQ4분류 학습된 DRN이 추가 조정이나 재훈련 없이도 고해상도 위치지정을 제공할 수 있는가?
주요 결과
| 모델 | 1 크롭 top-1 | 1 크롭 top-5 | 10 크롭 top-1 | 10 크롭 top-5 | P (매개변수) |
|---|---|---|---|---|---|
| ResNet-18 | 30.43 | 10.76 | 28.22 | 9.42 | 11.7M |
| DRN-A-18 | 28.00 | 9.50 | 25.75 | 8.25 | 11.7M |
| DRN-B-26 | 25.19 | 7.91 | 23.33 | 6.69 | 21.1M |
| DRN-C-26 | 24.86 | 7.55 | 22.93 | 6.39 | 21.1M |
| ResNet-34 | 27.73 | 8.74 | 24.76 | 7.35 | 21.8M |
| DRN-A-34 | 24.81 | 7.54 | 22.64 | 6.34 | 21.8M |
| DRN-C-42 | 22.94 | 6.57 | 21.20 | 5.60 | 31.2M |
| ResNet-50 | 24.01 | 7.02 | 22.24 | 6.08 | 25.6M |
| DRN-A-50 | 22.94 | 6.57 | 21.34 | 5.74 | 25.6M |
| ResNet-101 | 22.44 | 6.21 | 21.08 | 5.35 | 44.5M |
| DRN-A-50 (dup) | 22.94 | 6.57 | 21.34 | 5.74 | 25.6M |
- DRN-A 모델은 같은 깊이와 용량의 ResNet 상대 모델보다 1-크롭 및 10-크롭 ImageNet top-1/top-5 정확도에서 우수하다.
- Degridding(DRN-C)은 성능을 더 향상시키며, DRN-C-26은 더 깊은 DRN-A-34의 정확도에 맞고 DRN-C-42는 DRN-A-50의 정확도에 맞다.
- DRN-C-26은 더 낮은 깊이임에도 일부 설정에서 ResNet-101보다 우수하다.
- DRN은 미세 조정 없이 약지도된 위치지정에 적합한 고해상도 활성 맵을 제공하며 위치지정 작업에서 ResNet보다 우수하다.
- Cityscapes 의미 분할에서 DRN-C-26 및 DRN-C-42가 더 낮은 깊이에도 불구하고 ResNet-101 기본값을 능가하며 그리드 제거가 수행됐다.
- DRN 출력은 추가적인 업샘플링 모듈 없이도 밀도 예측을 가능케 하는 유익한 공간 정보를 포함한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.