QUICK REVIEW

[논문 리뷰] Frame-To-Frame Consistent Semantic Segmentation

Manuel Rebol, Patrick Knöbelreiter|arXiv (Cornell University)|2020. 08. 03.

Advanced Neural Network Applications참고 문헌 31인용 수 4

한 줄 요약

이 논문은 ConvLSTM을 사용해 프레임 간 특징 전파를 통합하고, 새로운 비일관성 손실을 도입함으로써 시간적 일관성과 정확도를 향상시키는 영상 기반 세분화 방법을 제안한다. Cityscapes 데이터셋에서, 단일 프레임 추론을 사용한 ESPNet 대비 mIoU를 45.2%에서 57.9%로 향상시키고, 프레임 간 비일관성을 71.1% 감소시켰다.

ABSTRACT

In this work, we aim for temporally consistent semantic segmentation throughout frames in a video. Many semantic segmentation algorithms process images individually which leads to an inconsistent scene interpretation due to illumination changes, occlusions and other variations over time. To achieve a temporally consistent prediction, we train a convolutional neural network (CNN) which propagates features through consecutive frames in a video using a convolutional long short term memory (ConvLSTM) cell. Besides the temporal feature propagation, we penalize inconsistencies in our loss function. We show in our experiments that the performance improves when utilizing video information compared to single frame prediction. The mean intersection over union (mIoU) metric on the Cityscapes validation set increases from 45.2 % for the single frames to 57.9 % for video data after implementing the ConvLSTM to propagate features trough time on the ESPNet. Most importantly, inconsistency decreases from 4.5 % to 1.3 % which is a reduction by 71.1 %. Our results indicate that the added temporal information produces a frame-to-frame consistent and more accurate image understanding compared to single frame processing. Code and videos are available at https://github.com/mrebol/f2f-consistent-semantic-segmentation

연구 동기 및 목표

일조 변화, 가림, 운동 등으로 인해 발생하는 영상 프레임 간 시간적 비일관성 문제를 해결한다.
미래 프레임 정보에 의존하지 않고도 영상 시퀀스에서 예측 정확도와 일관성을 향상시킨다.
로봇 및 자율주행차에 적합한 실시간·경량 세분화를 기존 단일 프레임 CNN 기반으로 가능하게 한다.
재귀적 시간 모델링을 추가함으로써 기존의 어떤 사전 훈련된 단일 프레임 CNN 아키텍처에도 일반화 가능한 방법을 개발한다.
Carla 시뮬레이터에서 생성한 합성 데이터를 활용해 수동 애너테이션 부담을 최소화한다.

제안 방법

과거 프레임의 고수준 특징을 현재 프레임으로 전파하기 위해 ESPNet 아키텍처에 ConvLSTM 레이어를 통합한다.
ConvLSTM 셀 내부에서 표준 컨볼루션 연산을 사용하며, 깊이 있는 고수준 표현에서 특징을 전파하기 위해 L1b 레이어에 배치한다.
연속된 프레임 예측 간 제곱 차이를 기반으로 한 새로운 비일관성 손실 함수를 설계하여 시간적 불일치를 방지한다.
분류를 위한 가중치가 부여된 교차 엔트로피 손실과 λincons = 10으로 설정된 하이퍼파rameter화된 비일관성 손실을 조합하여 정확도와 일관성 간 균형을 확보한다.
다중 단계 훈련: 먼저 LSTM 파라미터만 미세조정하고, 이후 데이터 증강 및 합성 데이터를 활용해 모든 파라미터를 함께 훈련한다.
사전 훈련된 Xception 모델을 활용해 Carla 시뮬레이터에서 생성한 합성 영상 데이터에 대해 정확한 편의 레이블을 생성함으로써 애너테이션 비용을 절감한다.

실험 결과

연구 질문

RQ1과거 프레임의 재귀적 특징 전파를 통합함으로써 영상 세분화의 시간적 일관성이 크게 향상될 수 있는가?
RQ2ConvLSTM 레이어의 위치와 유형이 영상 세분화 성능과 일관성에 미치는 영향은 어떠한가?
RQ3제안된 비일관성 손실 함수는 분류 정확도를 저하시키지 않고도 프레임 간 예측 불일치를 어느 정도 감소시키는가?
RQ4아키텍처 재설계 없이도 ESPNet 및 자체 설계한 SSNet과 같은 다양한 CNN 아키텍처에 일반화 가능한가?
RQ5Carla 시뮬레이터에서 생성한 합성 데이터는 모델의 일반화 및 일관성 향상에 얼마나 효과적인가?

주요 결과

제안된 방법은 ConvLSTM과 비일관성 손실을 사용한 영상 데이터를 활용할 경우, Cityscapes 검증 세트에서 mIoU를 단일 프레임 ESPNet의 45.2%에서 57.9%로 향상시켰다.
시간적 비일관성은 4.5%에서 1.3%로 감소하여 71.1% 감소한 것으로 나타나, 프레임 간 일관성 향상이 뚜렷하게 입증되었다.
ConvLSTM 내부에서 표준 컨볼루션을 사용하는 것이 깊이 분리형 컨볼루션보다 성능이 뛰어나며, 특히 Parametric ReLU 활성화 함수와 조합했을 때 유의미한 성능 향상을 보였다.
L1b 레이어(고수준 특징)에 ConvLSTM를 배치할 경우, 이전 또는 이후 레이어보다 우수한 성능을 기록하여 고수준 특징이 시간적 일관성에 더 효과적임을 시사한다.
λincons = 10로 설정된 비일관성 손실은 정확도와 일관성 간 유의미한 균형을 이루었으며, 정성적 결과에서는 세분화 플리커 현상 감소가 관찰되었다.
실제 Cityscapes 데이터와 Carla 시뮬레이터에서 생성한 합성 영상 데이터를 조합함으로써 일관성과 일반화 능력이 추가로 향상되었지만, 주요 성과는 시간 모델링 구성 요소에서 기인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.