QUICK REVIEW

[논문 리뷰] Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

David Acuna, Huan Ling|arXiv (Cornell University)|2018. 03. 26.

Advanced Neural Network Applications참고 문헌 40인용 수 21

한 줄 요약

Polygon-RNN++는 새로운 CNN 인코더, 강화 학습 훈련, 그래프 신경망을 통해 원래의 Polygon-RNN 모델을 개선하여 상호작용형 개체 세분화를 향상시킨다. 이는 상호작용 모드에서 애너테이션 시간을 50% 감소시키고, Cityscapes에서 기준 모델 대비 10% 높은 평균 IoU를 달성한다. 또한 의료 및 항공 영상과 같은 도메인 외 데이터셋에 대해 강력한 zero-shot 일반화 성능을 보이며, 재학습이 필요로 하지 않는다.

ABSTRACT

Manually labeling datasets with object masks is extremely time consuming. In this work, we follow the idea of Polygon-RNN to produce polygonal annotations of objects interactively using humans-in-the-loop. We introduce several important improvements to the model: 1) we design a new CNN encoder architecture, 2) show how to effectively train the model with Reinforcement Learning, and 3) significantly increase the output resolution using a Graph Neural Network, allowing the model to accurately annotate high-resolution objects in images. Extensive evaluation on the Cityscapes dataset shows that our model, which we refer to as Polygon-RNN++, significantly outperforms the original model in both automatic (10% absolute and 16% relative improvement in mean IoU) and interactive modes (requiring 50% fewer clicks by annotators). We further analyze the cross-domain scenario in which our model is trained on one dataset, and used out of the box on datasets from varying domains. The results show that Polygon-RNN++ exhibits powerful generalization capabilities, achieving significant improvements over existing pixel-wise methods. Using simple online fine-tuning we further achieve a high reduction in annotation time for new datasets, moving a step closer towards an interactive annotation tool to be used in practice.

연구 동기 및 목표

패널티 기반의 픽셀 수준의 인스턴스 세분화에 소요되는 시간을 줄이기 위해 다각형 기반 예측을 사용한 더 빠르고 상호작용 가능한 애너테이션을 가능하게 한다.
원래의 Polygon-RNN의 한계(낮은 출력 해상도, 최적화되지 않은 훈련)를 극복하여 애너테이션 속도와 정확도를 향상시킨다.
재학습 없이도 도메인 외 데이터셋(예: 의료, 항공, 시각 분석)에 대해 강력한 zero-shot 일반화를 가능하게 하여 재학습의 필요성을 줄인다.
온라인 미세조정과 견고한 인간-기계 상호작용을 통합하여 실생활 애너테이션에 적합하고 확장 가능한 도구를 개발한다.
다양한 이미지 도메인에서 경계 인식 표현을 학습함으로써 다각형 기반 모델이 픽셀 수준의 방법보다 더 우수한 일반화 성능을 보일 수 있음을 입증한다.

제안 방법

다각형 예측을 위한 향상된 특징 추출을 위해 새로운 CNN 인코더 아키텍처를 도입하여 모델의 표현 능력과 국소화 정확도를 향상시킨다.
학습된 평가 네트워크가 다각형 정점 시퀀스를 최적화하기 위해 고해상도의 밀도 있는 피드백을 제공하는 강화 학습을 사용해 모델을 훈련한다.
저해상도 다각형 예측(28×28)을 고해상도 출력(112×112)으로 업샘플링하기 위해 그래프 신경망(GGNN)을 활용하여 큰 객체에 대한 정확한 애너테이션을 가능하게 한다.
모델이 각 객체당 하나의 다각형을 예측하도록 지표로 사용되는 진짜 바운딩 박스를 입력으로 사용하며, 가장 중심에 있거나 주목할 만한 인스턴스에 집중한다.
소량의 레이블 데이터로도 새로운 데이터셋에 빠르게 적응할 수 있도록 단순한 온라인 미세조정 프rotocol를 적용하여 새로운 도메인에 대한 빠른 구현을 가능하게 한다.
사용자가 실시간으로 다각형 정점의 수정을 가로질러, 모델이 피드백에 따라 예측을 동적으로 개선하는 상호작용형 애너테이션 인터페이스를 설계한다.

실험 결과

연구 질문

RQ1한 데이터셋에서 훈련된 다각형 기반 모델이 미세조정 없이도 의료, 항공, 시각 분석 영상과 같은 도메인 외 데이터셋에 효과적으로 일반화될 수 있는가?
RQ2학습된 평가자 네트워크를 갖춘 강화 학습은 감독 학습 또는 표준 강화 학습 기반 베이스라인 대비 다각형 예측의 품질과 강건성을 어떻게 향상시키는가?
RQ3그래프 신경망을 통한 출력 해상도 증가로 인해 블록 모양의 왜곡이 얼마나 감소하고 큰 객체에 대한 애너테이션 정확도가 향상되는가?
RQ4모델이 상호작용 모드에서 인간 애너테이터의 클릭 수를 50% 감소시키면서도 지표와 높은 IoU 일致도를 유지할 수 있는가?
RQ5온라인 미세조정은 새로운 데이터셋에 대한 애너테이션을 얼마나 가속화하는가? 그리고 다양한 도메인에서 성능을 유지하는가?

주요 결과

Polygon-RNN++는 Cityscapes 데이터셋에서 자동 모드에서 원래의 Polygon-RNN 대비 평균 교차율(IoU)을 10%p 절대적, 16% 상대적으로 향상시켰다.
상호작용 애너테이션에서, 원래의 Polygon-RNN 대비 필요한 클릭 수를 50% 감소시켜 레이블링 프로세스를 크게 가속화했다.
모델은 도메인 외 데이터셋에 효과적으로 일반화된다: 의료(Sunnybrook Cardiac MR), 항공(Aerial), 시각 분석(ADE20K) 데이터셋에서 강력한 픽셀 기반 기준 모델을 초월한다. 미세조정 없이도 성능을 확보한다.
ADE20K 데이터셋에서 인간 애너테이터는 Polygon-RNN++를 사용해 수동 방법 대비 3배 빠른 속도로 애너테이션을 완료했으며, IoU 일치도는 다소 감소했지만(75.9% 대 80.6% 수준) 큰 손실 없이 유지되었다.
온라인 미세조정을 통해 새로운 데이터셋에서 높은 애너테이션 속도 향상을 달성했으며, 다양한 도메인에서의 성능 유지 능력을 통해 실생활 애너테이션 파이프라인에 대한 강력한 적응성과 실용성을 입증했다.
사용자가 정확하지 않은 편집을 가할 경우에도 모델은 높은 예측 품질을 유지하며 노이즈에 강건함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.