[논문 리뷰] BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling.
이 논문은 객체 경계 박스, 주행 가능한 영역, 차선 표시 및 인스턴스 세분화를 포함한 다양한 애너테이션을 갖춘 대규모 주행 영상 데이터셋인 BDD100K를 소개한다. 이는 확장 가능한 애너테이션 툴에 의해 가능해졌으며, 다양한 지리적 조건, 날씨 및 환경 조건에서 100만 건의 영상으로 구성되어 있어 이전의 데이터셋에 비해 규모와 다양성 면에서 크게 발전하여 자율 주행 모델의 강력한 훈련을 지원한다.
Datasets drive vision progress and autonomous driving is a critical vision application, yet existing driving datasets are impoverished in terms of visual content. Driving imagery is becoming plentiful, but annotation is slow and expensive, as annotation tools have not kept pace with the flood of data. Our first contribution is the design and implementation of a scalable annotation system that can provide a comprehensive set of image labels for large-scale driving datasets. Our second contribution is a new driving dataset, facilitated by our tooling, which is an order of magnitude larger than previous efforts, and is comprised of over 100K videos with diverse kinds of annotations including image level tagging, object bounding boxes, drivable areas, lane markings, and full-frame instance segmentation. The dataset possesses geographic, environmental, and weather diversity, which is useful for training models so that they are less likely to be surprised by new conditions. The dataset can be requested at this http URL
연구 동기 및 목표
- 다양하고 대규모의 주행 영상 데이터셋이 풍부한 애너테이션을 갖추지 못한 문제를 해결하기 위해.
- 느리고 비싼 애너테이션의 한계를 극복하기 위해 확장 가능한 애너테이션 툴을 개발하기 위해.
- 모델의 일반화 능력을 향상시키기 위해 지리적, 기상적, 환경적 다양성을 반영한 데이터셋을 만들기 위해.
- 풍부한 다중 수준의 애너테이션을 제공하여 자율 주행을 위한 강력한 시각 모델 훈련을 가능하게 하기 위해.
제안 방법
- 대규모 영상 데이터셋을 효율적으로 처리하기 위한 확장 가능한 애너테이션 시스템의 설계 및 구현.
- 다양한 시각적 조건을 갖춘 10만 건 이상의 영상 수집, 다양한 위치, 기상 조건 및 일출·일몰 시간 포함.
- 다양한 애너테이션 유형의 적용: 이미지 수준 태그, 객체 경계 박스, 주행 가능한 영역 세분화, 차선 표시 애너테이션, 전체 프레임 인스턴스 세분화.
- 애너테이션 툴을 활용하여 광범위한 영상 컬렉션 전반에 걸쳐 일관성과 확장성을 확보.
- 모델의 강건성을 향상시키기 위해 지리적 및 환경적 다양성을 체계적으로 총괄하여 실제 환경 조건에서의 성능 향상 도모.
실험 결과
연구 질문
- RQ1확장 가능한 애너테이션 시스템이 자율 주행을 위한 대규모 영상 데이터셋의 레이블링 시간과 비용을 크게 줄일 수 있는가?
- RQ2주행 데이터셋의 지리적, 기상적, 환경적 다양성이 시각 모델의 일반화에 어떤 영향을 미치는가?
- RQ3더 크고 더 다양한 데이터셋이 객체 검출, 세분화 및 장면 이해 작업 성능을 얼마나 향상시키는가?
- RQ4통합된 애너테이션 파이프라인은 대규모 영상 데이터셋 전반에서 여러 애너테이션 유형을 효율적으로 지원할 수 있는가?
주요 결과
- BDD100K 데이터셋은 10만 건 이상의 영상으로 구성되어 있으며, 이는 이전 주행 데이터셋에 비해 규모가 약 10배 이상 증가한 것이다.
- 데이터셋은 객체 경계 박스, 주행 가능한 영역, 차선 표시 및 인스턴스 세분화와 같은 다양한 애너테이션을 포함하여 다중 작업 학습을 가능하게 한다.
- 지리적, 기상적, 환경적 다양성이 체계적으로 캡처되어 특정 조건에 대한 모델의 과적합을 줄인다.
- 확장 가능한 애너테이션 툴링을 통해 전체 데이터셋에 걸쳐 효율적이고 일관된 레이블링이 가능하여 대규모 데이터 총괄을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.