[논문 리뷰] End-to-end Multi-Modal Multi-Task Vehicle Control for Self-Driving Cars with Visual Perception
논문은 프런트 뷰 이미지와 이전 속도를 활용해 핸들링 각도와 속도(연속 속도 값 및 이산 속도 명령)를 공동으로 예측하는 다중 모달 다중 작업 네트워크를 제안하며, Udacity 및 새로운 SAIC 데이터 세트에서 평가하고 데이터 합성 기법으로 실제 도로 테스트에서의 누적 오차를 완화합니다.
Convolutional Neural Networks (CNN) have been successfully applied to autonomous driving tasks, many in an end-to-end manner. Previous end-to-end steering control methods take an image or an image sequence as the input and directly predict the steering angle with CNN. Although single task learning on steering angles has reported good performances, the steering angle alone is not sufficient for vehicle control. In this work, we propose a multi-task learning framework to predict the steering angle and speed control simultaneously in an end-to-end manner. Since it is nontrivial to predict accurate speed values with only visual inputs, we first propose a network to predict discrete speed commands and steering angles with image sequences. Moreover, we propose a multi-modal multi-task network to predict speed values and steering angles by taking previous feedback speeds and visual recordings as inputs. Experiments are conducted on the public Udacity dataset and a newly collected SAIC dataset. Results show that the proposed model predicts steering angles and speed values accurately. Furthermore, we improve the failure data synthesis methods to solve the problem of error accumulation in real road tests.
연구 동기 및 목표
- 엔드-투-엔드 차량 제어를 조향 각도만으로 한정하지 않고 속도와 조향을 함께 예측한다.
- 먼저 이산 속도 명령을 예측하는 다중 작업 프레임워크를 개발하고 이를 속도 값으로 점진적으로 정교화한다.
- 이전 피드백 속도를 추가 모달리티로 통합해 속도 및 조향 예측을 개선한다.
- Udacity와 새로 수집된 SAIC 데이터 세트(주간/야간 주행)에서 수집 및 평가한다.
- 실제 도로 테스트에서의 누적 오차를 완화하기 위한 실패 데이터 합성 문제를 다룬다.
제안 방법
- 엔드-투-엔드 조향 각도 예측을 위한 더 큰 커널과 1:1 입력 종횡비를 갖는 기본 CNN 모델을 제안한다.
- 이미지 시퀀스로부터 가속, 감속, 속도 유지 중 하나를 예측하는 이산 속도 명령 네트워크를 도입하고 시간적 맥락을 위해 LSTM을 사용한다.
- 속도 인코더(이전 속도용)를 추가하고 시각적 특징과 속도 특징을 융합해 조향 각도와 속도 모두를 예측하는 다중 모달 다중 작업 네트워크를 개발한다.
- 조향 각도에 대해 평균 절대 오차(MAE), 이산 속도 명령에 대해 크로스 엔트로피, 작업 간 가중 합계 손실을 사용한다.
- HSV 색 공간 변환, 작은 회전, 수평 뒤집기, 측면 카메라 데이터 합성을 포함한 데이터 증강을 적용해 실패 사례를 생성한다.
- Udacity와 SAIC 데이터 세트에서 PilotNet 및 기타 기준선과 비교 평가를 수행하고, 누적 오차를 다루기 위한 확장된 데이터 합성을 통해 도로 테스트를 수행한다.
실험 결과
연구 질문
- RQ1시각 입력으로부터 엔드-투-엔드 학습이 조향 각도와 속도(이산 명령 및/또는 연속 값) 모두를 예측할 수 있는가?
- RQ2이전 피드백 속도를 추가 모달리티로 통합하면 조향과 속도 예측 정확도가 개선되는가?
- RQ3제안된 다중 모달 다중 작업 네트워크가 표준 주행 데이터 세트에서 단일 작업 또는 순수 시각 기반 조향 모델과 비교하여 어떤 차이가 있는가?
- RQ4데이터 증강 및 실패 사례 합성 전략은 현실 세계의 로버스트니스와 도로 테스트에서의 누적 오차 감소에 어떻게 기여하는가?
- RQ5새로 수집한 SAIC 데이터 세트(주간/야간)가 모델 성능 및 일반화에 어떤 영향을 미치는가?
주요 결과
| 모델 / 데이터 세트 | 각도 (MAE 단위) | 속도 MAE (m/s) |
|---|---|---|
| Nvidia’s PilotNet | 4.26 | |
| Cg Network | 4.18 | |
| Base Steering Model | 2.84 | |
| Discrete Speed Command Network | 1.85 | |
| Multi-modal Multi-task Network | 1.26 | |
| Udacity | 0.19 | |
| SAIC | 0.45 |
- 조향 각도 MAE: 다중 모달 다중 작업 네트워크가 기본 및 이산 속도 모델보다 개선된 후 Udacity에서 1.26도 달성.
- 기본 조향 모델은 2.84도 MAE를 달성하며 평가 설정에서 PilotNet 및 더 간단한 Cg Network를 능가한다.
- 이산 속도 명령 네트워크는 이산 명령 예측 시 조향에 대해 1.85도 MAE를 달성하여 공동 학습의 이점을 보여준다.
- 속도 값 예측 MAE: 다중 모달 다중 작업 네트워크로 Udacity에서 0.19 m/s, SAIC에서 0.45 m/s를 달성한다.
- 이전 속도를 추가 입력 모달리티로 사용할 때 속도 값과 조향 각도 예측이 모두 개선된다.
- SAIC 데이터 세트는 주간 및 야간 주행을 포함하며, 학습/검증/테스트를 위해 필터링 후 두 시간의 데이터가 사용된다.
- 데이터 증강 및 합성 실패 사례는 누적 오차를 완화하고 테스트 조건에서 자율 주행을 가능하게 하는 데 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.