[논문 리뷰] HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving
HiLM-D는 다중 모달 LLM을 자율 주행에 맞게 확장하기 위해 다중 스케일 고해상도 시각적 디테일과 운전 환경에서 정확한 바운딩 박스 예측 및 위험 객체 이해를 가능하게 하는 특수한 질의 탐지 헤드를 도입한다.
Recent efforts to use natural language for interpretable driving focus mainly on planning, neglecting perception tasks. In this paper, we address this gap by introducing ROLISP (Risk Object Localization and Intention and Suggestion Prediction), which towards interpretable risk object detection and suggestion for ego car motions. Accurate ROLISP implementation requires extensive reasoning to identify critical traffic objects and infer their intentions, prompting us to explore the capabilities of multimodal large language models (MLLMs). However, the limited perception performance of CLIP-ViT vision encoders in existing MLLMs struggles with capturing essential visual perception information, e.g., high-resolution, multi-scale and visual-related inductive biases, which are important for autonomous driving. Addressing these challenges, we introduce HiLM-D, a resource-efficient framework that enhances visual information processing in MLLMs for ROLISP. Our method is motivated by the fact that the primary variations in autonomous driving scenarios are the motion trajectories rather than the semantic or appearance information (e.g., the shapes and colors) of objects. Hence, the visual process of HiLM-D is a two-stream framework: (i) a temporal reasoning stream, receiving low-resolution dynamic video content, to capture temporal semantics, and (ii) a spatial perception stream, receiving a single high-resolution frame, to capture holistic visual perception-related information. The spatial perception stream can be made very lightweight by a well-designed P-Adapter, which is lightweight, training-efficient, and easily integrated into existing MLLMs. Experiments on the DRAMA-ROLISP dataset show HiLM-D's significant improvements over current MLLMs, with a 3.7% in BLEU-4 for captioning and 8.7% in mIoU for detection.
연구 동기 및 목표
- 다중 모달 LLM 내에서 자율 주행을 위한 고해상도 장면 이해를 촉진한다.
- ST-Adapters를 통해 비디오 인지 공간-시간 특징을 MLLMs에 통합한다.
- LLM 기반 프레임워크에서 객체 탐지 및 바운딩 박스 추론을 가능하게 한다.
- 다양한 질의 탐지 헤드와 위치 표현이 탐지 성능에 미치는 영향을 조사한다.
제안 방법
- 깊이 방향 3D 합성으로 비디오 특징을 LLM 표현과 융합하기 위해 ST-Adapters를 도입한다.
- 기초 MLLM(MiniGPT-4 및 변형)을 보조 탐지기로 확장하여 LLM 숨겨진 상태에서 바운딩 박스를 생성한다.
- LLM 기반 회귀, DETR 스타일, 그리고 제안하는 접근법 등을 포함한 여러 질의 탐지 헤드(QDH) 아키텍처를 비교한다.
- 객체 위치 지정을 위한 위치 표현(정수 좌표 대 추가 어휘) 실험을 수행한다.
- LLM의 동결 대 LoRA 기반 파인튜닝에 대한 차등 실험을 수행하여 효율성과 성능을 평가한다.
실험 결과
연구 질문
- RQ1다중 스케일 고해상도 시각 정보가 자율 주행을 위한 MLLMs의 객체 위치 추정 및 위험 이해를 향상시킬 수 있는가?
- RQ2다양한 질의 탐지 헤드 아키텍처가 MLLMs의 바운딩 박스 정확도에 미치는 영향은 무엇인가?
- RQ3위치 표현과 학습 전략(LoRA 대 동결)이 탐지 및 캡션 성능에 어떤 영향을 미치는가?
주요 결과
| 유형 | 캡션 평균 | 탐지 B4 | mIoU |
|---|---|---|---|
| Vocab. | 54.7 | 43.2 | 49.0 |
| Numerical | 55.8 | 48.9 | 52.4 |
| Ours | 55.8 | 59.6 | 57.7 |
| LoRA | — | 59.6 | — |
| Frozen | 55.8 | 59.6 | — |
- 바운딩 박스 위치 지정을 위해 수치 좌표를 직접 사용하는 것이 추가 좌표 어휘를 사용하는 것보다 성능이 우수하다.
- 교차 어텐션에서 LLM 정보 Priors를 활용한 제안된 접근법은 DETR 스타일 방법과 비교하여 경쟁력 있는 또는 우수한 mIoU 및 탐지 지표를 보인다.
- LoRA 기반 파인튜닝은 효율적일 수 있으며 탐지 및 캡션 지표에서 고성능을 달성하며 때로는 동결된 LLM보다 우수하다.
- LLM을 동결하면 파인 튜닝 대안과 비교할 때 캡션 및 탐지 결과가 비슷한 효율적인 학습이 가능하다.
- 제시된 제거 실험 중 Ours QDH 구성이 최고 탐지 정확도를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.