[논문 리뷰] Scene-LSTM: A Model for Human Trajectory Prediction
Scene-LSTM은 보행자 궤적과 장면 컨텍스트를 모델링하는 two-level 그리드의 LSTMs로 인간 움직임을 예측하며, 혼잡한 장면에서 여러 기준선보다 우수합니다.
We develop a human movement trajectory prediction system that incorporates the scene information (Scene-LSTM) as well as human movement trajectories (Pedestrian movement LSTM) in the prediction process within static crowded scenes. We superimpose a two-level grid structure (scene is divided into grid cells each modeled by a scene-LSTM, which are further divided into smaller sub-grids for finer spatial granularity) and explore common human trajectories occurring in the grid cell (e.g., making a right or left turn onto sidewalks coming out of an alley; or standing still at bus/train stops). Two coupled LSTM networks, Pedestrian movement LSTMs (one per target) and the corresponding Scene-LSTMs (one per grid-cell) are trained simultaneously to predict the next movements. We show that such common path information greatly influences prediction of future movement. We further design a scene data filter that holds important non-linear movement information. The scene data filter allows us to select the relevant parts of the information from the grid cell's memory relative to a target's state. We evaluate and compare two versions of our method with the Linear and several existing LSTM-based methods on five crowded video sequences from the UCY [1] and ETH [2] datasets. The results show that our method reduces the location displacement errors compared to related methods and specifically about 80% reduction compared to social interaction methods.
연구 동기 및 목표
- 정지된 혼잡한 장면에서 정확도 향상을 위해 보행자 궤적 예측에 장면 정보를 통합한다.
- 각 그리드 셀이 scene-LSTM을 포함하고 하위 그리드가 더 미세한 공간적 세분성을 포착하는 two-level 그리드 구조를 개발한다.
- 다음 움직임을 공동으로 예측하기 위해 Pedestrian Movement LSTMs를 해당 Scene-LSTMs와 연결한다.
- 그리드 셀 메모리에서 관련된 비선형 이동 정보를 추출하는 장면 데이터 필터를 설계한다.
제안 방법
- 대상당 두 개의 결합된 LSTM 네트워크: Pedestrian Movement LSTM과 각 그리드 셀에 대응하는 Scene-LSTM.
- two-level 그리드 구조: 장면은 Scene-LSTM이 있는 그리드 셀들로 나뉘고, 각 셀은 더 미세한 세분화를 위한 하위 그리드로 나뉜다.
- 그리드 셀 내에서 일반적인 궤적 패턴(예: 보도로로 전환, 정류장에서 멈춤)을 모델링하여 예측에 정보 제공.
- 대상 상태에 상대적인 그리드 셀에서 관련 기억 정보를 선택하는 장면 데이터 필터.
- 학습은 대상 및 그리드 셀 전반에 걸친 보행자 및 장면 LSTMs의 동시 최적화를 수반한다.
실험 결과
연구 질문
- RQ1Scene-LSTM를 통한 장면 정보를 통합하는 것이 혼잡한 장면에서 보행자 궤적의 예측 정확도를 향상시키는가?
- RQ2결합된 Scene-LSTM과 Pedestrian-Movement LSTM 네트워크가 기준선 선형 및 다른 LSTM 기반 방법을 능가하는가?
- RQ3two-level 그리드 표현이 미래 궤적에 영향을 주는 일반적인 이동 패턴을 포착할 수 있는가?
- RQ4대상에 관련된 비선형 이동 정보를 보유하는 데 장면 데이터 필터의 효과는 어느 정도인가?
주요 결과
- 본 방법은 관련 방법들에 비해 위치 편위 오차를 감소시킨다.
- 이 방법은 사회적 상호작용 방법들에 비해 약 80%의 오차 감소를 기록한다.
- 일부 구성요소를 포함/제외한 두 버전의 방법이 UCY 및 ETH 데이터셋에 대해 평가되었다.
- 평가에 UCY와 ETH의 다섯 개의 혼잡한 비디오 시퀀스가 사용되었다.
- 결과는 여러 기존 LSTM 기반 기준선 및 선형 모델에 비해 실질적인 향상을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.