QUICK REVIEW

[論文レビュー] EvoQRE: Modeling Bounded Rationality in Safety-Critical Traffic Simulation via Evolutionary Quantal Response Equilibrium

Phu-Hoa Pham, Chi-Nguyen Tran|arXiv (Cornell University)|Jan 9, 2026

Autonomous Vehicle Technology and Safety被引用数 0

ひとこと要約

EvoQREは交通におけるドライバーの限定合理性を一般和MarkovゲームのLogit-QREとしてモデル化し、エントロピー正則化された進化 dynamics によって解く。現実的で安全な自動運転車シナリオを実現。

ABSTRACT

Existing traffic simulation frameworks for autonomous vehicles typically rely on imitation learning or game-theoretic approaches that solve for Nash or coarse correlated equilibria, implicitly assuming perfectly rational agents. However, human drivers exhibit bounded rationality, making approximately optimal decisions under cognitive and perceptual constraints. We propose EvoQRE, a principled framework for modeling safety-critical traffic interactions as general-sum Markov games solved via Quantal Response Equilibrium (QRE) and evolutionary game dynamics. EvoQRE integrates a pre-trained generative world model with entropy-regularized replicator dynamics, capturing stochastic human behavior while maintaining equilibrium structure. We provide rigorous theoretical results, proving that the proposed dynamics converge to Logit-QRE under a two-timescale stochastic approximation with an explicit convergence rate of O(log k / k^{1/3}) under weak monotonicity assumptions. We further extend QRE to continuous action spaces using mixture-based and energy-based policy representations. Experiments on the Waymo Open Motion Dataset and nuPlan benchmark demonstrate that EvoQRE achieves state-of-the-art realism, improved safety metrics, and controllable generation of diverse safety-critical scenarios through interpretable rationality parameters.

研究の動機と目的

交通シミュレーションにおいて完全合理性（Nash/CCE）を超えて人間ドライバの挙動をより適切に反映する必要性を動機づける。
交通の一般和マルコフゲームにおける限定合理性を捉える原理的フレームワーク（進化ダイナミクスを伴うQRE）を提案する。
提案ダイナミクスのLogit-QREへの収束性の正式な保証を提供する。
実用的な実装指針とともに連続行動空間へのQREの拡張を行う。
大規模な運転データセットで最先端の現実味と安全性を示す。

提案手法

確率的ダイナミクスと限定合理性を伴う一般和マルコフゲームとして交通をモデル化する。
解決概念としてLogit クアント応答均衡（QRE）を採用し、合理性パラメータ λ を用いてパラメータ化する。
エントロピー正則化されたレプリケータダイナミクスを用いて進化ダイナミクスを実装し、ポリシーとQ関数を二重時間スケールで更新してQREへ収束させる。
時間分解と弱単調性の下でER-RDがO(log k / k^{1/3})の速度でQREへ収束する保証を提供する。
エネルギーベースのカーネルとカーネル密度表現を用いて連続的な行動へ拡張する。実用的戦略（混合ガウス、SVGD、Langevinサンプリング）を提案する。
事前学習済みの生成的ワールドモデルを組み込み、速いクローズドループ評価とリ retrace ベースのオフポリシー更新を可能にする。

実験結果

リサーチクエスチョン

RQ1Logit-QREは交通における複数の相互作用エージェントの限定合理性を現実的に tractable にモデル化できるか。
RQ2エントロピー正則化された進化ダイナミクスは現実的な条件の下 general-sum Markov games においてQREへ収束するか。
RQ3交通における連続行動空間へQREを拡張して計算的に扱えるようにできるか。
RQ4EvoQREは完全合理性ベースラインや他の現実的エージェントと比較して大規模な運転ベンチマークでより現実性と安全性を提供するか。
RQ5合理性パラメータλを調整して制御可能で多様な安全性重視のシナリオを生成できるか。

主な発見

EvoQREはWaymo Open Motion DatasetおよびnuPlanで最先端の現実性を達成（NLL=2.83ビット/アクション; CCE-MASACより18%改善）。
EvoQREは実験で堅牢な安全性を維持し衝突率を1.2%に抑制。
合理性パラメータλを調整することで多様で安全性重視のシナリオの生成を制御可能。
収束保証はER-RDの不変点がLogit-QREと一致すること、二重時間スケール更新の下で明示的なO(log k / k^{1/3})収束速度を示す。
事前学習済みワールドモデルと併用することで、クローズドループ評価を改善し、データ駆動の背景エージェントを提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。