FlowR2A: Learning Reward-to-Action Distribution
for Multimodal Driving Planning

Xirui Li¹, Zhe Liu^1†, Xiaoqing Ye^2*, Wenhua Han², Yifeng Pan², Junyu Han², Hengshuang Zhao^1*

¹The University of Hong Kong, ²Changan Automobile

^†Project lead ^*Corresponding author

Highlights

Rewards as a condition, not a target. We reframe simulation rewards from discriminative scores into a generative condition, and learn the reward-conditioned action distribution p(a|r) with a flow-matching decoder.
Dense training supervision. Every simulated trajectory–reward pair becomes usable training signal, unifying the dense supervision of scoring-based planners with the dynamic proposal generation of anchor-based planners in a single generative model.
Fine-grained reward signals. Rewards cover safety, progress, comfort, and rule compliance, exposing rich signals for the model to internalize action–reward correlations.
Controllable test-time sampling. A reward target and an initial noise level expose an interpretable 2D sampling space, steering proposals via reward guidance and anchored sampling.
State-of-the-art, high-quality proposals. FlowR2A tops the NAVSIM v1 / v2 benchmarks under a lightweight backbone, with multimodal proposals of substantially higher quality than prior methods.

Framework

FlowR2A unifies the dense reward supervision of scoring-based methods with the dynamic proposal generation of anchor-based methods, all within a single generative model.

Training pipeline of FlowR2A — **Training.** A flow-matching action decoder is conditioned on fine-grained reward signals (safety, progress, comfort, rule compliance) injected via AdaLN. Every action–reward pair from simulation becomes a valid training sample, so the model internalizes the correlation between an action and its outcomes rather than imitating a single ground-truth trajectory.

Inference pipeline of FlowR2A — **Inference.** Classifier-free reward guidance plus zero-shot anchored sampling span a 2D space of (score target, initial noise level). This produces a diverse set of high-quality proposals that a lightweight mode selector ranks for the final action.

Video comparisons

Each planner's proposals are colored by PDMS, from red (0) to green (1).

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

Show 13 more

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

DiffusionDrive

DiffusionDriveV2

iPad

FlowR2A (ours)

Per-frame comparisons

Forward scenes

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

Show 13 more

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

Turning scenes

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

Show 22 more

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

DiffusionDrive
DiffusionDriveV2
iPad
FlowR2A (ours)

Proposal quality

FlowR2A produces consistently high-quality proposal candidates, surpassing the prior multimodal planner iPad on both single and average proposal quality.

FlowR2A's top-K proposals dominate prior planners across K.

NAVSIM Performance

FlowR2A achieves state-of-the-art performance on the NAVSIM v1 navtest benchmark under a lightweight backbone.

Interactive sampling space

FlowR2A offers flexible sampling control through two intuitive knobs: a reward target r_high steers proposals toward higher-PDMS regions, and an initial noise level t_init trades anchor fidelity for sampling diversity.

Reward target r_high0.90

0.800.850.900.95

Initial noise t_init0.85

0.750.800.850.900.95

Higher r_high guides proposals toward higher-reward regions; higher t_init introduces more sampling diversity around the anchor.

Training reward visualization

Fine-grained reward labels used in training partition dense trajectories in complementary ways, exposing rich signals for the model to internalize action-reward correlations.

BEV view

PDMS

EP

HC

Ego-area

TTC-time

BibTeX

@article{flowr2a2026,
  title         = {FlowR2A: Learning Reward-to-Action Distribution for Multimodal Driving Planning},
  author        = {Li, Xirui and Liu, Zhe and Ye, Xiaoqing and Han, Wenhua and Pan, Yifeng and Han, Junyu and Zhao, Hengshuang},
  journal       = {arXiv preprint arXiv:2606.24231},
  year          = {2026}
}

FlowR2A: Learning Reward-to-Action Distributionfor Multimodal Driving Planning

Highlights

Framework

Video comparisons

Per-frame comparisons

Forward scenes

Turning scenes

Proposal quality

NAVSIM Performance

Interactive sampling space

Training reward visualization

BibTeX

FlowR2A: Learning Reward-to-Action Distribution
for Multimodal Driving Planning