使用VLM辅助自动驾驶规划的双系统方法,通过场景描述模块、场景分析模块把输入序列图像转化为VLM的输入并输出决策。重点是高效解读场景信息,双系统解决推理速度上的问题。

借助LLM和一系列Neural Modules组成的Tools实现自动驾驶规划,LLM的输出依据来自于两方面:感知模块获取的当前环境信息以及记忆模块中存储的历史信息(编码-向量搜索-解码)。

通过LLM实现自动驾驶场景的编辑,输入prompt描述对场景本身相机视角的操作,输入原始图像表示原始场景,输出编辑后的video. 使用不同的Agent来处理6种不同任务,结果表明效果优于使用单一Agent. 例如Tech Agent for Background Rendering从输入数据中渲染出背景,Tech Agent for View Adjustment生成调整后的相机参数等。 文中提出了McNeRF和McLight方法来实现自动驾驶场景的重建(组建3D Assets),这里面考虑了相机本身的性质(曝光时间等)来提升重建质量。


一个主要实现自动驾驶场景长视频生成的工作,输入3D Layout(包含道路结构以及表示车辆的3D box),输出对应的多视角视频。 框架需要分别训练两个Model,分别使用Multi-view single frame和Single-view multi frames作为训练数据,生成时级联即可。单独的Model都是基于Diffusion的改进:(1)引入编码后的pixel-level的控制信息(Layout等);(2)Consistency模块:Cross-view attn和temporal attn,保证两种Model在生成时的一致性;(3)通过两种对prompt的Attention模块实现不同级别的prompt控制:Masked Cross Attn,常规的Cross Attn.

相比OccSora该方法效果更好。
该方法为了解决在不同尺度场景下实现对物体生成的控制(位置和数量),输入包含固定的2D Fourier Feature,用于控制生成的BEV Map和随机采样的latent code(控制外观颜色等等)