Drivings | Notion

Large Model Agent

DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

使用VLM辅助自动驾驶规划的双系统方法，通过场景描述模块、场景分析模块把输入序列图像转化为VLM的输入并输出决策。重点是高效解读场景信息，双系统解决推理速度上的问题。

Untitled

A Language Agent for Autonomous Driving

借助LLM和一系列Neural Modules组成的Tools实现自动驾驶规划，LLM的输出依据来自于两方面：感知模块获取的当前环境信息以及记忆模块中存储的历史信息（编码-向量搜索-解码）。

Untitled

Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents

通过LLM实现自动驾驶场景的编辑，输入prompt描述对场景本身相机视角的操作，输入原始图像表示原始场景，输出编辑后的video. 使用不同的Agent来处理6种不同任务，结果表明效果优于使用单一Agent. 例如Tech Agent for Background Rendering从输入数据中渲染出背景，Tech Agent for View Adjustment生成调整后的相机参数等。文中提出了McNeRF和McLight方法来实现自动驾驶场景的重建（组建3D Assets），这里面考虑了相机本身的性质（曝光时间等）来提升重建质量。

Untitled

🔨Generation

MagicDrive: Street View Generation with Diverse 3D Geometry Control

Untitled

DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

一个主要实现自动驾驶场景长视频生成的工作，输入3D Layout（包含道路结构以及表示车辆的3D box），输出对应的多视角视频。框架需要分别训练两个Model，分别使用Multi-view single frame和Single-view multi frames作为训练数据，生成时级联即可。单独的Model都是基于Diffusion的改进：（1）引入编码后的pixel-level的控制信息（Layout等）；（2）Consistency模块：Cross-view attn和temporal attn，保证两种Model在生成时的一致性；（3）通过两种对prompt的Attention模块实现不同级别的prompt控制：Masked Cross Attn，常规的Cross Attn.

Untitled

相比OccSora该方法效果更好。

BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D Scene Generation

该方法为了解决在不同尺度场景下实现对物体生成的控制（位置和数量），输入包含固定的2D Fourier Feature，用于控制生成的BEV Map和随机采样的latent code（控制外观颜色等等）