特斯拉在AIDAY2022中着重介绍了车道拓扑生成技术方案。借鉴语言模型中的Transformer decoder开发了Vector Lane模块,通过序列的方式自回归地输出结果。整体思路是将车道线相关信息,包括车道线节点位置、车道线节点属性(起点,中间点,终点等)、分叉点、汇合点、以及车道线样条曲线几何参数进行编码,做成类似语言模型中单词token的编码,然后利用时序处理办法进行处理,将这种表示看成“Language of Lanes”。AIDAY2022,https://www.youtube.com/watch?v=ODSJsviD_SU&t=10531s其中BEV特征(Dense World Tensor)不仅包括视觉图像特征,还引入了低精度地图中关于车道线几何/拓扑关系的信息、车道线数量、宽度、以及特殊车道属性等信息的编码特征,这些信息提供了非常有用的先验信息,在生成车道线几何拓扑时很有帮助,尤其是生成无油漆区域的虚拟车道线。自回归方式生成车道线几何拓扑的详细过程如下:
先选取一个生成顺序(如从左到右,从上到下)对空间进行离散化(tokenization),然后就可以用Vector Lane模块预测一系列的离散token,即车道线节点。考虑到计算效率,采用了Coarse to Fine方式预测,即先预测一个节点的粗略位置的(index:18),然后再预测其精确位置(index:31),如下:
接着将第一个word输入给Self Attention模块,得到新的Query,然后和Vector Space Encoding生成的Value和Key进行Cross Attention,预测第二个word(黄色点),整体过程和预测第一个word相同,只是第二个word的语义是“Continue”(代表延续点),分叉/合并预测结果仍为None,曲率参数则需要预测(根据不同曲线方程建模,例如三次多项式曲线或贝塞尔曲线等),如下:
1.nuScenes: A multimodal dataset for autonomous driving
2.Argoverse 2: Next Generation Datasets for Self-Driving Perception and Forecasting3.HDMapNet- An Online HD Map Construction and Evaluation Framework4.PointPillars: Fast Encoders for Object Detection from Point Clouds5.PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation6.VectorMapNet- End-to-end Vectorized HD Map Learning7.MapTR- Structured Modeling and Learning for Online Vectorized HD Map Construction8.Efficient and robust 2d-to-bev representation learning via geometry-guided kernel transformer9.SuperFusion- Multilevel LiDAR-Camera Fusion for Long-Range HD Map Generation and Prediction10.Categorical depth distribution network for monocular 3d object detection11.DETR: End-to-End Object Detection with Transformers12.Lane-Level Street Map Extraction from Aerial Imagery13.BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation14.Categorical Depth Distribution Network for Monocular 3D Object Detection