首页 > 论文范文 > 工程工业论文 > 重工业论文 > 汽车工业 > 基于GCN-CS-LSTM的车辆多模态行驶轨迹预测

基于GCN-CS-LSTM的车辆多模态行驶轨迹预测

2024-09-04 24 上传者：管理员

摘要：针对车辆交互关系的非欧几里得性质，提出了一种适用于高速公路车辆之间动态图结构的表达方式，以实现车辆信息的交互传递，并设计了一种结合图卷积神经网络(graph convolutional neural network, GCN)、社会卷积池化层(convolutional social pooling, CS)和长短时记忆网络(long short-term memory network, LSTM)的多模态驾驶行为轨迹预测模型.该模型以LSTM编码器和解码器为基础框架，通过卷积和图卷积实现车辆交互关系的有效提取，同时引入最大池化和平均池化技术，以实现特征提取和背景信息保留.结果表明：本模型在长时域(5 s)的均方根误差为4.03 m,相较于基准模型提高了10.8%,在与其他深度学习模型对比中具有更高的准确率；在不同交通环境下，本模型相较于基准模型的预测性能均有8%～11%提升；消融试验结果进一步验证了本模型中各模块的有效性，本模型能够预测车辆在未来长时域内不同模态的概率分布和对应的轨迹.

关键词：
图卷积神经网络
时间序列
智能驾驶
车辆
轨迹预测
长短时记忆网络
加入收藏

在人工驾驶车辆(manual vehicle, MV)与网联自动驾驶车辆(connected automated vehicle, CAV)构成的新型混合交通流中，精准预测MV的行驶轨迹对于保障CAV在运行过程中做出合理决策和安全规划具有重要意义.主要的轨迹预测方法可归纳为基于物理模型、基于行为意图以及基于交互关系[1]等方法.

基于物理模型的轨迹预测方法[2]高度依赖车辆自身属性，因此在长时间的复杂驾驶环境下，该方法的预测精度会逐渐下降.基于行为意图的预测方法[3-4]缺少目标车辆与动态交通环境之间的交互，可能导致对驾驶员驾驶意图的误判.

基于交互关系的方法在考虑基于行为意图方法的基础上，将交通场景中的车辆视为互相影响且存在联系的实体，通过获取车辆之间的交互信息，生成目标车辆的未来轨迹.在该方法中，基于深度学习的技术得到广泛应用，其中长短时记忆网络(long short-term memory network, LSTM)凭借其强大的信息处理能力和深度表征能力[5],在时序预测问题上得以广泛应用[6].大部分学者均基于编码器-解码器结构方法解决序列到序列的轨迹预测问题[7-9].相较于物理模型和行为意图的轨迹预测方法，基于交互关系的方法在精度和预测时域上均得到显著提升.

然而，上述预测方法在提取交互关系中存在以下问题：① 在行驶过程中车辆之间存在相互影响，相关研究通常仅考虑周围车辆对预测车辆的影响，忽略了预测车辆与周围车辆交互影响的双向性，即预测车辆本身的状态和轨迹也会影响到周围车辆的行为； ② 在真实的驾驶环境中，车辆之间的交互关系具有非欧几里得属性[10],因此，使用普通的卷积方式进行交互关系特征提取时，需要将不规则的非欧几里得数据转化为规则的欧氏数据，这导致难以提取车辆之间的依赖关系.为了有效解决上述问题，一些研究[10-11]提出使用图神经网络解构车辆之间的交互关系，通过节点和边的属性实现交互特征的提取，并解释了特征提取过程中的物理意义，实现预测精度的进一步提升.

笔者以社会卷积池化层(convolutional social pooling, CS)-LSTM模型作为基础，并在CS中添加平均池化层，同时添加图卷积(graph convolutional neural network, GCN)层，提出GCN-CS-LSTM轨迹预测模型，以实现车辆间双向交互关系提取.使用美国开源高速公路数据集NGSIM对模型进行训练和验证，比较提出模型与现有模型在准确性方面的改进效果，并分析提出模型在不同场景下的适用性.

1、问题描述

车辆行驶轨迹受到车辆自身体积、惯性以及道路环境的影响，同时交互车辆和目标车辆存在多种意图，这导致目标车辆的轨迹在运动过程中呈现不确定性和多模态性.为体现车辆行驶过程中的多样性，将车辆轨迹根据横向行为差异进行驾驶行为分类，并利用预测车辆的历史特征以及周围车辆的相对位置，预测车辆在未来5 s内不同驾驶行为的概率分布以及对应驾驶行为下的未来轨迹.

1.1 驾驶行为判别

根据时刻t±4 s范围内车辆行驶车道的变化情况作为判断车辆横向行为的标准，将车辆的驾驶行为分为保持车道(lane keep, LK)、向左换道(lane change left, LCL)、向右换道(lane change right, LCR),如图1所示.

图1 驾驶行为分类

1.2 动态图结构建立

根据N. DEO等[7]的方法设计栅格图形式的交互池，以t时刻的预测车辆为中心，将当前车道和相邻车道前后共58.5 m的范围划分成3×13的栅格图.在该范围内搜寻周围车辆，并将其特征填充到对应的栅格中，形成栅格图，以便在社会卷积池化层中进行特征提取.根据栅格图确定不同时刻预测车辆周围存在的车辆数量和对应特征，将预测车辆和周围车辆作为节点，车辆特征作为节点属性，并以车辆间距离的倒数作为连接两节点的边权重.

1.3 模型的输入与输出

模型的输入特征Xt包括预测车辆和周围车辆时间长度为th的历史特征：

Xt={St-th,…,St-1,St}, (1)

St={x0,t,y0,t,v0,t,a0,t,x1,t,y1,t,v1,t,a1,t,…,

xn,t,yn,t,vn,t,an,t}, (2)

式中：St为当前时刻t的历史状态特征；xn,t、yn,t分别为车辆在t时刻与预测车辆的相对横向位置和纵向位置，n=0为预测车辆，1到n为预测车辆相邻车道前后共58.5 m内的车辆；vn,t、an,t分别为车辆的速度和加速度.基于上述输入特征，模型分别输出3类驾驶行为(LK、LCL、LCR)的概率，并根据不同驾驶行为输出对应长度为tf的未来轨迹为

Y=[Ot+1Ot+2…Ot+i…Ot+tf], (3)

式中：Ot+i为预测车辆的未来轨迹，Ot+i=[x0,t+iy0,t+i].

2、轨迹预测模型结构

GCN-CS-LSTM模型结构如图2所示，由LSTM编码器、CS层、GCN层和LSTM解码器组成.LSTM编码器对预测车辆和周围车辆的历史特征进行编码；社会卷积池化层用于提取车辆之间的相对状态信息；GCN层用于提取预测车辆与周围车辆之间的交互特征；根据不同的预测行为，LSTM解码器将整合后的特征信息进行解码，从而生成多模态轨迹.

图2 GCN-CS-LSTM模型结构

2.1 LSTM编码器-解码器

GCN-CS-LSTM模型通过编码器将车辆的历史特征编码为固定长度的上下文向量.编码器的LSTM单元根据当前时刻的输入值Xt和上一时刻的隐藏状态ht-1,更新当前隐藏状态ht,即ht=f(ht-1,Xt).编码后的车辆历史轨迹编码信息经过CS层与GCN层，得到交互信息编码向量q,将其输入至softmax函数中，输出行为概率Ω=(ω1,ω2,ω3),即LK、LCL与LCR这3种驾驶行为的概率.解码器的作用是接收并提取编码信息，输出车辆未来预测位置.将交互信息编码向量和行为概率相结合，得到环境编码向量r.解码器的LSTM单元根据上一时刻的隐藏状态ht-1,环境编码向量r和上一时刻的输出向量pt-1,更新隐藏层状态ht,即ht=f(ht-1,pt-1,r).根据当前时刻的隐藏层状态和上一时刻的输出向量更新当前时刻的输出向量为pt=g(ht,pt-1,r).将输出向量经过全连接层后，生成未来tf时间内不同驾驶行为的轨迹点坐标及其二维高斯分布参数.

2.2 CS层

为使模型能准确捕捉预测车辆与周围车辆的相对位置，对高速公路进行了栅格化处理.以预测车辆为中心，在横向上选取其所在的车道及其左右两车道，在纵向上选取其前后共58.5 m作为交互池，每个池的大小为13×3,每个栅格的长度为4.5 m.根据周围车辆的位置填充LSTM编码信息.如图2所示，模型引入2个卷积层、1个最大池化层和1个平均池化层.相比CS-LSTM,引入平均池化层使CS层同时提取特征纹理和保留背景信息，从而输出t时刻考虑车辆间交互作用的环境信息.

2.3 GCN网络层

传统预测方法通常将预测车辆视为孤立的个体，忽视了预测车辆与周围车辆间的交互联系.尽管现有基于深度学习的轨迹预测模型在一定程度上考虑了车辆间的交互关系，但这种交互特征提取方法通常只考虑周围车辆对预测车辆的影响，即仅关注预测车辆如何受到周围车辆的影响而进行轨迹预测，忽略了预测车辆对周围车辆的影响.在实际驾驶环境中，车辆间的交互关系通常为非欧几里得结构，普通的卷积方法难以完整提取周围环境的特征.因此，引入GCN来实现非欧几里得环境下对车辆交互信息的提取.某时刻建立的图结构如图3所示，根据栅格图中的车辆位置信息，将t时刻的预测车辆和周围车辆组成一张图Gt=(Vt,Et),其中：Vt为节点；Et为连接节点的边.节点Vt储存预测车辆和周围车辆的编码信息.采用车辆间直线距离的倒数作为连接边的权重，即周围车辆距离预测车辆越近，其对预测车辆的影响程度越大.

图3 某时刻建立的图结构(单位：m)

在GCN中，通过自身特征和周围节点特征进行加权求和得到每个节点卷积后的特征信息，计算式为

式中：At为考虑边权重的邻接矩阵；d为车辆之间的直线距离；I为单位矩阵；Hl+1为第l+1层的节点特征向量；Λt为对角节点度矩阵；Wl为权重矩阵.

3、试验结果分析

3.1 数据预处理与模型训练

使用数据集NGSIM中的I-80路段和US-101路段[12]数据训练模型.该数据集包括2个路段在轻度、中度和拥堵状态下的数据，每个数据集的时长均为15 min, 采样间隔为0.1 s.本研究对数据进行二次采样，将采样间隔变为0.2 s.采用滑动时窗法，以车辆当前帧作为原点，使用前3.0 s的历史特征作为模型输入，后5.0 s的未来轨迹用于预测.

考虑到车辆直线行驶样本数量远高于车辆换道样本，从每类样本中各随机选取5万个样本点(共15万个),实现样本的均衡.将处理后数据集的70%作为训练集，10%作为验证集，20%作为测试集，其他未被选取的数据将用于对比试验.采用预训练的训练策略，前5个回合使用均方误差(mean square error,MSE)作为损失函数LMSE进行预训练，后3个回合使用负对数似然(negative log-likelihood,NLL)作为损失函数LNLL进行正式训练.损失函数计算式为

为在给定的驾驶行为和历史特征下，模型预测轨迹

的概率，Θ为未来每个时间步的二元高斯分布参数，

为模型的输出轨迹，mk为模型预测的车辆未来驾驶行为，X为模型的历史特征；P(mk|X)为车辆在给定历史特征下可能采取的不同驾驶行为的概率；Y

分别为第i个样本在j时刻的未来实际轨迹与模型预测轨迹；N为批训练中的样本总数.

3.2 模型性能分析

选取如下指标作为轨迹预测模型的评价标准：① 由于本模型可以提供多模态的轨迹预测结果，故使用车辆驾驶行为概率最高的预测位置和实际位置的均方根误差(root mean square error,RMSE)作为评价模型预测准确性的标准，同时也作为模型间性能对比指标； ② 均方根误差在评价模型单模态预测精度时有参考价值，在衡量多模态的概率分布时不足，因此使用NLL比较本模型在单模态预测分布和多模态预测分布下的性能.

3.2.1 预测精度分析

不同预测模型在测试集上的RMSE对比如表1所示.

表1 不同车辆行驶轨迹预测模型的RMSE对比m

通过比较各模型在未来5 s内的预测误差变化，可以观察到添加社会卷积池化层的CS-LSTM模型能够有效提取周围车辆的相对位置信息.相较于仅使用历史轨迹的编解码模型(vanilla LSTM, V-LSTM)和基于行为机动的变分高斯混合模型(class VGMMs with vehicle interaction module, C-VGMM+VIM),在长时间预测方面，CS-LSTM表现出更好的性能.此外，以CS-LSTM模型为基础，使用双向门控循环单元的多模态预测模型(BiGRU-CS-GRU)和基于注意力及深度交互的多模态预测模型(ADI-DCS-GRU)提高了轨迹预测的精度.而引入GCN层的GCN-CS-LSTM模型实现了车辆间交互关系的建模，并在社会卷积池化层中添加平均池化层，使模型能够在提取特征纹理的同时保留背景信息，从而进一步提高模型性能.本研究提出的多模态轨迹预测模型(GCN-CS-LSTM(M))在长时域(5 s)的均方根误差为4.03 m, 与基础模型CS-LSTM相比，RMSE误差降低了10.8%.RMSE适用于评价模型的平均预测结果，不适用于多模态预测模型的评估.因此，使用NLL来比较本模型在单模态和多模态预测下的性能.单/多模态预测模型的NLL如图4所示，其中tc为预测时长.本模型在考虑多模态情况下的NLL误差明显低于单模态的情况，表明本模型在预测车辆多模态分布时相较于预测车辆单模态分布更能有效地反映车辆运动过程中的不确定性.

图4 单/多模态预测模型的NLL

3.2.2 消融试验

车辆行驶轨迹预测模型消融试验结果如表2所示.

表2 车辆行驶轨迹预测模型消融试验结果m

消融试验结果验证了模型各模块的有效性.在实际驾驶环境中，考虑到周围车辆的速度和加速度也会对预测车辆的未来轨迹造成一定影响，因此，在CS-LSTM基础上考虑车辆的速度和加速度特征建立CS-VA-LSTM预测模型.研究结果表明：增加特征后的CS-LSTM的预测精度提升了8.19%,速度和加速度特征对于模型准确掌握车辆间的相对位置具有积极作用.在考虑添加特征的基础上，引入图注意力网络(graph attention network, GAT)和GCN用于车辆交互关系的建模.研究结果表明：引入GAT的GAT-CS-LSTM模型，预测精度提升了10.4%;引入GCN的GCN-CS-LSTM模型，预测精度提升了10.8%.GAT和GCN的区别如下：在GAT中车辆间的相互作用强弱(边权重)由车辆间特征的相似度计算获得；GCN中车辆间的边权重则表示为车辆间的距离，GCN-CS-LSTM能够从物理层面上描述车辆之间的相互作用，实现对车辆间交互关系的精确提取，从而达到更高的预测精度.

3.2.3 对比试验

根据拥堵程度，将未被选取的数据集划分为轻度拥堵、中度拥堵和重度拥堵；根据车辆行为意图，将数据集划分为直线行驶、向左换道与向右换道；根据车辆类型，将数据集划分为小型车和大型车.

CS-LSTM模型与GCN-CS-LSTM模型在不同场景下的预测效果对比如表3所示.在8个场景中，GCN-CS-LSTM模型相比于CS-LSTM基础模型，预测精度均得到明显提升.在长时域下(5 s),各类场景中本研究提出的GCN-CS-LSTM均比CS-LSTM在RMSE上降低了8%～11%.

表3 不同场景下CS-LSTM与GCN-CS-LSTM的预测效果对比

3.2.4 考虑交互作用的车辆轨迹预测

在实际驾驶环境中，自动驾驶车辆的轨迹预测模块需要持续考虑周围车辆的交互作用，以实现对目标车辆未来轨迹的滚动式预测.选择车辆在向左换道过程中具有代表性的4帧图像，以展示模型在预测过程中考虑多模态和滚动式预测的作用.

交通环境较为拥堵的情况下，目标车辆受周围车辆的交互作用下向左换道的过程如图5所示，其中：P为预测概率；红色车辆为速度小于15 km/h的周围车辆；绿色车辆为速度大于25 km/h的周围车辆；黄色车辆为速度介于二者之间的周围车辆；虚线为车辆的历史行驶轨迹；实线为模型预测的目标车辆多模态未来行驶轨迹.从图5a可以看出：当前时刻目标车辆周围存在8辆交互车辆；目标车辆与前车距离过近，且目标车辆所在车道车速较慢，同时左右车道没有换道空间，在这种情况下，模型通过历史信息预测目标车辆直线行驶的概率为0.996,向左和向右换道的概率分别为0.001、0.002.从图5b可以看出：当前车道的车速较低，右侧车道换道空间较小；目标车辆为了获取更高的速度收益，准备实现向左换道过程，此时，模型根据新的历史数据预测目标车辆直线行驶的概率下降到0.630,向左换道的概率上升至0.369,向右换道的概率为0.001.

图5 考虑交互作用的滚动式车辆轨迹预测结果

从图5c可以看出：模型捕捉到目标车辆向左的横向位移，结合历史信息，模型预测目标车辆直行概率下降至0.323,向左换道概率上升至0.676,向右换道概率依旧为0.001.

从图5d可以看出：车辆已经发生较大的横向位移，正在进行换道，此时，向左换道的概率已经上升至0.988,直线行驶的概率仅为0.011,向右换道的概率为0.001.考虑交互作用的车辆轨迹预测结果展示了轨迹预测模型在不同时刻通过更新历史输入信息而得到滚动式的预测轨迹.随着目标车辆向左换道的概率逐渐增大，当预测结果以向左换道为主时，模型可以准确预测该时刻后的未来轨迹.

4、结论

针对高速公路上的车辆交互关系和轨迹预测场景，提出了一种基于图卷积网络的多模态轨迹预测模型，利用GCN实现车辆之间交互特征的提取，并结合社会池化层提取的车辆相对状态信息，从而使模型能够同时输出多模态的预测轨迹.本模型的主要贡献如下： ① 本模型适用于高速公路车辆之间的动态图结构表达方式； ② 本模型利用GCN实现了对车辆之间交互特征的提取，通过社会卷积池提取周围车辆相对位置，同时添加平均池化层以减少信息损失，结合最大池化层提取的显著性信息，得到更加精准的预测结果； ③ 相比于基准模型，本模型能够针对车辆行驶过程中的多模态特性为不同模态提供更加精准的概率分布和轨迹预测结果.

本模型以高速公路数据集进行训练，在适用范围上对于城市道路等场景有一定限制.为扩展其适用范围，后续研究将使用其他数据集并探索整合城市道路场景下的交通信息，以提高模型的适用性；将针对本模型的现存缺点，针对性地设计网络结构，以进一步提高模型预测的准确性；将结合轨迹预测结果，实现考虑周围车辆未来行驶轨迹的自动驾驶车辆轨迹规划.

参考文献:

[2]戴礼灿,刘欣,张海瀛,等.基于卡尔曼滤波算法展开的飞行目标轨迹预测[J].系统工程与电子技术,2023,45(6):1814-1820.

[6]蔡英凤,朱南楠,邰康盛,等.基于注意力机制的车辆行为预测[J].江苏大学学报(自然科学版),2020,41(2):125-130.

[8]包智鹏,支永帅,张素民,等.基于BiGRU的多模态驾驶行为及轨迹预测[J].大连理工大学学报,2021,61(3):246-254.

[9]田彦涛,黄兴,卢辉遒,等.基于注意力与深度交互的周车多模态行为轨迹预测[J].吉林大学学报(工学版),2023,53(5):1474-1480.

基金资助:国家自然科学基金青年科学基金资助项目(52002262); 国家重点研发计划项目(2018YFB1600500); 苏州交通运输大数据创新应用实验室基金资助项目(P113305523);

文章来源:孟繁瑞,王翔,俄文娟,等.基于GCN-CS-LSTM的车辆多模态行驶轨迹预测[J].江苏大学学报(自然科学版),2024,45(05):506-512.