首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种高度类人的自动驾驶营运车辆安全驾驶决策方法_东南大学_202210158758.2 

申请/专利权人:东南大学

申请日:2022-02-21

公开(公告)日:2024-05-03

公开(公告)号:CN114407931B

主分类号:B60W60/00

分类号:B60W60/00;B60W50/00;G06N3/045;G06N3/08;G06F30/27

优先权:

专利状态码:有效-授权

法律状态:2024.05.03#授权;2022.05.20#实质审查的生效;2022.04.29#公开

摘要:本发明公开了一种高度类人的自动驾驶营运车辆安全驾驶决策方法。首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型。最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略。本发明能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,可以有效保障自动驾驶营运车辆的行车安全。

主权项:1.一种高度类人的自动驾驶营运车辆安全驾驶决策方法,首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集;其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性因素对行车安全的影响,利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型;最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略,实现了自动驾驶营运车辆的高级决策输出;其特征在于:该方法具体包括如下步骤:步骤一:构建表征优秀驾驶员驾驶行为的专家轨迹数据集首先,在时空全局统一坐标系下,采集典型交通场景下的异源异质多传感器信息;其次,利用采集到的多传感器信息,构建表征优秀驾驶员驾驶行为的专家轨迹数据集;具体而言,由十位优秀驾驶员驾驶安装多种传感器的营运车辆,其中,所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统和毫米波雷达;在安全驾驶阶段,对优秀驾驶员的各种典型驾驶行为包括车道变换、车道保持、车辆跟驰、超车、加速、减速进行数据采集和处理,获取各类驾驶行为的异源异质描述数据,包括:自车车辆的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度;步骤二:建立高度类人的自动驾驶营运车辆安全决策模型利用生成对抗模仿学习模拟优秀驾驶员的驾驶行为,并构建自动驾驶营运车辆安全驾驶决策模型,具体步骤如下:子步骤1:建立生成器网络采用近端策略优化算法构建生成器;子步骤1.1:定义生成器网络的基本参数1状态空间状态空间由自车的运动状态和周围车辆的运动状态两部分组成,具体描述如下:St=[px,py,vx,vy,ax,ay,ωs,drel_j,vrel_j,arel_j]1式中,St表示t时刻的状态空间,px,py分别表示自车的横向位置和纵向位置;vx,vy分别表示自车的横向速度和纵向速度,单位均为米每秒;ax,ay分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒;ωs表示自车的横摆角速度,单位为弧度每秒;drel_j,vrel_j,arel_j分别表示自车与第j辆车的相对距离、相对速度和相对加速度,单位分别为米、米每秒、米每二次方秒,其中,j表示周围车辆的序号,且j=1,2,3,4,5,6,分别表示当前车道的前方车辆、当前车道的后方车辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆;2动作空间将涵盖横向和纵向驾驶策略的动作空间定义为:At=[a1,a2,a3,a4,a5,a6]2式中,At表示t时刻的动作空间,a1,a2,a3分别表示左转、直行和右转,a4,a5,a6分别表示加速、速度保持不变和减速;3奖励函数将奖励函数设计为:Rt=r1+r2+r3+r4+r5+r63式中,Rt表示t时刻的总奖励函数,r1,r2,r3,r4,r5,r6分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数;首先,为了避免发生前向碰撞,自车应与同车道的前方车辆保持合理的安全间距;为此,将前向防撞奖励函数r1定义为: 式中,Df表示最小前向安全间距,单位为米,α1表示前向防撞奖励函数的权重系数,xrel_1表示自车与当前车道前方车辆的相对间距,单位为米;考虑到合理的最小安全间距应同时兼顾通行效率和行车安全,利用车头时距设计了动态的最小前向安全间距,即:Df=vy·βTH+|vy-vrel_1|·T+Lmin5式中,βTH为车头时距,单位为s,T为数据采样频率,单位为秒,Lmin为临界距离,单位为米;为了避免发生后向碰撞,自车应与同车道的后方车辆保持合理的安全间距;为此,将后向防撞奖励函数r2定义为: 式中,Db表示最小后向安全间距,单位为米,α2表示后向防撞奖励函数的权重系数,xrel_2表示自车与当前车道的后方车辆的相对间距,单位为米;为了避免发生侧向碰撞,自车应与左侧车道和右侧车道的车辆保持合理的安全间距;为此,将侧向防撞奖励函数r3定义为: 式中,Ds表示最小侧向安全间距,单位为米,且α3表示侧向防撞奖励函数的权重系数;其次,在弯道行驶、制动减速和车道变换过程中,自车应保持合理的侧向加速度,避免发生侧翻事故;为此,将防侧翻奖励函数r4定义为: 式中,athr表示自车的侧向加速度阈值,单位为米每二次方秒,α4表示防侧翻奖励函数的权重系数;再次,考虑到合理的安全驾驶决策在保证行车安全的同时,还应具有较好的驾驶平顺性和舒适性,将驾驶平顺性奖励函数r5定义为: 式中,分别表示自车的横向急动度和纵向急动度,单位为米每三次方秒,α5,α6表示驾驶平顺性奖励函数的权重系数;最后,通过施加负反馈的方式,规避导致碰撞和侧翻事故的驾驶策略,将惩罚函数r6定义为: 子步骤1.2:搭建基于“演员-评论家”的生成器网络利用“演员-评论家”框架搭建生成器网络,包括策略网络和评论网络两部分;其中,策略网络将状态空间信息作为输入,输出动作决策,即自动驾驶营运车辆的驾驶策略;评论网络将状态空间信息和动作决策作为输入,输出当前“状态-动作”的价值;具体地:1设计生成器中的策略网络部分利用多个全连接层结构的神经网络建立策略网络,首先,将归一化后的状态量St依次输入到全连接层F1、全连接层F2和全连接层F3,得到输出O1,即动作空间At;考虑到状态空间的维度为25,设置状态输入层的神经元数量为25;设置全连接层F1和全连接层F2的神经元数量分别为128和64;全连接层F1和全连接层F2的激活函数均为S型函数,其表达式为2设计生成器中的评价网络部分利用多个全连接层结构的神经网络建立评价网络,将归一化后的状态量St和动作空间At依次输入到全连接层F4和全连接层F5后得到输出O2,即Q函数值QSt,At;设置全连接层F4和全连接层F5的神经元数量分别为128和64,各层的激活函数均为S型函数;子步骤2:建立判别器网络判别器将专家经验轨迹和生成器的策略轨迹作为输入,通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别,输出驾驶策略的得分Ptτ,从而实现对生成器的优化;考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力,利用深度神经网络构建判别器;具体而言,利用多个全连接层结构的神经网络建立判别器;判别器包含F6、F7和F8三个全连接层,每个全连接层的激励函数均采用线性整流函数,其表达式为fx=max0,x;步骤三:训练自动驾驶营运车辆的安全驾驶决策模型为了最大化与策略参数相关的累积回报,利用GAIL算法对安全驾驶决策模型的参数进行更新;策略更新过程包括两个阶段,即模仿学习阶段和强化学习阶段;在模仿学习阶段,判别器通过打分的方式对生成器输出的驾驶策略进行优化,同时,判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化;在强化学习阶段,评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向,进而实现对生成器输出的驾驶策略的优化;具体的参数更新方法如下:子步骤1:初始化τE:πE,初始化策略参数θ0、值函数参数φ0和判别器参数ω0;其中,τE表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹数据集,且τE={S1,A1,R1,S2,A2,R2,...,Sn,An,Rn},n表示专家轨迹的数量;πE表示专家轨迹τE对应的驾驶策略分布;子步骤2:进行2万次迭代求解,每一次迭代包括子步骤2.1至子步骤2.5,具体地:子步骤2.1:利用策略网络生成驾驶轨迹τ′E,形成的轨迹集合Pt表示为Pt={τ′E};子步骤2.2:对专家轨迹进行采样,采样后的“轨迹-策略分布”表示为τi:其中,τi表示i时刻采样的专家轨迹,表示i时刻采样的专家轨迹对应的策略;子步骤2.3:利用梯度更新判别器的网络参数; 式中,PtSt,At表示判别器在t时刻的输出,即当前轨迹是专家轨迹的概率,表示生成驾驶轨迹的平均奖励,表示t时刻的梯度,表示专家轨迹获得的平均奖励;子步骤2.4:更新策略网络参数;子步骤2.5:利用式12更新值函数参数; 式中,φt+1表示t+1时刻的值函数参数,VφSt表示状态空间为St时的值函数,表示t时刻待执行的奖励函数;子步骤3:当训练迭代次数达到2万次时,结束循环;子步骤4:利用安全驾驶决策模型输出决策策略当安全驾驶决策模型训练完成后,将传感器采集的状态空间信息输入到安全驾驶决策模型中,合理、安全地输出包括转向、加速、减速的高级驾驶决策,实现了具有高度类人水平的车辆安全驾驶决策,保障自动驾驶营运车辆的行车安全。

全文数据:

权利要求:

百度查询: 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。