买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于驾驶风格误解的鲁棒驾驶策略生成方法及系统_浙江大学_202311141653.7 

申请/专利权人:浙江大学

申请日:2023-09-06

公开(公告)日:2023-12-19

公开(公告)号:CN116880218B

主分类号:G05B13/04

分类号:G05B13/04

优先权:

专利状态码:有效-授权

法律状态:2023.12.19#授权;2023.10.31#实质审查的生效;2023.10.13#公开

摘要:本发明公开了一种基于驾驶风格误解的鲁棒驾驶策略生成方法及系统,属于人工智能和自动驾驶领域。本发明首先利用背景策略网络与自动驾驶仿真器不断进行交互,采集智能体的样本对对背景评价函数网络和背景策略网络进行参数更新,直至完成背景策略网络的训练;然后固定训练完毕的背景策略网络,再结合自车驾驶策略网络以及误解策略网络与自动驾驶仿真器不断进行交互,采集自车的样本用于对自车评价函数网络、误解评价函数网络、自车驾驶策略网络与误解策略网络进行参数更新,直至完成自车驾驶策略网络的训练。本发明为自车策略网络提供了多样的对抗训练数据,提升了自车驾驶策略对于交通流行为变化的鲁棒性。

主权项:1.一种基于驾驶风格误解的鲁棒驾驶策略生成方法,其特征在于,包括:S1:随机初始化多智能体的背景策略网络和对应的背景评价函数网络的网络参数,利用该背景策略网络与自动驾驶仿真器进行交互,采集所有智能体的样本对并将其存储在第一缓冲存储中,每个智能体的样本对包含当前观测、当前动作、回报奖励、未来观测和驾驶偏好值;S2:从第一缓冲存储中随机抽取一批次智能体的样本对,先由抽取的每个样本对根据自身的驾驶偏好值计算加权权重,将当前批次中其他所有智能体的回报奖励加权更新至自身的回报奖励,再基于回报奖励更新后的所有样本对分别计算损失函数进而对背景评价函数网络和背景策略网络进行参数更新,最后重新使用更新后的背景策略网络与自动驾驶仿真器进行交互,并采集新的样本对更新至第一缓冲存储中完成一轮迭代;不断迭代直至完成背景策略网络的训练,使背景策略网络能根据不同的驾驶偏好值生成不同风格的驾驶行为;S3:固定训练完毕的背景策略网络,随机初始化自车驾驶策略网络、误解策略网络以及各自对应的自车评价函数网络、误解评价函数网络的网络参数,再利用背景策略网络、自车驾驶策略网络以及误解策略网络与自动驾驶仿真器进行交互,采集自车的样本对并将其存储在第二缓冲存储中,每个自车的样本对包含当前观测、自车动作、误解动作、回报奖励和未来观测;S4:从第二缓冲存储中随机抽取一批次自车的样本对,先基于抽取的样本对分别计算损失函数进而对自车评价函数网络、误解评价函数网络、自车驾驶策略网络与误解策略网络进行参数更新,再重新使用更新后的自车驾驶策略网络和误解策略网络与自动驾驶仿真器进行交互,并采集新的自车的样本对更新至第二缓冲存储中完成一轮迭代;不断迭代直至完成自车驾驶策略网络的训练,使自车驾驶策略网络在行为未知的交通流中不断接收自车观测并生成自车动作,实现鲁棒驾驶;所述S2中,抽取的每个样本对更新自身的回报奖励时,将样本对自身的回报奖励作为第一加权项,将当前批次中其他所有智能体的回报奖励平均值作为第二加权项,将两个加权项的加权求和结果作为样本对自身新的回报奖励,其中第一加权项和第二加权项的权重分别为样本对自身的驾驶偏好值的余弦值和正弦值;所述误解策略网络的输入为自车的观测,输出为自车虚假偏好,且输出的自车虚假偏好需嵌入所有智能体的联合驾驶偏好中输入背景策略网络,从而产生误解动作。

全文数据:

权利要求:

百度查询: 浙江大学 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。