买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】自动驾驶汽车换道场景下对抗性测试评估方法_吉林大学_202410080251.9 

申请/专利权人:吉林大学

申请日:2024-01-19

公开(公告)日:2024-04-16

公开(公告)号:CN117892631A

主分类号:G06F30/27

分类号:G06F30/27;G06N3/092;G06F18/23;G06F18/214

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.03#实质审查的生效;2024.04.16#公开

摘要:一种自动驾驶汽车换道场景下对抗性测试评估方法,属于自动驾驶测试评估技术领域。本发明的目的是利用深度强化学习生成的对抗性环境中去测试评估车辆,采用了集成式DDPG深度强化学习算法,大大提高了训练效率的自动驾驶汽车换道场景下对抗性测试评估方法。本发明的步骤是:对抗性换道环境建模,强化学习算法和奖励函数设置,本车换道模型和对抗马尔可夫环境设置。本发明生成的对抗性环境比自然环境更加严峻,显著降低了测试车辆的性能,体现了方法的有效性。可以有效地找到罕见的风险场景,用于评估自动驾驶汽车。

主权项:1.一种自动驾驶汽车换道场景下对抗性测试评估方法,其特征在于:其步骤是:S1、对抗性换道环境建模将换道场景表述为一个由元组S,A1,A2,P,R1,R2,γ表示的二人马尔可夫博弈,其中S为状态空间,A1为自我车辆的动作空间,A2为背景车辆的动作空间,P:S×A1×A2×S为环境的动作转移概率,R1,R2为自我车辆和背景车辆的直接学习奖励;在马尔可夫决策过程中,每个主体的目标是通过策略πi:最大化自己的总期望收益T为时间步长;S2、强化学习算法和奖励函数设置μs∣θμ是一个参数化函数,Qs,a是动作值函数,是在状态st按照策略u采取动作at后的预期回报 考虑用θQ参数化的函数近似器,通过使损失最小来优化临界: yt=rst,at+γQst+1,μst+1∣θQ3其中β是不同的行为策略,θ表示状态分布;Actor通过策略梯度来更新参与者: 创建Actor网络和Critic网络的副本:μ′s∣θμ′Q′s,a∣θQ′;目标网络的参数被缓慢的更新的模型:θ′=τθ+1-τθ′;对手和自我代理的奖励函数是相反的:radv=-rego5rego是自我车辆的驾驶性能;放松零和假设,并在对抗性奖励函数中添加了另一项:radv=-rego+βrrule6其中rrule是对违反交通规则的惩罚,β是超参数;训练N个代理,随机初始化演员和评论家,省略探索,每个智能体,达到局部最优,或者一个情节的累积奖励已经达到某个边界c,则停止训练;S3、本车换道模型和对抗马尔可夫环境设置1基于规则的换道模型-间距接受模型Mgap临界间距为: gapg=lead,lag8其中为目标车辆临界间距;2基于学习的换道模型Mrl对抗马尔可夫环境设置:MDP的状态空间S是9维向量空间:[xleader,xfollow,xtarget,vleader,vfollow,vtarget,vego,φego,yego],其中x表示对抗车辆和ego车辆之间的距离,v表示车辆的速度,φego表示ego车辆的偏航角,并且yego表示ego车辆的横向位置;对抗性智能体的动作空间A是决定其纵向控制动作的三维向量空间:[aleader,afollow,atarget]。a是范围[-1,1]的浮点数,其中+1表示油门全开,-1表示刹车全开;对手的奖励函数是radv=-rego+βrrule,rego是自我车辆的奖励函数,在换道场景中: 函数奖励完成换道任务,并惩罚它的碰撞,敌对车辆违反交通规则,则rrule=0,将β=1设置为默认值。

全文数据:

权利要求:

百度查询: 吉林大学 自动驾驶汽车换道场景下对抗性测试评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。