【发明授权】基于驾驶风格误解的鲁棒驾驶策略生成方法及系统_浙江大学_202311141653.7

导航：龙图腾网> 最新专利技术> 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统_浙江大学_202311141653.7

申请/专利权人：浙江大学

申请日：2023-09-06

公开（公告）日：2023-12-19

公开（公告）号：CN116880218B

主分类号：G05B13/04

分类号：G05B13/04

优先权：

专利状态码：有效-授权

法律状态：2023.12.19#授权;2023.10.31#实质审查的生效;2023.10.13#公开

摘要：本发明公开了一种基于驾驶风格误解的鲁棒驾驶策略生成方法及系统，属于人工智能和自动驾驶领域。本发明首先利用背景策略网络与自动驾驶仿真器不断进行交互，采集智能体的样本对对背景评价函数网络和背景策略网络进行参数更新，直至完成背景策略网络的训练；然后固定训练完毕的背景策略网络，再结合自车驾驶策略网络以及误解策略网络与自动驾驶仿真器不断进行交互，采集自车的样本用于对自车评价函数网络、误解评价函数网络、自车驾驶策略网络与误解策略网络进行参数更新，直至完成自车驾驶策略网络的训练。本发明为自车策略网络提供了多样的对抗训练数据，提升了自车驾驶策略对于交通流行为变化的鲁棒性。

主权项：1.一种基于驾驶风格误解的鲁棒驾驶策略生成方法，其特征在于，包括：S1：随机初始化多智能体的背景策略网络和对应的背景评价函数网络的网络参数，利用该背景策略网络与自动驾驶仿真器进行交互，采集所有智能体的样本对并将其存储在第一缓冲存储中，每个智能体的样本对包含当前观测、当前动作、回报奖励、未来观测和驾驶偏好值；S2：从第一缓冲存储中随机抽取一批次智能体的样本对，先由抽取的每个样本对根据自身的驾驶偏好值计算加权权重，将当前批次中其他所有智能体的回报奖励加权更新至自身的回报奖励，再基于回报奖励更新后的所有样本对分别计算损失函数进而对背景评价函数网络和背景策略网络进行参数更新，最后重新使用更新后的背景策略网络与自动驾驶仿真器进行交互，并采集新的样本对更新至第一缓冲存储中完成一轮迭代；不断迭代直至完成背景策略网络的训练，使背景策略网络能根据不同的驾驶偏好值生成不同风格的驾驶行为；S3：固定训练完毕的背景策略网络，随机初始化自车驾驶策略网络、误解策略网络以及各自对应的自车评价函数网络、误解评价函数网络的网络参数，再利用背景策略网络、自车驾驶策略网络以及误解策略网络与自动驾驶仿真器进行交互，采集自车的样本对并将其存储在第二缓冲存储中，每个自车的样本对包含当前观测、自车动作、误解动作、回报奖励和未来观测；S4：从第二缓冲存储中随机抽取一批次自车的样本对，先基于抽取的样本对分别计算损失函数进而对自车评价函数网络、误解评价函数网络、自车驾驶策略网络与误解策略网络进行参数更新，再重新使用更新后的自车驾驶策略网络和误解策略网络与自动驾驶仿真器进行交互，并采集新的自车的样本对更新至第二缓冲存储中完成一轮迭代；不断迭代直至完成自车驾驶策略网络的训练，使自车驾驶策略网络在行为未知的交通流中不断接收自车观测并生成自车动作，实现鲁棒驾驶；所述S2中，抽取的每个样本对更新自身的回报奖励时，将样本对自身的回报奖励作为第一加权项，将当前批次中其他所有智能体的回报奖励平均值作为第二加权项，将两个加权项的加权求和结果作为样本对自身新的回报奖励，其中第一加权项和第二加权项的权重分别为样本对自身的驾驶偏好值的余弦值和正弦值；所述误解策略网络的输入为自车的观测，输出为自车虚假偏好，且输出的自车虚假偏好需嵌入所有智能体的联合驾驶偏好中输入背景策略网络，从而产生误解动作。

全文数据：

权利要求：

百度查询：浙江大学基于驾驶风格误解的鲁棒驾驶策略生成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

下一篇：一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

相关技术

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

一种塑粉加工压制成型一体化生产设备_常州伟冠塑粉制造有限公司_202322584095.3

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

驾驶相关技术

用于调整至少部分自动化驾驶的车辆的驾驶策略的方法和设备_大众汽车有限公司_202010221864.1

无人驾驶车辆自动刹车动能转换器_王军_201611178234.0

一种驾驶室用液阻衬套_博戈橡胶塑料(株洲)有限公司_202322585571.3

无人驾驶飞行器类别报告_高通股份有限公司_202180029408.X

用于控制车辆的驾驶的装置和方法_现代自动车株式会社_201811506237.1

无人驾驶中行人检测方法、装置_中科曙光(南京)计算技术有限公司_201911201329.3

用于在沿着所记录的轨迹行驶时辅助驾驶员的方法和驾驶员辅助系统_宝马汽车股份有限公司_202280060079.X

一种飞机驾驶舱可调式遮阳板机构_菲舍尔航空部件(镇江)有限公司_202322469548.8

自动驾驶测试场景构建方法、装置、设备及可读存储介质_长安大学_202010625061.2

一种自动驾驶用车载摄像头支架_神龙汽车有限公司_202210106603.4

策略相关技术

海上风机组并网策略控制方法、装置、设备及介质_北京华能新锐控制技术有限公司_202211297208.5

一种多智能体追逃问题建模与围捕策略生成方法_西北工业大学_202210104867.6

基于多策略原型生成的低资源神经机器翻译方法_昆明理工大学_202210293213.2

基于用户行为轨迹的服务策略分配方法、装置及电子设备_上海淇玥信息技术有限公司_202011132006.6

基于多层标注策略的跨境民族文化实体关系抽取方法及装置_昆明理工大学_202210733201.7

一种基于层介数连边策略的指挥控制超网络建模方法_岭南师范学院_202210846478.0

用于调整至少部分自动化驾驶的车辆的驾驶策略的方法和设备_大众汽车有限公司_202010221864.1

策略控制方法、设备及系统_华为技术有限公司_201910684221.8

用于接入和移动性策略决策的方法_中兴通讯股份有限公司_202180101947.X

基于动态升级策略的OTA升级方法_珠海亿智电子科技有限公司_202410042785.2

棒相关技术

烧结炭棒脱模装置_惠州市银嘉环保科技有限公司_202322625620.1

一种铝棒加热炉出棒翻棒机构_江苏江顺精密机电设备有限公司_201910545319.5

一种即抛去渍棒_浙江鼎熙品牌管理有限公司_202322667779.X

一种新型探牛棒_上海科湃腾信息科技有限公司_202322390186.3

一种电液棒材打包机_安徽燊泰智能设备有限公司_202322500889.7

一种硅棒腐蚀支撑装置_陕西有色天宏瑞科硅材料有限责任公司_202322433548.2

一种四分裂间隔棒_网源电力科技有限公司_202322396623.2

一种管流式滤棒切割装置_云南长宜科技有限公司_202322492386.X

一种石英纤维熔制下棒机构_新沂市东方石英玻璃有限公司_202322111780.4

一种用于单晶硅棒电阻率测试的定位装置_曲靖晶龙电子材料有限公司_202322131354.7

龙图腾网&IPTOP

【发明授权】基于驾驶风格误解的鲁棒驾驶策略生成方法及系统_浙江大学_202311141653.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务