买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于场景区分的深度强化学习训练方法及系统_的卢技术有限公司_201910913368.X 

申请/专利权人:的卢技术有限公司

申请日:2019-09-25

公开(公告)日:2024-04-09

公开(公告)号:CN110795821B

主分类号:G06F30/20

分类号:G06F30/20;G06V20/56;G06V10/82;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2023.11.07#著录事项变更;2020.03.10#实质审查的生效;2020.02.14#公开

摘要:本发明公开了一种基于场景区分的深度强化学习训练方法及系统,包括以下步骤,将测试车辆接入仿真环境中并随意行驶;数据采集模块收集所述仿真环境中不同位置的街道图像数据集;利用U‑net网络模块对进行语义分割的训练;识别模块在线识别不同的道路情况;在不同的场景中分别设定符合各个场景的Reward值,分别进行针对性的训练;训练完成后模型部署使用。本发明的有益效果:通过减少算法模型学习如何区分各个场景的时间,来减少基于车辆行驶仿真软件中数据进行算法训练时间,可以快速验证车辆辅助驾驶自动驾驶,能够明显降低算法模型在低效率探索上花费的时间,从而大大降低开发时间,提高训练性能。

主权项:1.一种基于场景区分的深度强化学习训练方法,其特征在于:包括以下步骤,将测试车辆与仿真环境建立连接并随意行驶;数据采集模块100收集所述仿真环境中不同位置的街道图像数据集;利用U-net网络模块200对采集到的所述图像数据集进行语义分割的训练,分别提取仿真环境中分割体并对所述分割体设置上不同的属性;识别模块300利用训练好的所述U-net网络模块200在线得到车辆当前由所述数据采集模块100得到图像中所包含的分割信息,在线识别不同的道路情况;深度强化学习网络的DDPG模块400根据所述识别模块300识别的道路情况,对车辆行驶的场景进行区分,并在不同的场景中分别设定符合各个场景的Reward值,分别进行针对性的训练;训练完成后模型部署使用,对车辆的辅助驾驶或自动驾驶进行仿真验证;所述U-net网络模块200对不同的所述分割体设置上不同的属性,其中所述属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让;所述DDPG模块400对车辆行驶的场景进行区分并对下个行驶状态进行分类,所述区分包括直行、转弯、等待、不能移动、调头和躲避,其中所述等待包括红路灯、其他车辆、行人和障碍物的场景;所述U-net网络模块200进行语义分割的训练包括以下步骤,收集车辆行驶时的语义分割图像;手动标注;使用标准的u-net进行调参训练;根据验证结果调整采集的数据集进行反复训练;所述在不同的场景中分别设置不同的Reward值包括,可行驶:对车辆速度、指向进行奖励,抑制s形行驶;等待:对刹车进行奖励,抑制出现碰撞;不可行驶:对刹车、倒车进行奖励,奖励选择其他道路;所述分别进行针对性的训练包括,直行道路中设定方向盘稳定性Reward;转弯道路中设定行驶距离Reward;存在阻碍行驶的道路中设定限制行驶的Reward;等待超时中设定变换车道和调头的Reward;根据训练结果不断优化调整reward;所述识别模块300在线识别不同的道路情况包括以下步骤,利用深度学习设计CNN网络;利用道路采集数据进行网络模型训练并调整优化参数;训练好的网络对采集的图像进行识别,判断当前道路情况。

全文数据:

权利要求:

百度查询: 的卢技术有限公司 一种基于场景区分的深度强化学习训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。