【发明授权】一种基于场景区分的深度强化学习训练方法及系统_的卢技术有限公司_201910913368.X

导航：龙图腾网> 最新专利技术> 一种基于场景区分的深度强化学习训练方法及系统_的卢技术有限公司_201910913368.X

申请/专利权人：的卢技术有限公司

申请日：2019-09-25

公开（公告）日：2024-04-09

公开（公告）号：CN110795821B

主分类号：G06F30/20

分类号：G06F30/20;G06V20/56;G06V10/82;G06N3/0464;G06N3/084

优先权：

专利状态码：有效-授权

法律状态：2024.04.09#授权;2023.11.07#著录事项变更;2020.03.10#实质审查的生效;2020.02.14#公开

摘要：本发明公开了一种基于场景区分的深度强化学习训练方法及系统，包括以下步骤，将测试车辆接入仿真环境中并随意行驶；数据采集模块收集所述仿真环境中不同位置的街道图像数据集；利用U‑net网络模块对进行语义分割的训练；识别模块在线识别不同的道路情况；在不同的场景中分别设定符合各个场景的Reward值，分别进行针对性的训练；训练完成后模型部署使用。本发明的有益效果：通过减少算法模型学习如何区分各个场景的时间，来减少基于车辆行驶仿真软件中数据进行算法训练时间，可以快速验证车辆辅助驾驶自动驾驶，能够明显降低算法模型在低效率探索上花费的时间，从而大大降低开发时间，提高训练性能。

主权项：1.一种基于场景区分的深度强化学习训练方法，其特征在于：包括以下步骤，将测试车辆与仿真环境建立连接并随意行驶；数据采集模块100收集所述仿真环境中不同位置的街道图像数据集；利用U-net网络模块200对采集到的所述图像数据集进行语义分割的训练，分别提取仿真环境中分割体并对所述分割体设置上不同的属性；识别模块300利用训练好的所述U-net网络模块200在线得到车辆当前由所述数据采集模块100得到图像中所包含的分割信息，在线识别不同的道路情况；深度强化学习网络的DDPG模块400根据所述识别模块300识别的道路情况，对车辆行驶的场景进行区分，并在不同的场景中分别设定符合各个场景的Reward值，分别进行针对性的训练；训练完成后模型部署使用，对车辆的辅助驾驶或自动驾驶进行仿真验证；所述U-net网络模块200对不同的所述分割体设置上不同的属性，其中所述属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让；所述DDPG模块400对车辆行驶的场景进行区分并对下个行驶状态进行分类，所述区分包括直行、转弯、等待、不能移动、调头和躲避，其中所述等待包括红路灯、其他车辆、行人和障碍物的场景；所述U-net网络模块200进行语义分割的训练包括以下步骤，收集车辆行驶时的语义分割图像；手动标注；使用标准的u-net进行调参训练；根据验证结果调整采集的数据集进行反复训练；所述在不同的场景中分别设置不同的Reward值包括，可行驶：对车辆速度、指向进行奖励，抑制s形行驶；等待：对刹车进行奖励，抑制出现碰撞；不可行驶：对刹车、倒车进行奖励，奖励选择其他道路；所述分别进行针对性的训练包括，直行道路中设定方向盘稳定性Reward；转弯道路中设定行驶距离Reward；存在阻碍行驶的道路中设定限制行驶的Reward；等待超时中设定变换车道和调头的Reward；根据训练结果不断优化调整reward；所述识别模块300在线识别不同的道路情况包括以下步骤，利用深度学习设计CNN网络；利用道路采集数据进行网络模型训练并调整优化参数；训练好的网络对采集的图像进行识别，判断当前道路情况。

全文数据：

权利要求：

百度查询：的卢技术有限公司一种基于场景区分的深度强化学习训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

下一篇：一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

相关技术

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

再生废液处理系统_山东荣信集团有限公司_202322260404.1

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

强化相关技术

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

一种强化预筛分的破碎干选装置_连云港恒鑫通矿业有限公司_202322499662.5

基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质_湖南大学_202111280872.4

一种基于OAR模型与强化学习的辅助决策方法和装置_清华大学_202311824731.3

基于混合强化学习的车载任务卸载调度方法及系统_北京理工大学_202410205872.5

一种基于深度强化学习的信息年龄可感知资源分配方法_南京理工大学_202210228341.9

化学强化光学玻璃_株式会社小原_202280058134.1

再生混凝土骨料的强化装置_宜昌鑫大兴混凝土有限公司_202322362180.5

一种强化汽车连杆_盐城丰工机械有限公司_202322213045.4

使用强化学习的无线信号波束管理_辉达公司_202311320475.4

训练相关技术

警务政策多功能训练装置_南京软明信息科技有限公司_202322181392.3

用于胸腔穿刺训练的服装_中日友好医院(中日友好临床医学研究所)_202322044819.5

一种足球训练辅助装置_山西铁道职业技术学院_202420196121.7

一种训练足球反弹率测量装置_天水师范学院_202410145976.1

一种步态康复训练机器人_苏州大学_201811359142.1

一种腿部恢复护理训练装置_鄂俊_202321448389.7

一种英语听力训练用耳机_大同师范高等专科学校_202322527447.1

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

一种骨关节运动康复训练装置_山东大学齐鲁医院_202322393150.0

视觉问答模型训练、视觉问答方法和装置_文思海辉元辉科技(大连)有限公司_202110753076.1

龙图腾网&IPTOP

【发明授权】一种基于场景区分的深度强化学习训练方法及系统_的卢技术有限公司_201910913368.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务