买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】复杂场景下的无人驾驶汽车决策系统及决策方法_华南理工大学_202210490835.4 

申请/专利权人:华南理工大学

申请日:2022-05-07

公开(公告)日:2024-04-16

公开(公告)号:CN114889644B

主分类号:B60W60/00

分类号:B60W60/00;G06N3/045;G06N3/092;G06N3/0985

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.08.30#实质审查的生效;2022.08.12#公开

摘要:本发明公开了一种复杂场景下的无人驾驶汽车决策系统及决策方法。该系统包括决策模块和自学习模块,决策模块与自学习模块相互连接。决策模块包括元网络和强化学习决策网络,自学习模块包括孪生元网络和孪生强化学习决策网络。元网络分别与强化学习决策网络、孪生元网络连接,孪生元网络与孪生强化学习决策网络连接。元网络由三个多层全连接神经网络构成,强化学习决策网络由动作网络和评价网络组成,决策模块与自学习模块的神经网络结构涉及相同。本发明相比现有技术,通过对环境特征进行分层迁移学习的方式,有效应对了无人驾驶场景的长尾效应,增强了对复杂无人驾驶场景的适应性和决策灵活性。

主权项:1.一种复杂场景下的无人驾驶汽车决策系统,其特征在于,包括决策模块、自学习模块;所述决策模块、所述自学习模块均分别为神经网络,决策模块与自学习模块相互连接;决策模块与自学习模块的输入均分别为无人驾驶场景的环境分层特征,输出均分别为相应无人驾驶的决策动作;决策模块用于对已经训练过的无人驾驶场景的环境分层特征进行学习得到相应无人驾驶的决策动作;决策模块包括元网络、强化学习决策网络;所述元网络与所述强化学习决策网络相互连接;元网络用于学习已经训练过的无人驾驶场景的环境分层特征得到相应的权重参数,并将权重参数作为强化学习决策网络进行学习的约束条件;强化学习决策网络用于根据环境分层特征,在约束条件下学习得到相应无人驾驶场景的决策动作;元网络包括静态权重网络、软约束权重网络、动态权重网络;所述静态权重网络、所述软约束权重网络、所述动态权重网络均分别为多层全连接神经网络,静态权重网络、软约束权重网络、动态权重网络分别与强化学习决策网络连接;静态权重网络用于根据已经训练过的无人驾驶场景的静态特征学习得到静态权重;软约束权重网络用于根据已经训练过的无人驾驶场景的软约束特征学习得到软约束权重;动态权重网络用于根据已经训练过的无人驾驶场景的动态特征学习得到动态权重;强化学习决策网络包括动作网络和评价网络;所述动作网络与元网络连接,所述评价网络与动作网络连接,动作网络和评价网络均分别为多层全连接的神经网络;动作网络用于根据已经训练过的无人驾驶场景的环境分层特征在约束条件下进行学习得到初始的决策动作;动作网络包括静态层网络、软约束层网络、动态层网络;所述静态层网络、软约束层网络、动态层网络分别与元网络连接;静态层网络、软约束层网络、动态层网络依次连接,静态层网络、软约束层网络、动态层网络的输入分别为静态特征、软约束特征、动态特征,静态层网络、软约束层网络、动态层网络的约束条件分别为静态权重、软约束权重、动态权重;评价网络用于对动作网络学习得到的初始的决策动作进行评价得到最终的决策动作;自学习模块用于对没有训练过的无人驾驶场景的环境分层特征进行训练得到相应无人驾驶的决策动作,并将训练过程中产生的与环境分层特征对应的权重参数更新到决策模块;自学习模块包括孪生元网络、孪生强化学习决策网络、已学习场景库;所述已学习场景库与孪生元网络连接;已学习场景库用于识别没有训练过的无人驾驶场景的环境分层特征与已经训练过的无人驾驶场景的环境分层特征之间的差异特征;所述孪生元网络与所述孪生强化学习决策网络相互连接,孪生元网络与元网络相互连接;孪生元网络用于学习差异特征得到相应的权重参数,并将权重参数作为孪生强化学习决策网络进行学习的约束条件,同时将权重参数输入决策模块中更新元网络的权重参数;孪生强化学习决策网络用于根据没有训练过的无人驾驶场景的环境分层特征,在约束条件下学习得到相应无人驾驶场景的决策动作;孪生元网络包括孪生静态权重网络、孪生软约束权重网络、孪生动态权重网络;所述孪生静态权重网络、所述孪生软约束权重网络、所述孪生动态权重网络均分别为多层全连接神经网络,孪生静态权重网络、孪生软约束权重网络、孪生动态权重网络分别与孪生强化学习决策网络连接;孪生静态权重网络用于根据没有训练过的无人驾驶场景的静态特征学习得到静态权重;孪生软约束权重网络用于根据没有训练过的无人驾驶场景的软约束特征学习得到软约束权重;孪生动态权重网络用于根据没有训练过的无人驾驶场景的动态特征学习得到动态权重;孪生强化学习决策网络包括孪生动作网络和孪生评价网络;所述孪生动作网络与孪生元网络连接,所述孪生评价网络与孪生动作网络连接,孪生动作网络和孪生评价网络均分别为多层全连接的神经网络;孪生动作网络用于根据没有训练过的无人驾驶场景的环境分层特征在约束条件下进行学习得到初始的决策动作;孪生动作网络包括孪生静态层网络、孪生软约束层网络、孪生动态层网络;所述孪生静态层网络、孪生软约束层网络、孪生动态层网络分别与孪生元网络连接;孪生静态层网络、孪生软约束层网络、孪生动态层网络依次连接,孪生静态层网络、孪生软约束层网络、孪生动态层网络的输入分别为静态特征、软约束特征、动态特征,孪生静态层网络、孪生软约束层网络、孪生动态层网络的约束条件分别为静态权重、软约束权重、动态权重;孪生评价网络用于对孪生动作网络学习得到的初始的决策动作进行评价得到最终的决策动作;所述环境分层特征包括无人驾驶场景的静态特征、软约束特征、动态特征,所述权重参数包括静态权重、软约束权重、动态权重,所述决策动作包括目标车速、目标位置。

全文数据:

权利要求:

百度查询: 华南理工大学 复杂场景下的无人驾驶汽车决策系统及决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。