买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于迁移学习的多弹对抗博弈策略学习方法及系统_西安交通大学_202410049355.3 

申请/专利权人:西安交通大学

申请日:2024-01-12

公开(公告)日:2024-04-12

公开(公告)号:CN117875180A

主分类号:G06F30/27

分类号:G06F30/27;G06N3/092;G06N3/094;G06N3/096;G06N3/084

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于迁移学习的多弹对抗博弈策略学习方法及系统,将策略库模块作为评论家网络的源域,采用先验策略对评论家网络初始化,智能体的演员网络生成策略并与训练环境进行交互产生经验信息;采用迁移学习算法对强化学习算法的智能体策略进行训练,训练环境模块对强化学习经验信息进行采样,根据采样的强化学习经验信息和源域中评论家网络的先验知识对目标域的演员网络和评论家网络进行迭代更新,根据测试环境模块产生的奖励,确定多智能体强化学习算法是否收敛。该方法在多智能体强化学习算法中引入迁移学习,进而加快自我博弈算法的演员网络和评论家网络收敛,解决了自我博弈算法中策略训练时间过长的问题。

主权项:1.一种基于迁移学习的多弹对抗博弈策略学习方法,其特征在于,包括以下步骤:步骤1、将导弹参数模块中不同先验参数,输入训练环境模块和测试环境模块的智能体中;步骤2、将策略库模块作为评论家网络的源域,采用策略库模块中的先验策略对训练环境模块中的评论家网络初始化,并加载入训练环境模块的智能体中;步骤3、训练环境模块的智能体依据自己的演员网络生成策略并与训练环境进行交互,产生强化学习经验信息;步骤4、采用迁移学习算法对强化学习算法的智能体策略进行训练,训练环境模块对强化学习经验信息进行采样,根据采样的强化学习经验信息和源域中评论家网络的先验知识对目标域的演员网络和目标域的评论家网络进行迭代更新;步骤5、根据测试环境模块产生的奖励,确定多智能体强化学习算法是否收敛,完成自我博弈策略的训练。

全文数据:

权利要求:

百度查询: 西安交通大学 基于迁移学习的多弹对抗博弈策略学习方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。