【发明公布】基于迁移学习的多弹对抗博弈策略学习方法及系统_西安交通大学_202410049355.3

导航：龙图腾网> 最新专利技术> 基于迁移学习的多弹对抗博弈策略学习方法及系统_西安交通大学_202410049355.3

申请/专利权人：西安交通大学

申请日：2024-01-12

公开（公告）日：2024-04-12

公开（公告）号：CN117875180A

主分类号：G06F30/27

分类号：G06F30/27;G06N3/092;G06N3/094;G06N3/096;G06N3/084

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.30#实质审查的生效;2024.04.12#公开

摘要：本发明公开了一种基于迁移学习的多弹对抗博弈策略学习方法及系统，将策略库模块作为评论家网络的源域，采用先验策略对评论家网络初始化，智能体的演员网络生成策略并与训练环境进行交互产生经验信息；采用迁移学习算法对强化学习算法的智能体策略进行训练，训练环境模块对强化学习经验信息进行采样，根据采样的强化学习经验信息和源域中评论家网络的先验知识对目标域的演员网络和评论家网络进行迭代更新，根据测试环境模块产生的奖励，确定多智能体强化学习算法是否收敛。该方法在多智能体强化学习算法中引入迁移学习，进而加快自我博弈算法的演员网络和评论家网络收敛，解决了自我博弈算法中策略训练时间过长的问题。

主权项：1.一种基于迁移学习的多弹对抗博弈策略学习方法，其特征在于，包括以下步骤：步骤1、将导弹参数模块中不同先验参数，输入训练环境模块和测试环境模块的智能体中；步骤2、将策略库模块作为评论家网络的源域，采用策略库模块中的先验策略对训练环境模块中的评论家网络初始化，并加载入训练环境模块的智能体中；步骤3、训练环境模块的智能体依据自己的演员网络生成策略并与训练环境进行交互，产生强化学习经验信息；步骤4、采用迁移学习算法对强化学习算法的智能体策略进行训练，训练环境模块对强化学习经验信息进行采样，根据采样的强化学习经验信息和源域中评论家网络的先验知识对目标域的演员网络和目标域的评论家网络进行迭代更新；步骤5、根据测试环境模块产生的奖励，确定多智能体强化学习算法是否收敛，完成自我博弈策略的训练。

全文数据：

权利要求：

百度查询：西安交通大学基于迁移学习的多弹对抗博弈策略学习方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

下一篇：一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

相关技术

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

龙图腾网&IPTOP

【发明公布】基于迁移学习的多弹对抗博弈策略学习方法及系统_西安交通大学_202410049355.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务