中国电子科技集团公司第十五研究所臧义华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国电子科技集团公司第十五研究所申请的专利基于自博弈的智能化强化学习训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119783759B 。
龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510278940.5,技术领域涉及:G06N3/092;该发明授权基于自博弈的智能化强化学习训练方法是由臧义华;马兴民;孟晓燕;李小娟;郭彦文设计研发完成,并于2025-03-11向国家知识产权局提交的专利申请。
本基于自博弈的智能化强化学习训练方法在说明书摘要公布了:本发明公开了基于自博弈的智能化强化学习训练方法,具体涉及异构智能体协同决策领域,用于解决高维异构动作空间下实时性与策略稳定性问题,是通过动作空间的类型化拆分与共享特征提取,降低了网络参数规模;动态二进制掩码的应用实现了对非法动作的实时过滤,克服了依赖奖励惩罚机制的滞后性与探索偏差,确保了决策过程的合规性与高效性;融合战术稳定性与环境复杂度构建的优先级得分矩阵,结合分层重要性采样,优化了动作选择策略,提升了决策的稳定性和环境适应性;交叉注意力网络与协同增益系数的引入,有效捕捉并利用了智能体间的战术关联,增强了协同决策的整体效能与鲁棒性。
本发明授权基于自博弈的智能化强化学习训练方法在权利要求书中公布了:1.基于自博弈的智能化强化学习训练方法,其特征在于,包括步骤: 依照智能体类型标签将整体动作空间拆分为若干子空间,生成各子空间的原始动作概率矩阵,智能体为机器人集群; 在实时环境状态下,过滤掉非法动作,获得各子空间的合法动作序列集合;实时环境状态指的是当前环境的动态特征,包括位置、速度和障碍物的状态信息,这些信息通过传感器、视觉系统或其他监测方式实时收集并更新; 在合法动作序列中,优先选择兼顾战术稳定性和环境适应性的动作,生成动作向量; 将动作向量输入交叉注意力网络计算战术关联度矩阵,通过矩阵乘法生成协同增益系数以修正原始动作价值,并输出最终协同决策指令集; 战术稳定性指数的获取逻辑如下: 战术稳定性分析是通过计算战术稳定性指数进行的,环境适应性分析是通过计算复杂度敏感指数进行的; 将智能体的历史动作序列按时间顺序分为前半部分和后半部分,针对这两个子序列,应用动态时间扭曲算法,找到两段序列间的最优对齐路径,并计算沿此路径的累积距离,将动作序列转换为连续动作对的状态转移形式,计算每种动作对的出现频率,基于频率分布计算状态转移的熵值,将动态时间扭曲距离的倒数与香农熵值的负指数相结合,计算战术稳定性指数; 复杂度敏感指数的计算过程如下: 针对每个环境复杂性指标,应用逻辑斯蒂映射公式进行多次迭代,生成混沌序列,将混沌变换后的指标视为图的节点,构建邻接矩阵,计算图的拉普拉斯矩阵,求解拉普拉斯矩阵的特征值,提取第二小特征值,称为代数连通性;将代数连通性与混沌变换后指标的和进行比值运算,计算复杂度敏感指数; 动作向量的获取过程如下: 将战术稳定性指数与复杂度敏感指数相结合,计算每个智能体类型的优先级得分;将所有智能体类型的优先级得分组成向量,应用Softmax函数进行归一化,归一化结果作为优先级得分矩阵;将原始概率与优先级得分矩阵中对应类型的得分逐元素相乘,得到调整后的概率分布;对调整后的分布进行归一化,生成随机数并采样具体动作,组成动作向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团公司第十五研究所,其通讯地址为:100101 北京市海淀区北四环中路211号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。