杭州海康威视数字技术股份有限公司王正伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州海康威视数字技术股份有限公司申请的专利一种智能体的强化学习模型训练方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114117752B 。
龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111326221.4,技术领域涉及:G06F30/20;该发明授权一种智能体的强化学习模型训练方法及系统是由王正伟设计研发完成,并于2021-11-10向国家知识产权局提交的专利申请。
本一种智能体的强化学习模型训练方法及系统在说明书摘要公布了:本发明实施例提供了一种智能体的强化学习模型训练方法及系统,上述方法包括:接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据;将相关联的智能体的经验数据进行混合并存储于预设经验池中;获取混合后的经验数据作为样本数据,并基于所述样本数据触发待训练强化学习模型的训练,得到输出的预测运行策略信息;将所述预测运行策略信息发送至所述环境服务器,以使所述环境服务器中对应的仿真环境执行对应的预测运行策略;如果达到预设的模型训练结束条件,将当前的待训练强化学习模型确定为训练得到的目标强化学习模型训练。即本发明实施例提出了一种新的支持多智能体、多仿真环境的高效的强化学习模型训练框架。
本发明授权一种智能体的强化学习模型训练方法及系统在权利要求书中公布了:1.一种智能体的强化学习模型训练方法,其特征在于,应用于强化学习模型训练系统中的中心训练服务器,所述系统还包括至少一个环境服务器,每个所述环境服务器运行至少一个仿真环境,每个仿真环境包括至少一个智能体,智能体的总数大于1,所述方法包括:接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据;其中,每个智能体的经验数据包括:该智能体的状态信息、所述环境服务器基于该智能体的状态信息所确定的奖励信息和该智能体所在的仿真环境的运行策略;在所述经验数据的数据量不小于第一预设数据量的情况下,将相关联的智能体的经验数据进行混合,并将混合后的经验数据存储于预设经验池中;在所述预设经验池中的数据量达到第二预设数据量的情况下,从所述预设经验池获取混合后的经验数据作为样本数据,并基于所述样本数据触发待训练强化学习模型的训练,得到输出的预测运行策略信息;其中,所述预测运行策略信息包括所述环境服务器中对应的仿真环境的预测运行策略;将所述预测运行策略信息发送至所述环境服务器,以使:所述环境服务器中对应的仿真环境执行对应的预测运行策略,并在执行完所述预测运行策略向所述中心训练服务器发送各个仿真环境的状态信息;接收所述环境服务器发送的各个仿真环境的状态信息,并基于所述各个仿真环境的状态信息,确定是否达到预设的模型训练结束条件;如果达到预设的模型训练结束条件,将当前的待训练强化学习模型确定为训练得到的目标强化学习模型训练;如果未达到预设的模型训练结束条件,返回所述接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据的步骤;所述在所述经验数据的数据量不小于第一预设数据量的情况下,将相关联的智能体的经验数据进行混合,并将混合后的经验数据存储于预设经验池中,包括:从所述环境服务器获取各个智能体之间的关联关系;在所述经验数据的数据量不小于第一预设数据量的情况下,针对每个智能体,根据所述关联关系,将与该智能体相关联的智能体的经验数据和该智能体的经验数据进行混合,得到混合经验数据,并存储于该智能体对应的预设经验池中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州海康威视数字技术股份有限公司,其通讯地址为:310051 浙江省杭州市滨江区阡陌路555号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。