买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种用于游戏AI策略解释的跨模型蒸馏装置_南京大学_202110375385.X 

申请/专利权人:南京大学

申请日:2021-04-08

公开(公告)日:2024-03-19

公开(公告)号:CN113240119B

主分类号:G06F30/27

分类号:G06F30/27;G06N5/02

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.08.27#实质审查的生效;2021.08.10#公开

摘要:本发明公开一种用于游戏AI策略解释的跨模型蒸馏装置,主要包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分。本发明为研究人员提供了一种针对游戏AI的策略解释装置,能够实时对游戏AI的决策行为提供可理解的解释信息,从而揭示观测和行为之间的因果结构,增强游戏互动性,同时还能够为人类玩家的游戏过程提供技术参考。

主权项:1.一种用于游戏AI策略解释的跨模型蒸馏装置,其特征在于:包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分;其中模型蒸馏系统部分包括游戏AI数据收集处理系统和决策树策略模型;决策树策略模型通过模型蒸馏获得,蒸馏所使用的数据集来源于游戏AI数据收集处理系统;策略解释部分,基于决策树模型自身的结构特征,给出行为数据和观测数据之间的因果关系,解释行为的由来;所述游戏AI数据收集处理系统包含一个观测决策数据收集器和一个模型访问器;所述观测决策数据收集器在游戏AI进行游戏的过程中,对当前的观测数据和游戏AI的行为数据进行记录收集,并调整为统一的格式;模型访问器的功能是对游戏AI的值网络模型进行访问,通过计算获得权重信息,并和观测决策数据收集器中收集得到的数据进行整合;所述游戏AI数据收集处理系统收集处理数据的详细过程如下:首先,需要获取得到游戏AI的策略模型和值网络模型以及可运行游戏环境;其次,使用游戏AI的策略模型进行游戏,记录游戏过程中的观测数据和游戏AI的行为数据,分别编码为s和a,并整理为列表式数据格式,得到初始数据;之后,使用模型访问器访问游戏AI的值网络模型,根据策略更新准则,计算得到各动作下的权重信息w;最后,将初始数据和权重信息进行合并,输出为s,a,w的列表格式,形成带有权重的样本数据,作为蒸馏数据集;所述决策树策略模型通过模型蒸馏获得,决策树学习过程如下:步骤1,将蒸馏数据集输入树的根结点;步骤2,计算每个分裂点下的信息增益或Gini指数;在计算信息增益或Gini指数时,使用样本的权重信息代替单一的数量信息进行计算;步骤3,之后,选择评价指标最高的分裂点进行分裂;步骤4,重复进行步骤2-3,直到达到预先设定的树的最大深度停止,即决策树策略模型训练完成。

全文数据:

权利要求:

百度查询: 南京大学 一种用于游戏AI策略解释的跨模型蒸馏装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。