买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于抽象训练与验证的安全深度强化学习方法_华东师范大学_202311827408.1 

申请/专利权人:华东师范大学

申请日:2023-12-28

公开(公告)日:2024-04-02

公开(公告)号:CN117808075A

主分类号:G06N3/092

分类号:G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.19#实质审查的生效;2024.04.02#公开

摘要:本发明公开了一种基于抽象训练与验证的安全深度强化学习方法,包括:状态抽象,将强化学习环境的无限连续状态空间按照预设的抽象粒度抽象为有限离散状态空间;在抽象状态上训练,调整深度强化学习系统中的神经网络和损失函数以实现在抽象状态上的训练,将神经网络的输出动作作用于环境得到后继的抽象状态;形式化安全性质验证,使用基于动作的计算树逻辑检查深度强化学习系统是否满足安全属性;反例精化,对形式化安全性质验证过程中产生的反例所属的抽象状态进一步细分精化并重新进行训练流程,直至反例数量为0,完成训练;本发明通过在深度安全强化学习上引入状态抽象技术和基于反例的精化技术,提升了形式化验证在深度强化学习中的效果。

主权项:1.一种基于抽象训练与验证的安全深度强化学习方法,其特征在于,该方法包括以下步骤;步骤1:状态抽象初始化抽象状态空间,将n维深度强化学习环境的无限连续状态空间抽象为有限离散状态空间,首先设置抽象粒度δ=d1,d2,…,dn,若第i个维度状态的范围是xi,yi,则整个状态空间为[x1,y1,x2,y2,…,xn,yn],将x1,y1按照d1作为间隔、x2,y2按照d2作为间隔一直到xn,yn按照dn作为间隔能够将其划分成抽象状态空间S,每一个具体状态都对应唯一一个抽象状态;步骤2:在抽象状态上训练将步骤1中获得的抽象状态输入深度强化学习系统中的神经网络进行训练,获得训练后的神经网络模型步骤3:形式化安全性质验证基于步骤1中的抽象状态空间S与步骤2获得的训练完后的模型构造抽象状态间的转换迁移关系,基于转换迁移关系来构建对应的Kripke结构,使用基于动作的计算树逻辑ACTL模型检查器对Kripke结构进行模型检查,若不满足预定义的安全要求则输出对应的抽象状态,即反例;步骤4:反例精化对步骤3中产生的反例进一步精化,将不满足安全性质的抽象状态以更小的粒度划为多个更细的抽象状态,并在新的更精细化的抽象状态空间上重新进行步骤2与步骤3,直至模型检查返回反例数量为0,表示训练完成,获得最终经过安全验证的神经网络模型

全文数据:

权利要求:

百度查询: 华东师范大学 一种基于抽象训练与验证的安全深度强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。