买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种远程监督学习的电力文本审计异常识别方法及系统_国网山东省电力公司东营供电公司_202410088984.7 

申请/专利权人:国网山东省电力公司东营供电公司

申请日:2024-01-23

公开(公告)日:2024-04-16

公开(公告)号:CN117610561B

主分类号:G06F40/289

分类号:G06F40/289;G06N3/09;G06Q50/06;G06Q10/10;G06F18/23;G06F18/214

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2024.03.15#实质审查的生效;2024.02.27#公开

摘要:本发明涉及电力信息处理技术领域,特别是涉及一种远程监督学习的电力文本审计异常识别方法及系统,方法包括:获取电力工程项目待审计材料的文本数据;获取基于事件框架的审计业务过程树结构;得到格式化文本数据的审计事件;基于格式化文本数据的审计事件,得到非格式化文本数据的审计事件;将格式化和非格式化文本数据的审计事件进行合并,得到审计事件集合;将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。对审计业务过程各环节进行自动比对、分析及异常识别,从而辅助审计人员精准发现可疑数据及问题隐患。

主权项:1.一种远程监督学习的电力文本审计异常识别方法,其特征是,包括:获取电力工程项目待审计材料的文本数据;所述文本数据,包括:格式化文本数据和非格式化文本数据;获取预先构建的基于事件框架的审计业务过程树结构;采用设定的审计事件抽取模型,对格式化文本数据进行审计事件抽取,得到格式化文本数据的审计事件;具体包括:从格式化文本数据中提取事件触发词;基于事件触发词,从审计提示模版知识库中提取若干个审计提示模版;所述审计提示模版是预先设定的,所述审计提示模版设有若干个字符槽位;将格式化文本数据与若干个审计提示模版进行匹配,实现对字符槽位的填充,得到若干个填充后的模版;计算每个填充后的模版,已填充字符槽位数量与总字符槽位数量的比值,选择比值最大的填充后模版作为格式化文本数据的审计事件;所述从格式化文本数据中提取事件触发词,具体包括:计算格式化文本数据中,每个词汇的出现频率,选择出现频率最高的词汇作为事件触发词;所述基于事件触发词,从审计提示模版知识库中提取若干个审计提示模版;所述审计提示模版是预先设定的,所述审计提示模版设有若干个字符槽位,其中,每个审计提示模版设有索引词,计算事件触发词与索引词的相似度,选择相似度最高的N个索引词所对应的审计提示模版输出;所述审计提示模版如下式所示: ;其中,表示提取某类格式化文本审计事件集的某一审计提示模版,存储于模版知识库;代表提示模版中格式化文本审计事件前置自然语言描述文本;代表提示模版中格式化文本审计事件后置自然语言描述文本;表示在提示模版中第i个槽位的审计事件角色;I代表审计提示模版知识库中用于该类格式化文本的审计事件个数;所述字符槽位,是指:电子文本是以字符构成的,文本分词后,每个字符具有一个槽位标识号;所述将格式化文本数据与若干个审计提示模版进行匹配,以实现对字符槽位的填充,得到若干个填充后的模版,具体包括:以格式化文本中的字符对审计提示模版中槽位arg进行填充,输出格式化文本填充后的生成模版: ;其中,,代表格式化文本数据与提示模版匹配后,对槽位所填充的提取到的审计事件;代表格式化文本数据审计事件前置自然语言描述文本,代表格式化文本数据审计事件后置自然语言描述文本,和对应文本字符位求同运算的真值累计值,大于设定累计真值阈值时,则表示格式化文本数据与提示模版相匹配,从而对槽位进行审计事件填充;不匹配,则对槽位不进行填充,输出为空;字符求同运算,相同字符则记为1,不同字符则记为0;所述计算每个填充后的模版,已填充字符槽位数量与总字符槽位数量的比值,选择比值最大的填充后模版作为格式化文本数据的审计事件,具体包括:基于获取的合同文本填充后的生成模版,计算同一审计事件的生成模版的各个填充字符位与模板字符位进行同或数学运算后的累计真值占提示模版总字符位字符数的比值,将最大比值的生成模版中填充的审计事件作为提取审计事件,即以最大匹配概率筛选出文本D的审计事件集合Q: ;其中,p表示匹配概率;w表示合同文本审计事件的前后置自然语言描述文本;Q表示审计事件集合,为生成模版;基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版;将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件;所述基于格式化文本数据的审计事件,生成具有明确提示知识的触发词模版,具体包括:审计提示模版知识库内的构造提示模版及基于远程监督知识生成的具有明确提示知识的触发词模版如下式所示: ;其中,表示格式化文本数据的审计事件的前置自然语言描述;表示定义的事件角色集中,第j个审计事件在提示模版中定义的槽位文本信息;M代表定义的构造提示模版最大个数; ;其中,代表根据远程监督知识约束对槽位所匹配填充的提取事件触发词,其中,事件触发词存在于待提取事件中,内容不超出待提取事件;若存在远程知识监督约束,且,即提取事件触发词存在于非格式化文本D中,则;若不存在知识监督约束或提取事件触发词不存在于非格式化文本,则不对槽位进行填充;所述将具有明确提示知识的触发词模版和非格式化文本数据,进行编码处理,得到非格式化文本数据的审计事件,具体包括:将具有明确提示知识的触发词模版和非格式化文本数据,输入到训练后的Transformer编码器,进行编码处理,得到非格式化文本数据的审计事件;所述训练后的Transformer编码器,其训练过程包括:构建训练集,所述训练集为已知非格式化文本数据的审计事件所对应的格式化文本数据的审计事件和非格式化文本数据;将训练集,输入到Transformer编码器中,将实际审计事件与Transformer编码器提取审计事件的字符取异或累计值作为损失函数,对Transformer编码器进行反馈训练调参,在损失函数低于设定阈值时,固定Transformer编码器参数,得到训练后的Transformer编码器;非格式化文本数据,是指文本区域不固定,或者审计事件不固定的数据;将格式化文本数据的审计事件和非格式化文本数据的审计事件,进行合并,得到审计事件集合;将审计事件集合中的所有审计事件,逐一对应存储到树结构的审计事件节点中,遍历树结构的每个审计事件节点,对每个审计事件节点中存储的审计事件进行分类,对异常审计事件进行识别。

全文数据:

权利要求:

百度查询: 国网山东省电力公司东营供电公司 一种远程监督学习的电力文本审计异常识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。