买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于NLP语言模型的数据脱敏方法及系统_北京泰策科技有限公司_202310977188.4 

申请/专利权人:北京泰策科技有限公司

申请日:2023-08-04

公开(公告)日:2024-04-16

公开(公告)号:CN117010019B

主分类号:G06F21/62

分类号:G06F21/62;G06F16/903;G06F40/211;G06F40/284;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2023.11.24#实质审查的生效;2023.11.07#公开

摘要:本发明提供了一种基于NLP语言模型的数据脱敏方法及系统包括:获取初始数据,将初始数据输入到NLP语言模型中进行训练得到待脱敏数据,利用正则表达式获取待脱敏数据中的敏感子数据,解析敏感子数据,得到敏感子数据对应的敏感属性,基于敏感属性建立对应的脱敏原则,利用脱敏原则对对应的敏感子数据进行脱敏,利用完成脱敏的敏感子数据替换对应的敏感子数据,得到脱敏数据,利用NLP语言模型对初始数据进行训练得到待脱敏数据,结合正则表达式来提取其中的敏感子数据,最后根据敏感子数据的敏感属性对敏感子数据进行脱敏,满足了不同类型数据的脱敏工作。

主权项:1.一种基于NLP语言模型的数据脱敏方法,其特征在于,包括:步骤1:获取初始数据,将初始数据输入到NLP语言模型中进行训练得到待脱敏数据;步骤2:利用正则表达式获取待脱敏数据中的敏感子数据;步骤3:解析敏感子数据,得到敏感子数据对应的敏感属性;步骤4:基于敏感属性建立对应的脱敏原则,利用脱敏原则对对应的敏感子数据进行脱敏,利用完成脱敏的敏感子数据替换对应的敏感子数据,得到脱敏数据;所述步骤2,包括:步骤21:将待脱敏数据转换为待脱敏字符串,为待脱敏字符串中的每一字符串匹配通配符,利用通配符建立表达式合集;步骤22:根据表达式合集结合预设正则表达式样本,建立敏感正则表达式;步骤23:解析敏感正则表达式,得到待脱敏字符串中不同字符之间的逻辑关系,根据不同字符之间的逻辑关系,建立脱敏逻辑树;步骤24:获取脱敏逻辑树中每一脱敏分支对应的逻辑特征,提取目标逻辑特征对应的目标字符串,获取目标字符串对应的敏感子数据;所述步骤3,包括:步骤31:将敏感子数据与预设数据集中的数据样本进行匹配,得到每一敏感子数据对应的数据类型;步骤32:根据数据类型建立敏感子数据的类型权重;步骤33:获取敏感子数据对应的数据链长,根据数据链长建立数值权重;步骤34:根据类型权重和数值权重生成敏感子数据的敏感属性;所述步骤23,包括:步骤231:解析敏感正则表达式得到若干个字符词,以及不同字符词组成的字符句;步骤232:分别获取每一字符句对应的句语义,根据句语义得到不同字符句之间的第一逻辑关系,根据第一逻辑关系建立初逻辑树;步骤233:分别解析每一字符句,得到每一字符句中不同字符词之间的第二逻辑关系,根据第二逻辑关系建立对应的逻辑分支;步骤234:将逻辑分支输入到初逻辑树对应的树支上,得到脱敏逻辑树;所述步骤24,包括:步骤241:获取脱敏逻辑树上的若干个树分支,将每一树分支记作一个脱敏分支;步骤242:分别获取每一脱敏分支对应的句语义,根据句语义建立逻辑特征;步骤243:获取目标逻辑特征对应的目标脱敏分支中包含的若干个目标字符句,对目标字符句进行分词处理,得到若干个目标词;步骤244:利用预设敏感样本分别与每一目标词进行匹配,提取匹配度高于预设匹配度的敏感目标词,获取敏感目标词在待脱敏字符串中的第一对应关系;步骤245:获取待脱敏数据与待脱敏字符串之间的第二对应关系,结合第一对应关系,得到每一目标字符串对应的敏感子数据。

全文数据:

权利要求:

百度查询: 北京泰策科技有限公司 一种基于NLP语言模型的数据脱敏方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。