【发明授权】一种基于NLP语言模型的数据脱敏方法及系统_北京泰策科技有限公司_202310977188.4

导航：龙图腾网> 最新专利技术> 一种基于NLP语言模型的数据脱敏方法及系统_北京泰策科技有限公司_202310977188.4

申请/专利权人：北京泰策科技有限公司

申请日：2023-08-04

公开（公告）日：2024-04-16

公开（公告）号：CN117010019B

主分类号：G06F21/62

分类号：G06F21/62;G06F16/903;G06F40/211;G06F40/284;G06F40/30

优先权：

专利状态码：有效-授权

法律状态：2024.04.16#授权;2023.11.24#实质审查的生效;2023.11.07#公开

摘要：本发明提供了一种基于NLP语言模型的数据脱敏方法及系统包括：获取初始数据，将初始数据输入到NLP语言模型中进行训练得到待脱敏数据，利用正则表达式获取待脱敏数据中的敏感子数据，解析敏感子数据，得到敏感子数据对应的敏感属性，基于敏感属性建立对应的脱敏原则，利用脱敏原则对对应的敏感子数据进行脱敏，利用完成脱敏的敏感子数据替换对应的敏感子数据，得到脱敏数据，利用NLP语言模型对初始数据进行训练得到待脱敏数据，结合正则表达式来提取其中的敏感子数据，最后根据敏感子数据的敏感属性对敏感子数据进行脱敏，满足了不同类型数据的脱敏工作。

主权项：1.一种基于NLP语言模型的数据脱敏方法，其特征在于，包括：步骤1：获取初始数据，将初始数据输入到NLP语言模型中进行训练得到待脱敏数据；步骤2：利用正则表达式获取待脱敏数据中的敏感子数据；步骤3：解析敏感子数据，得到敏感子数据对应的敏感属性；步骤4：基于敏感属性建立对应的脱敏原则，利用脱敏原则对对应的敏感子数据进行脱敏，利用完成脱敏的敏感子数据替换对应的敏感子数据，得到脱敏数据；所述步骤2，包括：步骤21：将待脱敏数据转换为待脱敏字符串，为待脱敏字符串中的每一字符串匹配通配符，利用通配符建立表达式合集；步骤22：根据表达式合集结合预设正则表达式样本，建立敏感正则表达式；步骤23：解析敏感正则表达式，得到待脱敏字符串中不同字符之间的逻辑关系，根据不同字符之间的逻辑关系，建立脱敏逻辑树；步骤24：获取脱敏逻辑树中每一脱敏分支对应的逻辑特征，提取目标逻辑特征对应的目标字符串，获取目标字符串对应的敏感子数据；所述步骤3，包括：步骤31：将敏感子数据与预设数据集中的数据样本进行匹配，得到每一敏感子数据对应的数据类型；步骤32：根据数据类型建立敏感子数据的类型权重；步骤33：获取敏感子数据对应的数据链长，根据数据链长建立数值权重；步骤34：根据类型权重和数值权重生成敏感子数据的敏感属性；所述步骤23，包括：步骤231：解析敏感正则表达式得到若干个字符词，以及不同字符词组成的字符句；步骤232：分别获取每一字符句对应的句语义，根据句语义得到不同字符句之间的第一逻辑关系，根据第一逻辑关系建立初逻辑树；步骤233：分别解析每一字符句，得到每一字符句中不同字符词之间的第二逻辑关系，根据第二逻辑关系建立对应的逻辑分支；步骤234：将逻辑分支输入到初逻辑树对应的树支上，得到脱敏逻辑树；所述步骤24，包括：步骤241：获取脱敏逻辑树上的若干个树分支，将每一树分支记作一个脱敏分支；步骤242：分别获取每一脱敏分支对应的句语义，根据句语义建立逻辑特征；步骤243：获取目标逻辑特征对应的目标脱敏分支中包含的若干个目标字符句，对目标字符句进行分词处理，得到若干个目标词；步骤244：利用预设敏感样本分别与每一目标词进行匹配，提取匹配度高于预设匹配度的敏感目标词，获取敏感目标词在待脱敏字符串中的第一对应关系；步骤245：获取待脱敏数据与待脱敏字符串之间的第二对应关系，结合第一对应关系，得到每一目标字符串对应的敏感子数据。

全文数据：

权利要求：

百度查询：北京泰策科技有限公司一种基于NLP语言模型的数据脱敏方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

下一篇：一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

相关技术

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种实验室地层品质因子估算方法_中国石油化工股份有限公司_202211297976.0

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

交通工具用座椅倾斜装置_丰田纺织株式会社_202080082271.X

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

数据相关技术

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

多接入数据连接上的数据分组引导_联想(新加坡)私人有限公司_201880092121.X

数据存储方法及装置_恒生电子股份有限公司_202311433168.7

数据标注方法及装置_深圳市优必选科技股份有限公司_202010604308.2

数据存储方法、数据读取方法、电子设备和存储介质_北京壁仞科技开发有限公司_202410218124.0

产品全生命周期评价的数据收集方法及数据收集系统_北京中创绿发科技有限责任公司_202110549695.9

融合试题数据和解答数据的多知识点标注方法和系统_华中师范大学_202011282980.0

一种数据关系捕获及大数据关系树构建方法_中通服创立信息科技有限责任公司_202111142241.6

高并发性数据迁移方法及数据安全存储装置_北京中领启天信息科技有限公司_202311552020.5

一种基于大数据的农业数据分析管理系统及方法_上海华维可控农业科技集团股份有限公司_202310584420.8

脱敏相关技术

数据脱敏方法和装置_北京京东振世信息技术有限公司_202010778832.1

一种数据并行脱敏处理方法_合芯科技(苏州)有限公司_202310465479.5

一种线上数据脱敏混淆方法、系统、设备及存储介质_企家有道网络技术(北京)有限公司_202410073755.8

脱敏特征数据采集以及建库方法、终端、服务器以及系统_江苏中天安驰科技有限公司_202410060598.7

一种敏感数据的脱敏方法、装置、设备及介质_重庆颂车网络科技有限公司_202110566198.X

一种标签人群数据的脱敏方法、装置及计算机设备_深圳市华傲数据技术有限公司_202011613978.7

一种文本脱敏效果评估方法、装置、设备及存储介质_山东浪潮科学研究院有限公司_202410021246.0

对应用系统的日志数据进行脱敏方法、装置和设备_中国人寿保险股份有限公司_202311735005.4

一种基于马尔可夫模型的位置数据脱敏方法_山东浪潮科学研究院有限公司_202410026359.X

一种受限数据脱敏方法验证方法及系统_北方健康医疗大数据科技有限公司_202410303595.1

模型相关技术

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

结构识别模型训练、模型结构识别方法、设备及介质_北京燧原智能科技有限公司_202410090059.8

用于模型蒸馏的方法和装置_北京百度网讯科技有限公司_202011473804.5

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

一种手板模型用打磨设备_青岛诚品模型有限公司_202322254282.5

基于ARIMA模型的容量预测装置及其控制方法_上海新炬网络信息技术股份有限公司_202010209101.5

一种含雾图像融合模型和方法_佛山科学技术学院_202410076413.1

模型处理方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202011056384.0

视觉问答模型训练、视觉问答方法和装置_文思海辉元辉科技(大连)有限公司_202110753076.1

利用模型增强的自监督学习_硕动力公司_202280060208.5

龙图腾网&IPTOP

【发明授权】一种基于NLP语言模型的数据脱敏方法及系统_北京泰策科技有限公司_202310977188.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务