买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于命名实体识别的敏感文本识别方法、装置、系统_北京云上曲率科技有限公司_202110083448.4 

申请/专利权人:北京云上曲率科技有限公司

申请日:2021-01-21

公开(公告)日:2024-03-29

公开(公告)号:CN112686047B

主分类号:G06F40/295

分类号:G06F40/295

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2021.05.07#实质审查的生效;2021.04.20#公开

摘要:本发明公开了一种基于命名实体识别的敏感文本识别方法、装置、系统,所述方法为:获取待识别文本,对待识别文本进行预处理,得到数字向量;利用人工标注过的历史数据进行实体识别模型的训练,直到所述实体识别模型的准确率达到要求;利用训练好的实体识别模型,对所述数字向量进行处理,得到实体以及对应的位置,得到的实体即为敏感内容。本发明解决了现有敏感文字识别不精准,易出现误判的问题。

主权项:1.一种基于命名实体识别的敏感文本识别方法,其特征在于,所述方法为:获取待识别文本,对待识别文本进行预处理,得到数字向量;利用人工标注过的历史数据进行实体识别模型的训练,直到所述实体识别模型的准确率达到要求;利用训练好的实体识别模型,对所述数字向量进行处理,得到实体以及对应的位置,得到的实体即为敏感内容;所述对待识别文本的预处理过程为:顺序获取文本中每个字符的发音,得到发音特征;顺序获取文字中每个字符的笔顺,得到笔顺特征;顺序获取文本中每个字符的类型,得到字符类型特征;顺序获取文本中每个字符在字符集合中的位置,得到位置特征;将每个特征序列转化为数字向量;所述实体识别模型的训练过程为:进行敏感实体范围的定义,确定敏感实体的具体类型;对历史数据集进行人工标注,并进行预处理,得到标注数据库,每条历史数据都有对应的数字向量、实体列表及实体位置列表;利用标注过的数据集,对实体识别模型进行训练,直至实体识别模型的准确率达到设定要求;所述对历史数据集进行人工标注后还包括:对标注数据集进行数据增强,对每条历史数据对应的实体中的字符,在其对应的同音字,形近字,拼音,首字母范围内进行随机替换,得到增强数据集,与所述的标注数据集合并得到新数据集,利用新数据集对实体识别模型进行训练,直到实体识别模型准确率达到设定要求。

全文数据:

权利要求:

百度查询: 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。