买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于先验主题聚类的敏感词库构建与扩展方法_焦点科技股份有限公司_202110857533.1 

申请/专利权人:焦点科技股份有限公司

申请日:2021-07-28

公开(公告)日:2024-04-26

公开(公告)号:CN113486654B

主分类号:G06F40/242

分类号:G06F40/242;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2021.10.26#实质审查的生效;2021.10.08#公开

摘要:本发明公开了一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,包括步骤1,对敏感文本进行分词,步骤2,选取主题的锚定词,步骤3,锚定词的先验主题聚类,选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库。本发明通过基于切词的分词算法,可以灵活设定锚定词,为主题聚类引入先验知识,最后筛出可靠的候选敏感词,解决了敏感词库自动构建的效率、扩展性和准确性问题。

主权项:1.一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,包括如下步骤:步骤1,对敏感文本进行分词,所述分词具体为,对于敏感文本,利用基于切词的新词发现算法进行分词;步骤2,选取主题的锚定词,所述选取具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词;步骤3,锚定词的先验主题聚类,所述先验主题聚类具体为,将主题的锚定词加入到先验主题聚类模型中,得到基于锚定词的主题词汇概率分布,选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库;所述步骤1中,所述利用基于切词的新词发现算法进行分词,具体为,根据敏感文本中字片段的稳定性来判断是否切分这个字片段,以时间复杂度为ON的算法切分敏感文本,包括如下步骤:步骤1-1:统计字片段中相邻的两字字a和字b共现的频率Pa,b,分别统计字a和字b的频率Pa和Pb,取α为比值,所述α代表基于切词的粒度,α的取值范围为1-10;如果 则把相邻两字字a和字b切分,统计切分后的词汇的词频,预设与敏感文本的数量成正相关的阈值,选取词频大于该阈值的词汇作为候选词;步骤1-2:所述步骤1-1中得到的候选词的集合经过分词词库筛选,排除出现在分词词库中的词汇,得到候选新词;步骤1-3:将步骤1-2得到的候选新词加入分词词库中,得到新的分词词库,利用新的分词词库对敏感文本进行分词,得到经过分词的敏感文本;所述步骤3中,锚定词的先验主题聚类,具体为,选取步骤2中的锚定词,以半监督的主题建模方式,获取与锚定词相关的主题敏感词加入到基础敏感词库中,包括如下步骤:步骤3-1:对经过切分的敏感文本进行先验主题聚类,定义主题和敏感文本的多元互信息为: 其中X代表所有候选敏感词组成的敏感文本,Y代表敏感文本的主题集合,TC代表变量的多元互信息,I代表两个随机变量之间的互信息;当TCX|Y为0,即主题Y解释了文档X的分布概率;步骤3-2:先验主题聚类的目标函数为: 其中IXi:Yj代表词汇i与主题j的互信息,pyj|x代表候选敏感词在主题j的概率分布,αi,j代表词汇i出现在主题j的强度;步骤3-3:将先验主题聚类得到的主题的锚定词集合加入到基础敏感词库中。

全文数据:

权利要求:

百度查询: 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。