买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种多层级用户评论安全审核的模型构建方法_中电科大数据研究院有限公司_202010825591.1 

申请/专利权人:中电科大数据研究院有限公司

申请日:2020-08-17

公开(公告)日:2024-04-09

公开(公告)号:CN111966944B

主分类号:G06F16/958

分类号:G06F16/958;G06F16/33;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2020.12.08#实质审查的生效;2020.11.20#公开

摘要:本发明提供了一种多层级用户评论安全审核的模型构建方法,包括如下步骤:①构建词库:基于数据采集技术获取用户评论数据集;②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;④输出审核结果。本发明采用敏感词库、情感极性分析、协同训练的多层级评论审核的方法,为用户评论内容的检测提供了新思路;基于敏感因子权重对敏感词库进行层级划分和评论检测,避免了传统敏感词过滤一次性匹配所带来的漏判和误判,有效提升了评论审核的精确率。

主权项:1.一种多层级用户评论安全审核的模型构建方法,其特征在于:包括如下步骤:①构建词库:基于数据采集技术获取用户评论数据集;②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;④输出审核结果:输出最终所检测的审核结果,同时将错误预测的结果用于优化敏感词词典;所述步骤②包括如下步骤:L1.构建敏感词库:构建多种类别、多种敏感因子的多层级敏感词库;L2.基于敏感因子的评论检测:根据不同类别和不同敏感因子权重的敏感词库的语义相似度匹配结果,对用户评论数据集进行不同层次的检测审核;L3.构建评论情感分析模型:结合用户评论数据集和情感极性词库,进行评论情感分析模型的训练,情感极性包含的类别有“正向”、“负向”和“中性”;L4.对基于敏感因子的评论检测结果进行情感极性分析:对不同层次的评论审核结果进行情感极性分析;L5.构建用户评论正负样本:结合敏感因子的检测结果和评论情感极性分析结果,构建用于模型训练的评论正负样本;所述步骤L4包括如下步骤:L4.1-结合多种类别和敏感词权重影响因子,采用DFA算法进行不同层次的语义相似度匹配;L4.2-判断一级筛选中评论内容是否存在一级权重影响因子的敏感信息,若有,则将其判断为敏感评论;否则进行二级筛选;L4.3-判断二级筛选中评论内容是否存在二级权重影响因子的敏感信息,若有,则将其标记为疑似敏感评论;否则将其标记为正常评论,进入步骤N3的模型预测;L4.4-在步骤L4.3的基础上,依据敏感类别进行多词汇组合的敏感检测,若同时存在多级敏感组合词则为“敏感信息”,否则为“疑似敏感”,同时动态地设定情感分析的阈值sa_threshold,对疑似敏感评论进行情感极性分析,将情感分析为负向且分值小于sa_threshold的评论内容判断为敏感评论;所述步骤③包括如下步骤:N1.用户评论审核模型协同训练:切分样本数据,进行数据特征工程并构建特征库,采用多个分类器进行协同训练,进行样本标签预测,对比修正和迭代优化模型,获得用户评论审核模型;N2.加载用户评论审核模型:加载已训练好的用户评论审核模型;N3.模型预测:结合已训练好的模型,对待测样本进行预测,获取高置信度的数据,依据预测结果对模型进行迭代优化;所述步骤N2包括如下步骤:N2.1-切分S7所构造的正负样本数据集,平均分成n份;N2.2-对切分的数据集进行数据特征工程并构建特征库;N2.3-结合不同分类器将不同的训练样本进行向量化表示;N2.4-在N2.2和N2.3的基础上,构建n个差异性的分类器,结合分类器特点分别选用对应的文本向量化表示,训练得到初步训练好的n个分类器;N2.5-利用N2.4中已训练好的分类器Cn对未标注的数据集进行协同训练,依据各分类器所预测的结果,输出置信度比较高的样本数据,将其添加到样本数据中,用于修正样本数据和迭代优化模型;N2.6-基于数据集和场景功能设定终止条件如迭代次数、优化阈值,判断是否达到终止条件,若否,则重复上述N2.1~N2.5,若是,则保存最终的分类模型。

全文数据:

权利要求:

百度查询: 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。