买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种舆情文本归类方法及系统_珠海博维网络信息有限公司_202311775492.7 

申请/专利权人:珠海博维网络信息有限公司

申请日:2023-12-22

公开(公告)日:2024-03-29

公开(公告)号:CN117453863B

主分类号:G06F16/33

分类号:G06F16/33;G06F40/216;G06F40/289;G06F40/30;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2024.02.13#实质审查的生效;2024.01.26#公开

摘要:本发明公开了一种舆情文本归类方法及系统,包括:根据预构建的敏感词表对获取的舆情文本进行敏感词检索,获得所述舆情文本对应的若干个敏感词,根据所述敏感词确定舆情文本对应的敏感段落,并通过预设的全局向量及单词转换向量对每一个敏感段落进行向量化处理,生成每一个敏感段落对应的文本向量矩阵,通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取,并对其进行加强处理及特征融合,获得所述每一个敏感词所在敏感段落对应的语义特征,根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征,通过预设的分类模型对所述舆情文本进行归类,获得所述舆情文本的归类结果,提高舆情文本分类的准确度。

主权项:1.一种舆情文本归类方法,其特征在于,包括:根据预构建的敏感词表对获取的舆情文本进行敏感词检索,获得所述舆情文本对应的若干个敏感词;根据所述若干个敏感词确定所述舆情文本对应的若干个敏感段落,并通过预设的全局向量及单词转换向量对所述若干个敏感段落中的每一个敏感段落进行向量化处理并加以训练,生成所述每一个敏感段落对应的文本向量矩阵;通过预设的自注意力机制分别对每一个文本向量矩阵进行关键特征信息提取,并对所述关键特征信息进行加强处理及特征融合,获得每一个敏感词所在敏感段落对应的语义特征;根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征,通过预设的分类模型对所述舆情文本进行归类,获得所述舆情文本的归类结果;所述根据预构建的敏感词表对获取的舆情文本进行敏感词检索,获得所述舆情文本对应的若干个敏感词,包括:根据预设的前缀词典对所述舆情文本进行词图扫描,生成所述舆情文本对应的有向图;对所述有向图进行动态规划,查找所述有向图对应的若干个最大概率路径,根据所述最大概率路径对所述舆情文本进行分词,获得所述舆情文本对应的若干个舆情词;将所述若干个舆情词中的每一个舆情词与所述敏感词表中的每一个敏感词进行匹配,获得所述每一个舆情词对应的匹配结果;根据所述匹配结果确定所述舆情文本对应的若干个敏感词;所述对所述若干个敏感段落中的每一个敏感段落进行向量化并加以训练,生成每一个敏感段落对应的文本向量矩阵,包括:根据预设的全局向量构建所述每一个敏感段落分别对应的共线矩阵,并对所述共线矩阵加以训练,生成包含所述敏感段落的全局信息的全局文本向量矩阵;根据预设的单词转换向量及所述舆情文本对应的局部上下文窗口,对所述每一个敏感段落分别进行单词转换向量化并加以训练,生成所述每一个敏感段落分别对应的单词文本向量矩阵;合并所述全局文本向量矩阵及所述单词文本向量矩阵,获得所述每一个敏感段落分别对应的文本向量矩阵;所述通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取,包括:根据预设在所述自注意力机制中的双向门控循环单元对所述全局文本向量矩阵进行特征提取,获得所述全局文本向量矩阵对应的全局特征及上下文关系特征;根据预设在所述自注意力机制中的卷积神经网络对所述单词文本向量矩阵进行特征提取,获得所述单词文本向量矩阵对应的局部特征;所述对所述关键特征信息进行加强处理及特征融合,获得所述每一个敏感词所在敏感段落对应的语义特征,包括:对所述全局特征、上下文关系特征及所述局部特征进行升维处理及特征融合,获得所述敏感段落对应的初始语义特征;根据预设的平均函数对所述初始语义特征进行平均处理,获得所述敏感段落对应的语义特征。

全文数据:

权利要求:

百度查询: 珠海博维网络信息有限公司 一种舆情文本归类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。