买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种面向食品安全舆情的字词双维度微博谣言识别方法_北京工商大学_202110050517.1 

申请/专利权人:北京工商大学

申请日:2021-01-14

公开(公告)日:2021-05-07

公开(公告)号:CN112766359A

主分类号:G06K9/62(20060101)

分类号:G06K9/62(20060101);G06F16/951(20190101);G06F40/284(20200101);G06N3/04(20060101);G06N3/08(20060101)

优先权:

专利状态码:有效-授权

法律状态:2023.07.25#授权;2021.05.25#实质审查的生效;2021.05.07#公开

摘要:本发明涉及一种面向食品安全舆情的字词双维度微博谣言识别方法,包括:对互联网爬取数据进行预处理、结合开放域wordembedding资源库构建食品安全领域wordembedding资源库、爬取多级别百度百科语料对wordembedding资源库进行增量训练、基于BERT网络的字维度文本特征提取、基于BLSTM网络并加入位置注意力机制的词维度文本特征提取、最终得到字词双维度文本特征向量并进行微博文本是否为谣言的分类识别。本发明解决了食品安全舆情领域微博文本语料口语化严重、结构性弱、领域性强、难以向量化的难题,通过构建领域词库和多粒度向量化方法,更加充分提取语料特征,提高谣言识别准确性。

主权项:1.一种面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于,包括以下步骤:步骤1、对从互联网上网络爬虫获取到的原始文本数据进行预处理,包括去除原始文本数据中含有的特殊符号和停用词;步骤2、在开放域wordembedding资源库基础上,构建食品安全领域wordembedding资源库,并进行增量训练;步骤3、构建基于融合位置感知注意力机制的双向长短时记忆网络作为获得文本词向量维度文本特征的神经网络模型端,具体实现为:首先通过结合步骤2构建的领域词库判断领域关键词语义角色和位置,生成基于位置感知的注意力,然后将文本语料经过词嵌入生成的词向量输入BLSTM模型,将词向量参与中间隐藏层的计算,再经过隐层计算的向量在注意力机制的影响下进一步计算得到词语级别文本语义特征;步骤4、独立于步骤3构建的BLSTM模型,构建BERT神经网络模型作为获得文本字向量维度文本特征的神经网络模型端,BERT模型通过查询字向量表将文本中的每个字转换为向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示;步骤5、使用SoftMax作为分类器,语料经BERT与BLSTM双路神经网络处理输出后,在连接层合并步骤3中得到的词维度文本特征信息与步骤4中得到的字维度文本特征信息,然后输入分类器进行分类识别,得到最终的谣言分类识别结果。

全文数据:

权利要求:

百度查询: 北京工商大学 一种面向食品安全舆情的字词双维度微博谣言识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。