买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度语义感知图卷积网络的粤语谣言检测方法_四川大学_202210371266.1 

申请/专利权人:四川大学

申请日:2022-04-08

公开(公告)日:2022-07-05

公开(公告)号:CN114444516B

主分类号:G06F40/30

分类号:G06F40/30;G06K9/62;G06N3/04;G06F40/289;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2022.07.05#授权;2022.05.24#实质审查的生效;2022.05.06#公开

摘要:本发明涉及谣言检测技术领域,具体公开了一种基于深度语义感知图卷积网络的粤语谣言检测方法,首先构造多组健康类粤语谣言关键词,并构建Web爬虫对相关的推文、用户、转发及评论信息进行获取,在完成数据标注后构造出数据集Net‑CR‑Dataset;其次,设计一个深度语义感知图卷积神经网络模型SA‑GCN;根据粤语独特的语言特征对BERT中文预训练模型进行优化,同时运用收集的大量粤语语料对BERT预训练模型进行进一步预训练和微调,从而提取出推文的语义特征向量;并运用改进的GCN网络,从而提取出推文的结构特征,生成结构特征向量;最终,SA‑GCN模型将结构特征向量和语义特征向量进行融合,获得最终的分类结果。本发明在检测效果与早期检测能力方面都优于其他常用的检测方法。

主权项:1.一种基于深度语义感知图卷积网络的粤语谣言检测方法,其特征在于,包括以下步骤:步骤1:构造多组健康类粤语谣言关键词,对相关的推文、用户、转发及评论信息进行获取,构建具备图结构信息的粤语谣言数据集Net-CR-Dataset,即根据社交网络中的实体及其之间的关系建模为图G=V,E;步骤2:融合BERT模型、GCN网络以及注意力机制,提出社交网络粤语谣言检测模型SA-GCN:运用改进的GCN网络提取推文的结构特征向量;根据粤语独特的语言特征对BERT中文预训练模型进行优化,同时运用收集的大量粤语语料对BERT中文预训练模型进行进一步预训练和微调,从而提取出推文的语义特征向量;最终对这两类特征进行融合,获得最终的分类结果;所述步骤2包括:步骤2.1:提取结构特征:将Net-CR-Dataset中的原推文、转推、评论作为节点,将转发和评论关系作为边进行建模,将社交网络中推文的传播路径转化为图结构数据,并运用改进的GCN网络来对推文的传播路径上的信息进行聚合,从而生成推文的高级结构特征向量;所述步骤2.1提取结构特征具体包括:步骤2.1.1:运用多头注意力机制来挖掘顶点之间的潜在结构相关性,包括非直连的节点,以及之间经过多跳的节点;具体过程如下:先使用fastText提供的粤语预训练词向量来生成节点的特征U={u1,u2,...,uN},其中N为所有的节点数;再通过构建注意力邻接矩阵A将原始推文的传播树转化为以权重边全连接的图,从而综合考虑各个推文节点之间的结构关系;第m个头相关的第m个注意力邻接矩阵的计算如下: 其中,Q和K等同于节点特征,即为提取的节点特征U;d是特征向量的维度;和分别为Q和K的传递矩阵;步骤2.1.2:使用紧密连接层来捕获本地和远距离的节点特征,解决浅层GCN无法学习到深层关联节点信息的问题,并生成更好的节点表示;每一个紧密连接层都包含L个子层;对于节点i来说,其经过第l个子层的输出如下式所示: 其中,ρ为ReLU函数,权重矩阵和偏置取决于Am;Am为第m个头相关的第m个注意力邻接矩阵;表示节点i和节点j的连接情况,为矩阵Am中的元素;为节点j在第l个子层的输入特征,由h0和{1,2,...,l-1}子层更新产生的节点特征h1,...,hl-1拼接而成,计算方式如下式所示: 步骤2.1.3:引入线性组合层来整合来自不同密集连接层的表示,线性组合层的输出定义如下式所示:S=Wcombhout+bcomb6其中,hout=[h1;...;hM],hM表示第M个紧密连接层输出的特征向量;Wcomb为各特征向量的权重矩阵,bcomb为偏置向量。

全文数据:

权利要求:

百度查询: 四川大学 一种基于深度语义感知图卷积网络的粤语谣言检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。