买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于图神经网络节点特征传播优化的文本分类方法_广东工业大学_202011033194.7 

申请/专利权人:广东工业大学

申请日:2020-09-27

公开(公告)日:2024-04-12

公开(公告)号:CN112163069B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F40/284;G06F18/24;G06N3/042;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.01.19#实质审查的生效;2021.01.01#公开

摘要:本发明提出一种基于图神经网络节点特征传播优化的文本分类方法,解决了现有文本分类方法不能兼顾分类准确度和分类效率的问题,包括:获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵A;将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型;对图神经网络节点特征传播优化模型进行训练;利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。本发明将文本分类问题转换为节点分类问题,在保持节点分类的准确度下,提高节点特征传播的效率,从而提高文本分类的速度,同时减少文本标注数量,从而减少标注成本。

主权项:1.一种基于图神经网络节点特征传播优化的文本分类方法,其特征在于,至少包括:S1.获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵A;步骤S1所述以文本节点、单词节点为基础的二元异构图的形成过程为:S11.将文本数据集所有句子中的单词转换为小写字母,并用统一字符替代标点符号;S12.利用TF-IDF算法得到单词节点相对文本节点的重要性权重,作为文本节点-单词节点的关系权重;S13.利用点互信息算法得到单词节点-单词节点之间的影响力权重,作为单词节点-单词节点的关系权重;S14.将文本节点-单词节点的关系权重及单词节点-单词节点的关系权重合并,以文本、单词作为节点,以文本节点-单词节点、单词节点-单词节点作为边,形成二元异构图;S2.将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型;邻接矩阵A的行和列为二元异构图的文本节点、单词节点,邻接矩阵A的行和列对应的元素为节点连接的关系权重,包括文本节点-单词节点的关系权重、单词节点-单词节点的关系权重、同一单词节点自身的关系权重及同一文本节点自身的关系权重,同一单词节点自身的关系权重为1,同一文本节点自身的关系权重为1;步骤S2所述的将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型的过程为:S21.基于二元异构图,将邻接矩阵A分块拆解为文本节点-文本节点邻接矩阵P、文本节点-单词节点邻接矩阵B、单词节点-文本节点邻接矩阵BT及单词节点-单词节点邻接矩阵C;S22.构建基础图神经网络模型,包括第一卷积层及第二卷积层,第一卷积层与第二卷积层均为AXθ1,基础图神经网络模型总表达式为AAXθ1θ2,其中,θ1为第一卷积层的权重参数;θ2为第二卷积层的权重参数,X表示二元异构图的节点特征矩阵,为单位矩阵;S23.将文本节点-文本节点邻接矩阵P、文本节点-单词节点邻接矩阵B及单词节点-单词节点邻接矩阵C输入至神经网络模型的第一卷积层得到: 其中,Z1表示第一卷积层表达函数;表示第一卷积层中文本节点对应的权重参数;表示第二卷积层中单词节点对应的权重参数,BT表示文本节点-单词节点邻接矩阵B的转置;第一卷积层的输出作为第二卷积层的输入,第二卷积层去除以单词节点为传播节点的特征传输,形成的图神经网络节点特征传播优化模型为: S3.对图神经网络节点特征传播优化模型进行训练;训练过程为:S31.从文本数据集中每一类样本中随机抽取T个文本样本,并标注标签,作为训练集,未被标注标签的文本样本作为测试集;S32.将训练集与测试集输入至图神经网络节点特征传播优化模型,并通过梯度反向传播法更新模型参数,记录第t次迭代输出的每一个文本节点的预测标签与t-1次迭代输出的每一个文本节点的预测标签,确定与t-1次迭代输出的每一个文本节点的预测标签相比,第t次迭代过程中预测标签发生变化的文本节点;S33.累计每个文本节点的预测标签变化次数,确认预测标签变化次数最多的文本节点,作为图神经网络节点特征传播优化模型中最不稳定的文本节点;S33.基于输出的文本节点的预测标签,确定每一次迭代的稳定性分数;S34.判断标注成本是否使用完毕,若是,执行步骤S35;否则,将最不稳定的文本节点标注标签,返回步骤S32;S35.判断标注成本使用完毕后稳定性分数是否满足标准,若是,执行步骤S36;否则,返回步骤S32;S36.判断图神经网络节点特征传播优化模型训练的稳定性分数是否满足:在[J,J+K]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[eJ-ε,eJ+ε],eJ是第J轮迭代时的稳定性分数,ε表示阈值参数,K表示从J次迭代开始,至第J+K次迭代依次跨过的迭代次数,为正整数;若是,则说明图神经网络节点特征传播优化模型收敛,训练完成;否则,返回步骤S32;S4.利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。

全文数据:

权利要求:

百度查询: 广东工业大学 一种基于图神经网络节点特征传播优化的文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。