买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种文本分类方法_大连交通大学_202311004850.4 

申请/专利权人:大连交通大学

申请日:2023-08-10

公开(公告)日:2024-03-19

公开(公告)号:CN117171343B

主分类号:G06F16/35

分类号:G06F16/35;G06N5/02;G06F40/289;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2023.12.22#实质审查的生效;2023.12.05#公开

摘要:本发明提供了一种文本分类方法,属于文本分类技术领域,包括:将文本中的词转化为词向量;将文本的词向量转化为文本图后,将文本图输入到图神经网络层中,利用图神经网络输出标签向量;将文本的词向量输入到多头自注意力神经网络中进行特征提取,输出自注意力特征向量;将自注意力特征向量和标签向量点乘后的结果,输入预测层中进行分类得到分类后的预测标签,实现文本分类。该方法能够使得预测过程既考虑了词与词之间的交互关系,又考虑了文本标签之间的相关性,使得预测结果更加准确。

主权项:1.一种文本分类方法,其特征在于,包括:获取待分类的文本信息;将文本中的词转化为词向量,并将文本的词向量转化为文本图;将文本图输入到图神经网络中,利用图神经网络输出文本图所对应的标签向量;将文本的词向量输入到多头自注意力神经网络中进行特征提取,输出自注意力特征向量;将自注意力特征向量和标签向量点乘后的结果,输入神经网络的预测层中进行分类得到分类后的预测标签,实现文本分类;所述利用图神经网络输出文本图所对应的标签向量;包括:对节点进行随机池化和平均池化;根据随机池化和平均池化的结果得到节点最终的特征信息;对迭代T次提取出的节点的特征信息进行求和,得到标签向量Mgnn;所述标签向量Mgnn为:Mgnn={Mt+Mt+1+……+MT}其中,M=ηMsto+1-ηMmean 其中,Msto表示每个节点通过随机池化学习到的特征信息;Mmean表示每个节点通过平均池化机制学习到的特征信息;Rand函数为规约函数,表示按概率取各个维度上的元素值,元素值越大被取到的概率越大;Mean函数表示各个维度上的元素值的平均值;表示文本中距离n节点距离为p的节点的集合;ean表示节点a与节点n之间的边特征;ta表示节点a的特征;M表示每个词最终获得的特征信息;η控制池化操作的比重;T表示图神经网络的迭代次数;所述将文本的词向量输入到多头自注意力神经网络中进行特征提取,输出自注意力特征向量;包括:词向量V={v1,v2……vn}经过多头自注意力神经网络的嵌入层后被转化为第一词向量a1,a2,a3……an;使用三个权值矩阵WQ,WK,WV与第一词向量a1,a2,a3……an相乘,分别得到qi,ki,vi,i∈[1,n];利用q1分别与k1,k2,k3……kn进行点乘计算向量点积,得到q1对应的自注意力分数α11,α12……α1n;分别计算q2,q3……qn的自注意力分数;将q1,q2,q3……qn的自注意力分数拼接得到自注意力分数矩阵α: 将自注意力分数矩阵α归一化得到系数矩阵 式中,d表示键的维度,表示把注意力矩阵转化为标准正态分布;将系数矩阵分别与对应的vii∈[1,n]相乘并求和,得到对应的输出 其中,为每个子空间中的自注意力特征向量,表示系数矩阵中第n行i列对应的值,head为头数;将所有的拼接后,将拼接后的结果通过线性转换和softmax激活得到最终的自注意力特征向量bT;

全文数据:

权利要求:

百度查询: 大连交通大学 一种文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。