首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】融合标签关联的隐空间数据增强多标签文本分类方法_昆明理工大学_202210679320.9 

申请/专利权人:昆明理工大学

申请日:2022-06-15

公开(公告)日:2024-05-07

公开(公告)号:CN115080689B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F18/25;G06F18/24;G06N3/045;G06N3/0442;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.05.07#授权;2022.10.11#实质审查的生效;2022.09.20#公开

摘要:本发明公开融合标签关联的隐空间数据增强多标签文本分类方法,通对批次中的数据进行编码,然后通过双向LSTM和attention进行训练,并对标签列表中的先验知识进行挖掘,最后将编码后的数据与得到的标签先验知识进行一种隐空间的匹配方法,构造出一批隐空间下的虚拟数据,再对多标签文本模型进行完善训练,完成多标签文本分类;与其他深度学习模型相比,所提出的方法在主要评价指标Micro_F1上具有较好的性能。本发明方法的Micro_F1达到了72.08%,比传统的机器学习方法BR、CC和LP算法在Micro_F1值上提高了5.18%、3.28%和2.38%,比神经网络模型中的LSTM、CNN‑RNN和SGM的Micro_F1值上提高了3.78%、2.38%和1.08%。

主权项:1.融合标签关联的隐空间数据增强多标签文本分类方法,其特征在于:包括通过对数据集及标签关系的预处理,挖掘出标签的先验知识;构建基于注意力机制的多标签文本分类模型;通过对标签的先验知识与已有数据的匹配,在隐空间中将其等量的联系数据变为一批新的虚拟数据;再对多标签文本模型进行完善训练,完成多标签文本分类;具体的包括以下步骤:S1:采用python语言编写程序对数据集中的数据及其标签进行预处理,对文本中的停用词以及标签进行处理,使得每条文本与其标签按行对应的保存至csv文件中;统计出所涉及的标签和文本数,计算出各个标签相互出现的次数,通过对训练数据的挖掘,发现出各类标签联系的先验知识;通过下载网上公开的AAPD的原始数据集,预处理后通过给出示例样本{S1,S2,S3,S4},以及样本在标签{L1,L2,L3,L4}空间下的标签表示,通过对标签之间相互出现次数的统计,得出标签共现矩阵其中标签对自身的影响为0,再通过对矩阵的行进行归一化处理,得到样本下标签之间的得分矩阵L;S2:依次对文本进行词嵌入、编码,同时配合先验知识在原始训练批次中挖掘出与当前文本对应的联系数据,将原始批次中的数据进行扩充,然后通过attention层提取批次中文本对应的特征及标签相关的文本特征;构建基于注意力机制的多标签文本分类模型的策略,首先在传入模型前将训练批次中的数据量定位128,在批次化数据中,配合先验知识挖掘出与原始文本对应的联系数据,使得批次中的数据量扩充为256;然后通过词嵌入模块对输入文本进行词嵌入处理,获得标签和文本词汇的嵌入表示,下载并使用斯坦福大学公开的Glove词袋,使用100d-Glove方法并通过词嵌入矩阵和标签嵌入矩阵将文本中的单词{w1,w2,…,wn}转化为词向量表示x={x1,x2,…,xn},其中xi为第i个单词的词向量表示;并将xi通过一个嵌入矩阵其中|w|为词汇表的大小,k为嵌入向量的维数;然后,使用双向LSTM从两个方向读取文本序列x,并计算每个单词的隐藏表示,公式如下: 通过连接两个方向的隐藏状态,得到第i个单词的最终隐藏表示包含以第i个字为中心的序列信息;对于通过attention层,采用4个多头自注意力机制抽取每个字的上下文特征;假设给定一个序列的向量一个单头自我注意力将H投影到三个不同的矩阵:Q矩阵为K矩阵为V矩阵为输出矩阵的维度为然后使用缩放的点积注意力来获取输出表示: S3:基于已挖掘出的标签相关的先验知识与文本特征进行交叉融合,使得联系数据的标签特征以及文本特征得到变化,成为一批隐空间下的虚拟数据;具体的为基于已挖掘出的标签相关的先验知识与文本特征进行交叉融合,通过对S2批次化中原始数据与联系数据的切分,对每个批次传入的128条联系数据及标签的特征向量进行数据增强;所述数据增强通过对当前批次中原始数据已经获得的基于隐空间的数据表示与其对应的联系数据获得的基于隐空间的数据表示进行一定比例结合,得到新的虚拟数据的文本数据特征表示对于虚拟数据对应隐空间的标签特征,将原始数据与虚拟数据中标签一致的地方保留,不一致的地方通过S1中的标签得分矩阵L进行查询,得出当前数据的其他标签对于标签的影响分数,进而通过伯努利分布随机采样,构建出虚拟数据的标签特征最终构建出基于隐空间的虚拟数据;S4:对原始的交叉熵损失函数进行修改,将增强后的数据与原始数据放入多标签分类模型中进行训练,将隐空间下虚拟数据的损失以及原始数据得到的损失经过一定的比率结合,不断完善分类模型,获得多标签文本分类结果。

全文数据:

权利要求:

百度查询: 昆明理工大学 融合标签关联的隐空间数据增强多标签文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。