【发明授权】融合标签关联的隐空间数据增强多标签文本分类方法_昆明理工大学_202210679320.9

导航：龙图腾网> 最新专利技术> 融合标签关联的隐空间数据增强多标签文本分类方法_昆明理工大学_202210679320.9

申请/专利权人：昆明理工大学

申请日：2022-06-15

公开（公告）日：2024-05-07

公开（公告）号：CN115080689B

主分类号：G06F16/33

分类号：G06F16/33;G06F16/35;G06F18/25;G06F18/24;G06N3/045;G06N3/0442;G06N3/048;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.05.07#授权;2022.10.11#实质审查的生效;2022.09.20#公开

摘要：本发明公开融合标签关联的隐空间数据增强多标签文本分类方法，通对批次中的数据进行编码，然后通过双向LSTM和attention进行训练，并对标签列表中的先验知识进行挖掘，最后将编码后的数据与得到的标签先验知识进行一种隐空间的匹配方法，构造出一批隐空间下的虚拟数据，再对多标签文本模型进行完善训练，完成多标签文本分类；与其他深度学习模型相比，所提出的方法在主要评价指标Micro_F1上具有较好的性能。本发明方法的Micro_F1达到了72.08％，比传统的机器学习方法BR、CC和LP算法在Micro_F1值上提高了5.18％、3.28％和2.38％，比神经网络模型中的LSTM、CNN‑RNN和SGM的Micro_F1值上提高了3.78％、2.38％和1.08％。

主权项：1.融合标签关联的隐空间数据增强多标签文本分类方法，其特征在于：包括通过对数据集及标签关系的预处理，挖掘出标签的先验知识；构建基于注意力机制的多标签文本分类模型；通过对标签的先验知识与已有数据的匹配，在隐空间中将其等量的联系数据变为一批新的虚拟数据；再对多标签文本模型进行完善训练，完成多标签文本分类；具体的包括以下步骤：S1：采用python语言编写程序对数据集中的数据及其标签进行预处理，对文本中的停用词以及标签进行处理，使得每条文本与其标签按行对应的保存至csv文件中；统计出所涉及的标签和文本数，计算出各个标签相互出现的次数，通过对训练数据的挖掘，发现出各类标签联系的先验知识；通过下载网上公开的AAPD的原始数据集，预处理后通过给出示例样本{S1，S2，S3，S4}，以及样本在标签{L1，L2，L3，L4}空间下的标签表示，通过对标签之间相互出现次数的统计，得出标签共现矩阵其中标签对自身的影响为0，再通过对矩阵的行进行归一化处理，得到样本下标签之间的得分矩阵L；S2：依次对文本进行词嵌入、编码，同时配合先验知识在原始训练批次中挖掘出与当前文本对应的联系数据，将原始批次中的数据进行扩充，然后通过attention层提取批次中文本对应的特征及标签相关的文本特征；构建基于注意力机制的多标签文本分类模型的策略，首先在传入模型前将训练批次中的数据量定位128，在批次化数据中，配合先验知识挖掘出与原始文本对应的联系数据，使得批次中的数据量扩充为256；然后通过词嵌入模块对输入文本进行词嵌入处理，获得标签和文本词汇的嵌入表示，下载并使用斯坦福大学公开的Glove词袋，使用100d-Glove方法并通过词嵌入矩阵和标签嵌入矩阵将文本中的单词{w1，w2，…，wn}转化为词向量表示x＝{x1，x2，…，xn}，其中xi为第i个单词的词向量表示；并将xi通过一个嵌入矩阵其中|w|为词汇表的大小，k为嵌入向量的维数；然后，使用双向LSTM从两个方向读取文本序列x，并计算每个单词的隐藏表示，公式如下：通过连接两个方向的隐藏状态，得到第i个单词的最终隐藏表示包含以第i个字为中心的序列信息；对于通过attention层，采用4个多头自注意力机制抽取每个字的上下文特征；假设给定一个序列的向量一个单头自我注意力将H投影到三个不同的矩阵：Q矩阵为K矩阵为V矩阵为输出矩阵的维度为然后使用缩放的点积注意力来获取输出表示: S3：基于已挖掘出的标签相关的先验知识与文本特征进行交叉融合，使得联系数据的标签特征以及文本特征得到变化，成为一批隐空间下的虚拟数据；具体的为基于已挖掘出的标签相关的先验知识与文本特征进行交叉融合，通过对S2批次化中原始数据与联系数据的切分，对每个批次传入的128条联系数据及标签的特征向量进行数据增强；所述数据增强通过对当前批次中原始数据已经获得的基于隐空间的数据表示与其对应的联系数据获得的基于隐空间的数据表示进行一定比例结合，得到新的虚拟数据的文本数据特征表示对于虚拟数据对应隐空间的标签特征，将原始数据与虚拟数据中标签一致的地方保留，不一致的地方通过S1中的标签得分矩阵L进行查询，得出当前数据的其他标签对于标签的影响分数，进而通过伯努利分布随机采样，构建出虚拟数据的标签特征最终构建出基于隐空间的虚拟数据；S4：对原始的交叉熵损失函数进行修改，将增强后的数据与原始数据放入多标签分类模型中进行训练，将隐空间下虚拟数据的损失以及原始数据得到的损失经过一定的比率结合，不断完善分类模型，获得多标签文本分类结果。

全文数据：

权利要求：

百度查询：昆明理工大学融合标签关联的隐空间数据增强多标签文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于算力网络的数据传输方法和算力网络系统_中国铁塔股份有限公司_202410196102.9

下一篇：一种安全经济型热力管道安装方法_北京建工路桥集团有限公司_202410078965.6

相关技术

基于算力网络的数据传输方法和算力网络系统_中国铁塔股份有限公司_202410196102.9

一种安全经济型热力管道安装方法_北京建工路桥集团有限公司_202410078965.6

一种基于夏玉米密植后用滴灌技术调控水肥的设计与操作方法_漯河市农业机械技术中心_202410276648.5

一种碳/碳复合材料及其制备方法以及PECVD承载框_上海康碳复合材料科技有限公司_202410245901.0

一种基于线圈偏置的AMR线性传感器_佛山市川东磁电股份有限公司_202410339698.3

基于可信数据互操作机制的系统间数据融合方法及设备_中国人民解放军军事科学院军事科学信息研究中心_202410308633.2

一种软件中识别用户意图的方法、装置、设备及存储介质_北京创作美好科技有限公司_202410306131.6

一种新型电路断路装置_耐思特智能科技(常州)有限公司_202410192206.2

基于DMVR的帧间预测方法和设备_LG电子株式会社_202410167881.X

一种火灾中受困人员的定位及逃生指引方法_营口天成消防设备有限公司_202410239275.4

一种10kV级高性能采煤机用电缆及其制造工艺_湖南华菱线缆股份有限公司_202410343975.8

一种图片聚类方法、装置、存储介质及终端设备_平安科技(深圳)有限公司_201811508633.8

标签相关技术

一种用户标签预测模型构建方法及用户标签预测方法_北京理工大学_202410235026.8

标签管理的方法与装置_华为技术有限公司_202211490289.0

一种防伪标签分切机_无锡市龙创印刷科技有限公司_202322824378.0

热熔胶及其制备方法和标签_广州鹿山新材料股份有限公司_202410225891.4

一种印刷标签质量检测方法及系统_千里眼(广州)人工智能科技有限公司_202410361581.5

标签覆膜紫外光固化装置_安阳市三和印务有限公司_202322913098.7

一种标签数据的处理方法及装置_中电金信软件有限公司_202211259401.X

一种标签优化点云实例分割方法_西北大学_202110262039.0

一种带涂层的防伪标签_广州康利信息科技有限公司_202322750672.1

一种通信光缆线路标签_国网辽宁省电力有限公司朝阳供电公司_202323037867.8

增强相关技术

增强血管造影_皇家飞利浦有限公司_202280067360.6

管束除雾增强器_北京贝可莱环保技术有限公司_202322741289.X

增强跟踪和速度检测_APTIV技术股份公司_202311628158.9

波导模组及增强现实设备_杭州逗酷软件科技有限公司_202211508791.X

波导模组及增强现实设备_杭州逗酷软件科技有限公司_202211508785.4

隐私增强无线通信方法_迈凌有限公司_202010255894.4

PRACH和/或SRS切换增强_高通股份有限公司_202110563021.4

增强型电氧化系统_鲁玛斯科技有限责任公司_202280069862.2

一种金相图像增强方法及系统_陕西长空齿轮有限责任公司_202410251198.4

一种抗压增强竹塑缠绕管_箱联天下(桃江)新材料科技有限公司_202410475800.2

空间相关技术

城市空间特征分析方法_北京建筑大学_202410211588.9

空间准共址冲突处理_高通股份有限公司_201980073151.0

用于空间定位的方法和装置_闪耀现实(无锡)科技有限公司_202010729794.0

MCU的空间复用方法及系统_上海瓶钵信息科技有限公司_202410335167.7

一种基于双变量空间自相关的月球亮温和矿物空间关系分析方法_同济大学_202311801021.9

一种在三维的空间下以空间热力表达碳排放全景监测的方法_南京睿见数字科技有限公司_202410264335.8

空间冗余机械臂的运动规划方法与装置_西北工业大学_202210525278.5

一种空间站防漂移螺杆组件_中国电子科技集团公司第十研究所_202211382594.8

位置指示设备及空间位置指示系统_株式会社和冠_201980029213.8

一种可节省空间的衣柜_福建榕利来家居有限公司_202323086955.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】融合标签关联的隐空间数据增强多标签文本分类方法_昆明理工大学_202210679320.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务