买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于主题信息增强的弱监督方面类别检测方法_昆明理工大学_202210652339.4 

申请/专利权人:昆明理工大学

申请日:2022-06-07

公开(公告)日:2024-04-23

公开(公告)号:CN114880478B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/211;G06F18/214;G06F18/22;G06F18/2415;G06F18/25;G06F18/23;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2022.08.26#实质审查的生效;2022.08.09#公开

摘要:本发明涉及基于主题信息增强的弱监督方面类别检测方法,属于自然语言处理技术领域。面向产品评论的方面类别检测,需要人工映射方面词与方面类别之间的关系,人工的介入极大的影响了方面识别的性能,对此本发明利用主题聚类自动选取句子向量,让更靠近相应主题的句子向量参与训练,以减少噪声数据对模型的影响;然后,为了更好的表征句子向量,弥补短文本缺乏的信息,利用主题信息为句子进行数据增强。在Restaurant和Amozon两个产品评论数据集的方面类别检测的实验结果表明,本发明提出的融合主题信息的弱监督方面类别检测方法是有效的。

主权项:1.基于主题信息增强的弱监督方面类别检测方法,其特征在于:所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下:Step1、对无标签样本和标签样本使用主题模型以无监督的方式进行主题聚类,通过聚类得到的簇和有标签的样本的空间距离来确认簇的伪标签,由此得到伪标签数据,通过聚类还能得到每个评论段对应的主题信息;Step2、将所有伪标签评论段样本集与领域内示例做相似性度量,选出一个伪标签子集,相比步骤Step1得到的伪标签数据,该伪标签的子集置信度更高;Step3、找出给定句子与类别之间的相似度,对于每个类别,将给定句子与该类别的相似度定义为句子与属于该类别的每个标签句子之间的相似度值的平均值;Step4、将语料库主题信息与预先训练的文本特征融合,将句子和其对应的类别信息编码,进行句子表征增强;Step5、最终筛选出的伪标签子集融合对应的主题信息做数据增强,用于训练分类器;所述Step1中,首先对无标签样本数据集按照主题进行聚类,获取样本所对应的类别及其主题信息;通过主题建模获得对应数据集的域内信息,包括对应产品评论属于相应类别的概率和每个类别的主题信息,即主题词,将评论段ri={t1,t2,…,tn}传递给主题模型,以推断产品评论所属类别及其对应的主题信息,具体计算过程如公式1、2所示;Pc=TopicModelt1,t2,…,tn∈RT1Wc=TopicModelt1,t2,…,tn∈RT2其中T表示主题数量,RT表示评论句子的向量,Pc为主题的归一化权值,其中每个权值表示输入评论句子属于某个主题的概率,Wc表示某个主题最具代表性的主题词;所述Step3中,筛选伪标签的目标是降低训练中存在的错误伪标签样本,提高训练的整体性能,通过智能的选择一个伪标签子集来实现;设r是给定的句子,ci是第i类,si是第i类带有标签的句子,带标签的句子一共有|s|条;定义为ci和r之间的相似度值,如公式3所示,得到带有标签句子与类别之间的相似度 Sigmoid函数能对相似度量获得的相似值产生判别作用,为了使相似度值更具判别性,将上一步得到的相似度值通过公式4所示的函数进行转换; 现对于每个句子,都有一个向量sentScore∈Rc,其中c是类别的数量,每个元素代表句子和预定义类别之间的相似性得分;所述Step4中,句子表征增强即为融合主题信息的数据增强使用BERT将句子S1和S1对应的类别信息编码,句子S1的长度为N,类别信息的长度为M,BERT最后一层对应于输入中的CLS标记的C向量作为句子特征表示,公式如5所示; C∈Rd,d为BERT的内部隐藏层大小,对于评论段的主题信息所述Step5中,通过最小化重构误差,采用了对比最大边界目标函数,优化模型的分类网络参数,采用主题词项来弥补短文本缺乏的主题信息,使分类器更好地学习各个方面类别和评论片段的表征;所述Step5中,筛选伪标签样本进行训练包括;令PNi表示伪标签样本ri是否被用作分类器的训练,假设一种情况:伪标签样本ri属于类别1,此时只需要考虑其它类别的相似性,如公式6所示: 其中,为示性函数,分别表示样本ri属于类别2、3的概率,τn表示选取样本的阈值;当低于τn同样认为样本置信度高,当样本概率大于τn时,就不使用该样本训练网络,所以损失函数L如公式7所示;L=PNiLθ7保证了一句评论只属于一个类别,避免为分类器引入噪声干扰,同时也避免了伪样本多次迭代造成的误差传递。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于主题信息增强的弱监督方面类别检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。