【发明授权】基于主题信息增强的弱监督方面类别检测方法_昆明理工大学_202210652339.4

导航：龙图腾网> 最新专利技术> 基于主题信息增强的弱监督方面类别检测方法_昆明理工大学_202210652339.4

申请/专利权人：昆明理工大学

申请日：2022-06-07

公开（公告）日：2024-04-23

公开（公告）号：CN114880478B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/211;G06F18/214;G06F18/22;G06F18/2415;G06F18/25;G06F18/23;G06N3/0895

优先权：

专利状态码：有效-授权

法律状态：2024.04.23#授权;2022.08.26#实质审查的生效;2022.08.09#公开

摘要：本发明涉及基于主题信息增强的弱监督方面类别检测方法，属于自然语言处理技术领域。面向产品评论的方面类别检测，需要人工映射方面词与方面类别之间的关系，人工的介入极大的影响了方面识别的性能，对此本发明利用主题聚类自动选取句子向量，让更靠近相应主题的句子向量参与训练，以减少噪声数据对模型的影响；然后，为了更好的表征句子向量，弥补短文本缺乏的信息，利用主题信息为句子进行数据增强。在Restaurant和Amozon两个产品评论数据集的方面类别检测的实验结果表明,本发明提出的融合主题信息的弱监督方面类别检测方法是有效的。

主权项：1.基于主题信息增强的弱监督方面类别检测方法，其特征在于：所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下：Step1、对无标签样本和标签样本使用主题模型以无监督的方式进行主题聚类，通过聚类得到的簇和有标签的样本的空间距离来确认簇的伪标签，由此得到伪标签数据，通过聚类还能得到每个评论段对应的主题信息；Step2、将所有伪标签评论段样本集与领域内示例做相似性度量,选出一个伪标签子集，相比步骤Step1得到的伪标签数据，该伪标签的子集置信度更高；Step3、找出给定句子与类别之间的相似度，对于每个类别，将给定句子与该类别的相似度定义为句子与属于该类别的每个标签句子之间的相似度值的平均值；Step4、将语料库主题信息与预先训练的文本特征融合，将句子和其对应的类别信息编码，进行句子表征增强；Step5、最终筛选出的伪标签子集融合对应的主题信息做数据增强，用于训练分类器；所述Step1中，首先对无标签样本数据集按照主题进行聚类,获取样本所对应的类别及其主题信息；通过主题建模获得对应数据集的域内信息，包括对应产品评论属于相应类别的概率和每个类别的主题信息，即主题词，将评论段ri＝{t1,t2,…,tn}传递给主题模型，以推断产品评论所属类别及其对应的主题信息，具体计算过程如公式1、2所示；Pc＝TopicModelt1,t2,…,tn∈RT1Wc＝TopicModelt1,t2,…,tn∈RT2其中T表示主题数量，RT表示评论句子的向量，Pc为主题的归一化权值，其中每个权值表示输入评论句子属于某个主题的概率，Wc表示某个主题最具代表性的主题词；所述Step3中，筛选伪标签的目标是降低训练中存在的错误伪标签样本，提高训练的整体性能，通过智能的选择一个伪标签子集来实现；设r是给定的句子，ci是第i类,si是第i类带有标签的句子，带标签的句子一共有|s|条；定义为ci和r之间的相似度值，如公式3所示，得到带有标签句子与类别之间的相似度 Sigmoid函数能对相似度量获得的相似值产生判别作用，为了使相似度值更具判别性，将上一步得到的相似度值通过公式4所示的函数进行转换；现对于每个句子，都有一个向量sentScore∈Rc，其中c是类别的数量，每个元素代表句子和预定义类别之间的相似性得分；所述Step4中，句子表征增强即为融合主题信息的数据增强使用BERT将句子S1和S1对应的类别信息编码，句子S1的长度为N，类别信息的长度为M，BERT最后一层对应于输入中的CLS标记的C向量作为句子特征表示，公式如5所示； C∈Rd，d为BERT的内部隐藏层大小，对于评论段的主题信息所述Step5中，通过最小化重构误差，采用了对比最大边界目标函数，优化模型的分类网络参数，采用主题词项来弥补短文本缺乏的主题信息，使分类器更好地学习各个方面类别和评论片段的表征；所述Step5中，筛选伪标签样本进行训练包括；令PNi表示伪标签样本ri是否被用作分类器的训练，假设一种情况：伪标签样本ri属于类别1，此时只需要考虑其它类别的相似性，如公式6所示：其中，为示性函数，分别表示样本ri属于类别2、3的概率，τn表示选取样本的阈值；当低于τn同样认为样本置信度高，当样本概率大于τn时，就不使用该样本训练网络，所以损失函数L如公式7所示；L＝PNiLθ7保证了一句评论只属于一个类别，避免为分类器引入噪声干扰，同时也避免了伪样本多次迭代造成的误差传递。

全文数据：

权利要求：

百度查询：昆明理工大学基于主题信息增强的弱监督方面类别检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

下一篇：一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

相关技术

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

监督相关技术

一种执法监督管理巡查设备_武汉铂亚晨科技有限公司_202322808118.4

基于主题信息增强的弱监督方面类别检测方法_昆明理工大学_202210652339.4

一种基于对偶学习和辅助信息的无监督气象降尺度方法_成都信息工程大学_202410189155.8

基于文字辅助的半监督3D医学图像分割方法_中国海洋大学_202410096489.0

基于无监督迁移学习的泵类机械设备轴承故障诊断方法_中国人民解放军92578部队_202111182225.X

一种面向铁轨图像的半监督异物检测方法_东南大学_202110785139.1

一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法_大连理工大学_202111362020.X

一种基于监督沉浸式智能监督学习系统用可调节环境式墙体_赛文(北京)教育科技有限公司_202322143259.9

基于远程监督关系抽取的肝癌信息标注系统_杭州电子科技大学_202311787038.3

实现自动半监督机器学习的方法及装置_第四范式(北京)技术有限公司_201811341910.0

弱相关技术

基于相位偏置量子弱测量的绝对弱磁场测量设备及方法_中国地质大学(武汉)_202210814619.0

地震数据自适应弱反射信号补偿方法、系统、设备及介质_山东科技大学_202410288054.6

弱耦合二十模式少模光纤及其实现方法_上海交通大学_202010320708.0

基于对抗攻击的深度学习模型弱标签漏洞挖掘方法及系统_上海交通大学_202410108773.5

一种用于检测弱表达RhD变异型的SNP标记_青岛市中心血站(青岛市输血医学研究所)_202410064379.6

一种基于弱监督和辅助任务的图像归一化方法_上海市精神卫生中心(上海市心理咨询培训中心)_202011239255.5

一种中频弱振荡磁场辅助双孢蘑菇保鲜的方法_上海市农业科学院_202010871328.6

一种转子支架弱约束对称焊接工艺_中国长江电力股份有限公司_202210177743.0

一种脉冲弱磁场联合冷藏延长草菇室温贮藏期的方法_上海市农业科学院_202010870255.9

一种中华蜜蜂养殖中的弱群越冬方法_巫应强_202410238273.3

方面相关技术

高粱耐盐碱相关基因AT1及其在作物耐盐碱方面的应用_中国科学院遗传与发育生物学研究所_202111157797.2

基于深度学习的评论文本方面级情感分类方法及系统_上海哈蜂信息科技有限公司_202010776165.3

语音识别控制方面的仿生机器人_大连博涛文化科技股份有限公司_202410225452.3

白叶藤碱盐衍生物及其在防治植物病毒和杀菌方面的应用_南开大学_202311530160.2

季也蒙毕赤酵母GXDK6在制备多巴胺方面的应用及具体方法_广西科技大学_202311807362.7

一类萘醌衍生物及其制备和在防治植物病虫害方面的应用_南开大学_202211250531.7

一种金属有机框架荧光材料及其制备方法与在识别碘酸根离子方面的应用_常州大学_202211534427.0

一种MXene基复合材料及其制备方法与在电催化水合肼氧化方面的应用_武汉工程大学_202310161344.X

SA钾盐在促进胶原蛋白生成方面的应用_嘉必优生物技术(武汉)股份有限公司_202311711763.2

一种化合物在抑制Xa因子方面的应用_大连理工大学_202410026908.3

龙图腾网&IPTOP

【发明授权】基于主题信息增强的弱监督方面类别检测方法_昆明理工大学_202210652339.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务