【发明公布】一种基于内部知识提取与对比学习的小样本新闻分类方法_北京工业大学_202410020183.7

导航：龙图腾网> 最新专利技术> 一种基于内部知识提取与对比学习的小样本新闻分类方法_北京工业大学_202410020183.7

申请/专利权人：北京工业大学

申请日：2024-01-07

公开（公告）日：2024-04-16

公开（公告）号：CN117891948A

主分类号：G06F16/35

分类号：G06F16/35;G06F16/33;G06F40/30;G06F40/237;G06N3/045;G06N3/0895;G06N5/025

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.03#实质审查的生效;2024.04.16#公开

摘要：本发明公开了一种基于内部知识提取与对比学习的小样本新闻分类方法，包括以下步骤：获取新闻文本数据集并进行预处理得到初始数据集的文本特征并人工标注分类。设计提示模板，使用Roberta模型作为底层模型；设计与分类标签相关性的核心词以覆盖更广阔的语义空间。从文本中选择词频较高且语义相似度与核心词较高的词语作为备选词。将备选词放入提示模板[MASK]位置拼接组合得到拓展词。将Roberta模型预测[MASK]位置的词语与拓展词进行映射对比，得到最后的分类结果。通过提示学习将文本数据改造以减少下游任务和预训练任务之间的差距；通过内部知识提取和提示语法修正，建立核心词的拓展词库，形成拓展词库到目标分类的映射关系；提高小样本文本分类模型微调的效率。

主权项：1.一种基于内部知识提取与对比学习的小样本新闻分类方法，其特征在于，包括以下步骤：步骤1：获取新闻文本数据集；步骤2：将步骤1中获取到的新闻文本数据集进行预处理得到初始数据集的文本特征并人工标注分类；步骤3：根据步骤2所获得文本特征，设计合适的提示模板；提示模板设计要遵循以下规则：模板与任务目标一致；模板给要插入数据集的具体内容留下明确的位置；在模型需要预测或生成分类的位置留下[MASK]标记；步骤4：使用Roberta模型作为底层模型；重新设计Roberta的损失函数，在模型的损失函数的基础上，设计对比学习损失函数，以便提升模型在小样本数据下的效率；总的损失函数将由模型的损失函数和对比损失函数共同组成；步骤5：根据步骤2所获得的文本特征及其分类，设计与分类标签相关性较高且具有代表性和多样性的核心词以覆盖更广阔的语义空间；步骤6：根据步骤5设计的核心词，从步骤2所获取的文本中选择词频较高且语义相似度与核心词较高的词语作为备选词，以此来提取内部知识；步骤7：将步骤6所获得的备选词放入步骤3的提示模板[MASK]位置拼接组合，做提示语法改进，排除掉拼接后不符合语法的备选词，得到最终的拓展词；步骤8：将步骤4得到的Roberta模型预测[MASK]位置的词语与步骤7中拓展词进行映射对比，得到最后的分类结果。

全文数据：

权利要求：

百度查询：北京工业大学一种基于内部知识提取与对比学习的小样本新闻分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种双级节能水冷式平衡系统_麦克斯流体科技(江苏)有限公司_202210852648.6

下一篇：一种空气处理装置及空气处理方法_重庆美的制冷设备有限公司_202110444231.1

相关技术

一种双级节能水冷式平衡系统_麦克斯流体科技(江苏)有限公司_202210852648.6

一种空气处理装置及空气处理方法_重庆美的制冷设备有限公司_202110444231.1

一种液压冲击装置及其控制系统_广东三水合肥工业大学研究院_202110623149.5

一种实现无钢圈内衣立防下垂功能的软支撑装置_素肌(广州)科技有限公司_202111627899.6

一种复合材料机翼翼梁及其成型方法_常州启赋安泰复合材料科技有限公司_202111392164.X

用于输送物料的步进式循环动力装置_天津新玛特科技发展有限公司_201910898294.7

一种打扣机及工作方法_汇新智能科技(苏州)有限公司_201910831010.2

一种智能动态数据库管理系统_上海齐屹信息科技有限公司_202111612314.3

一种野外矿产样品取样装置_李阳_202011273263.1

估计浓度的装置和方法以及生成浓度估计模型的装置_三星电子株式会社_201910738775.1

车辆用摄像单元_本田技研工业株式会社_202010841217.0

一种烹饪器具_杭州老板电器股份有限公司_202210803322.4

龙图腾网&IPTOP

【发明公布】一种基于内部知识提取与对比学习的小样本新闻分类方法_北京工业大学_202410020183.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务