【发明授权】一种基于小样本的特定领域多标签文本分类方法_长城信息股份有限公司_202111680038.4

导航：龙图腾网> 最新专利技术> 一种基于小样本的特定领域多标签文本分类方法_长城信息股份有限公司_202111680038.4

申请/专利权人：长城信息股份有限公司

申请日：2021-12-31

公开（公告）日：2024-04-26

公开（公告）号：CN114491024B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/30;G06F16/2458;G06F18/22;G06F18/2431;G06F18/2415

优先权：

专利状态码：有效-授权

法律状态：2024.04.26#授权;2022.05.31#实质审查的生效;2022.05.13#公开

摘要：本发明公开了一种基于小样本的特定领域多标签文本分类方法，通过对原始语料中带有原始标签的语料进行标签进行分类，然后改变原始标签进行语料扩充，并基于扩充后的语料，通过masklanguagemodel对预训练语言模型进行了多任务的训练来更新模型参数，使模型充分学习到领域的语义知识，在预测的阶段则使用知识库检索的方式，使用knn减少随机性，提升分类结果的准确性。在得到预测的结果后，继续将预测的结果当作人工标签重复上述步骤，使模型能够继续学习本领域的知识，并且检索知识库也越来越大，分类的结果也得到相应的提升。

主权项：1.一种基于小样本的特定领域多标签文本分类方法，其特征在于，包括以下步骤：步骤一，获取特定领域的原始语料，并提取其中小部分语料，为语料中每个句子都标注上标签，并以相同的标签为一类，记录下标签的总类数；步骤二，将标注的标签加入到句子之前并对标签进行掩码，同时在标签的首尾分别增加固定词语以标识出标签并构成新的句子，再在新的句子头尾加上特定符号；然后加入用于标识当前标签是否正确的标识标签，再复制句子并将原标签内容依次更换为其他句子所标注且与原标签不同的标签，同时将标识标签从正确改为错误，从而扩充步骤一中提取的小部分语料；步骤三，向预训练语言模型中输入扩充后的语料，然后执行掩码语言模型任务，从而对预训练模型的参数进行更新；步骤四，将更新后的模型作为语义特征提取器，从而将所有扩充后的语料转为语义向量并作为查询检索库；步骤五，再从原始语料从提取部分语料，并为语料中的每个句子前都加入掩码且在掩码前后加入步骤二中的固定词语，同时按步骤一中记录的标签种类数来复制以得到同样数量的句子，然后输入到模型中，从而得到每个句子的语义向量；步骤六，将得到的语义向量结果来与查询检索库进行相似度计算，并取相似度最高的前N条标签中出现次数最高的标签作为没有原始标签的语料的标签；步骤七，返回步骤三，并以步骤六中得到的标签的语料作为模型的输入，继续更新模型的参数，直到损失函数达到收敛即完成模型训练；步骤八，采用步骤七中训练完成的模型，对与步骤一中领域相同的语料进行标签标注，从而实现分类。

全文数据：

权利要求：

百度查询：长城信息股份有限公司一种基于小样本的特定领域多标签文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种脑膜炎球菌发酵培养基及其制备方法和应用_成大生物(本溪)有限公司_202410343870.2

下一篇：一种可移动车载伸缩无人机起降机场_齐鲁理工学院_202410345681.9

相关技术

一种脑膜炎球菌发酵培养基及其制备方法和应用_成大生物(本溪)有限公司_202410343870.2

一种可移动车载伸缩无人机起降机场_齐鲁理工学院_202410345681.9

一种燃气管道修复装置及方法_广州燃气集团有限公司_202410161508.3

一种基于氟硼荧的离子型多孔有机聚合物及其制备方法和光催化应用_常州大学_202311787384.1

一种燃气-蒸汽联合循环发电供热系统_西安热工研究院有限公司_202410130737.9

一种化合物及其制备方法和在卷烟中的应用_湖北中烟工业有限责任公司_202410162764.4

一种茭白废弃叶多糖组分及其制备方法和用途_常熟理工学院_202410158334.5

一种物品投递方法、装置、设备及介质和物品投递系统_何永安_202410173109.9

一种RISC-V架构芯片快速测试加速单元的方法及装置_山东浪潮科学研究院有限公司_202410162392.5

供电系统、功率变换器以及功率变换电路的控制方法_华为数字能源技术有限公司_202410139301.6

一种吊具点测方法、装置、系统和存储介质_一汽丰田汽车有限公司_202410173152.5

为放大器操作进行的平台资源的选择_超威半导体公司_202280065509.7

龙图腾网&IPTOP

【发明授权】一种基于小样本的特定领域多标签文本分类方法_长城信息股份有限公司_202111680038.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务