【发明公布】一种基于预训练语言模型的中文文本关键信息抽取方法_南京大学_202010460134.7

导航：龙图腾网> 最新专利技术> 一种基于预训练语言模型的中文文本关键信息抽取方法_南京大学_202010460134.7

申请/专利权人：南京大学

申请日：2020-05-27

公开（公告）日：2020-07-24

公开（公告）号：CN111444721A

主分类号：G06F40/295(20200101)

分类号：G06F40/295(20200101);G06F40/30(20200101);G06F40/211(20200101);G06N3/04(20060101);G06N3/08(20060101)

优先权：

专利状态码：有效-授权

法律状态：2022.09.23#授权;2020.08.18#实质审查的生效;2020.07.24#公开

摘要：本发明公开了一种基于预训练语言模型的中文文本关键信息抽取方法，具体步骤如下：1将待抽取的关键信息进行分类，易于归纳组成规则的信息类别，使用正则匹配的方法抽取。2对命名实体使用序列标注模型抽取。3序列标注模型采用对预训练语言模型微调的方法进行构建，首先使用大规模无标记文本语料学习得到预训练语言模型，并在预训练阶段引入词边界特征。4将使用规则匹配的数据内容替换为其对应的规则模板标签，以完成规则匹配与深度网络的融合。5根据有标记的训练数据，在预训练语言模型上进行微调，将其迁移到命名实体的序列标注任务上。本发明可以有效提取文本上下文语义特征，并且在复杂信息类别的场景下有效地识别各个信息种类。

主权项：1.一种基于预训练语言模型的中文文本关键信息抽取方法，其特征在于，包括如下步骤：步骤1，对基于规则匹配方法进行识别的信息类别，编写相应的规则模板，并为每一个类别设置对应的标签名；步骤2，基于任务文本环境，收集无标记的文本语料；步骤3，对步骤2中收集的无标记的文本语料使用规则模板进行抽取，将数字串和字符串使用规则模板抽取出来，之后将文本语料中匹配的数字串、字符串在原文中的位置替换为其对应的类别标签；步骤4，基于步骤3处理后的无标记文本语料，基于Transformer网络结构构建预训练语言模型，使用遮掩语言模型任务在收集到的文本语料上进行预训练；并在预训练语言模型网络的输入阶段，通过将文本分词的嵌入表示结合到输入中，在预训练语言模型中引入分词特征；步骤5，基于任务文本环境收集文本语料数据集，构建命名实体识别数据集，采用BIO标注格式对该文本语料数据集中的命名实体类别进行标注，得到命名实体识别数据集；步骤6，使用规则模板匹配，对步骤5中带标记的命名实体识别数据集使用规则模板匹配数字串、字符串，并将匹配的数字串在原文中的位置替换为其对应的类别标签；步骤7，针对步骤4中得到的预训练语言模型，使用步骤5标注的命名实体识别数据集对其进行微调；步骤8，使用微调后的预训练语言模型对待预测文本数据进行识别抽取。

全文数据：

权利要求：

百度查询：南京大学一种基于预训练语言模型的中文文本关键信息抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种粉末涂料预拌设备_浙江双金粉末涂料有限公司_202322623854.2

下一篇：一种塑料标签_南通星焰智能科技有限公司_202322574742.2

相关技术

一种粉末涂料预拌设备_浙江双金粉末涂料有限公司_202322623854.2

一种塑料标签_南通星焰智能科技有限公司_202322574742.2

一种可自动清洁的柴油机尾气黑烟过滤装置_山西新华防化装备研究院有限公司_202322570878.6

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种定氧测温接插件_乐清市天骏电器有限公司_202322616076.4

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

便携式储能电源_昆吾华兴(北京)能源科技发展有限公司_202322550526.4

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

米粉生产用原料混合设备_郑州朱屯米粉食品有限公司_202322656894.7

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种集成客厅桌和健身器材的客厅组合柜_广东威法定制家居股份有限公司_202322632213.3

龙图腾网&IPTOP

【发明公布】一种基于预训练语言模型的中文文本关键信息抽取方法_南京大学_202010460134.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务