买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于句粒度语义和相对位置编码的长文本分类技术_南京中孚信息技术有限公司;中孚安全技术有限公司;中孚信息股份有限公司;北京中孚泰和科技发展股份有限公司_202111500332.2 

申请/专利权人:南京中孚信息技术有限公司;中孚安全技术有限公司;中孚信息股份有限公司;北京中孚泰和科技发展股份有限公司

申请日:2021-12-09

公开(公告)日:2024-04-09

公开(公告)号:CN114357158B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/30;G06F40/216;G06F18/241;G06N3/0442;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2022.05.03#实质审查的生效;2022.04.15#公开

摘要:本发明公开了计算机自然语言处理技术领域的基于句粒度语义和相对位置编码的长文本分类技术,包括句粒度语义预测提取和篇章主题预测,在垂直领域内多主题分布的长文本分类业务场景下,从语言语义分析、特征工程出发,运用计算机自然语言处理技术进行流水线、模块化开发,提高长文本分类业务开发的敏捷性和质量;引入流水线机制,将长文本分类分解为句粒度语义预测提取和篇章主题预测两个步骤,采用轻量级预训练模型提取句粒度语义特征,兼顾模型的准确性和效率。

主权项:1.基于句粒度语义和相对位置编码的长文本分类技术,其特征在于,包括句粒度语义预测提取和篇章主题预测,所述句粒度语义预测提取具体步骤如下:A1:将长文本切分为句子级样本,设计标签体系;A2:根据标签体系对句子进行语义标注;A3:将标注好的句子送入轻量级分类器模型进行监督学习,通过训练得到句粒度语义预测模型;A4:通过句粒度语义预测模型进行句粒度语义预测;所述篇章主题预测具体步骤如下:B1:通过带权重排序的多标签体系长文本进行标注;B2:按句粒度切分长文本同时保留句子在原文章的映射地址列表,将切分后的句粒度数据通过句粒度语义预测模型,提取每个句子的语义表示;B3:通过句子在原文章的映射地址回溯,将归属于同一文章的句子语义表征构建成一个全文对象,引入相对位置编码,将全文对象内的句粒度的语义信息和其在文章中的顺序位置信息结合;B4:将每篇文章通过带位置信息的句粒度语义特征表示的全局序列特征向量进行多标签分类器训练,通过训练获得篇章级长文本分类预测模型;B5:通过篇章级长文本分类预测模型进行篇章主题预测。

全文数据:

权利要求:

百度查询: 南京中孚信息技术有限公司;中孚安全技术有限公司;中孚信息股份有限公司;北京中孚泰和科技发展股份有限公司 基于句粒度语义和相对位置编码的长文本分类技术

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。