买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种科技信息文本分类方法_华中科技大学_202011090173.9 

申请/专利权人:华中科技大学

申请日:2020-10-13

公开(公告)日:2024-03-19

公开(公告)号:CN112199501B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/30;G06F40/289;G06F40/284;G06N3/0442;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.01.26#实质审查的生效;2021.01.08#公开

摘要:本发明属于文本分类技术领域,具体涉及一种科技信息文本分类方法,包括:基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本粗粒度强分类,得到粗粒度类别;对文本抽取高层语义信息特征,并采用粗粒度类别辅助粗粒度类别对应的细粒度分类器来基于高层语义信息特征对文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该文本的细粒度类别,细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。本发明基于多粒度组合优化进行文本分类,将分类任务进行分解,通过强化简单的子任务性能,高效地提升文本分类任务的准确率和性能。

主权项:1.一种科技信息文本分类方法,其特征在于,包括:基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,根据前两大的粗粒度类别概率数值之间的差值是否大于阈值判断分类结果准确与否,若不大于阈值,则分类结果不准确,对该科技信息文本进行粗粒度强分类,最终得到该科技信息文本的粗粒度类别;对该科技信息文本抽取高层语义信息特征,采用所述粗粒度类别辅助所述粗粒度类别对应的细粒度分类器来基于所述高层语义信息特征对该科技信息文本进行细粒度弱分类,根据前两大的细粒度类别概率数值之间的差值是否大于阈值判断分类结果准确与否,若不大于阈值,则分类结果不准确,采用细粒度强分类器,最终得到该科技信息文本的细粒度类别,其中所述细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得;其中,所述粗粒度弱分类具体采用基于决策树规则的文本分类方法,所述粗粒度强分类具体采用fastText方法;所述细粒度弱分类的实现方式为:对待分类的科技信息文本进行预处理,将预处理后的文本输入到TextCNN模型中,经过预训练好的Word2Vec模型将文本表达为词向量矩阵,由TextCNN特征提取层进行特征提取,获得文本特征向量,作为高层语义信息特征;将所述文本特征向量与由最终得到的粗粒度类别向量经编码所得的向量进行拼接,构成文本融合特征向量并输入到所述粗粒度类别所对应的Softmax分类器进行分类,其输出为一个细粒度类别向量,将该细粒度类别向量中概率最大对应的类别作为细粒度类别;每一个粗粒度都有一个细粒度分类器。

全文数据:

权利要求:

百度查询: 华中科技大学 一种科技信息文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。