首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本的分类方法及系统、电子设备、存储介质_北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司_201910185723.6 

申请/专利权人:北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司

申请日:2019-03-12

公开(公告)日:2024-05-17

公开(公告)号:CN111694948B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2020.10.20#实质审查的生效;2020.09.22#公开

摘要:本发明公开了一种文本的分类方法及系统、电子设备、存储介质。分类方法包括:设置网络新词库;网络新词库存储有网络新词;根据网络新词库和常用词库对待分类文本进行分词处理,获得特征词;常用词库存储有常用词;采用第一计算公式计算属于常用词的特征词的第一特征权重;采用第二计算公式计算属于网络新词的特征词的第二特征权重;将第一特征权重和第二特征权重构成待分类文本的特征向量,并根据特征向量对待分类文本进行分类。本发明把网络新词发现的结果加入文本预处理过程,在降低特征空间的维度的同时,有效提高分类器性能,优化分类结果,可被广泛用于用户检索,对信息频繁更新电商领域、搜索引擎都有积极作用。

主权项:1.一种文本的分类方法,其特征在于,所述分类方法包括:设置网络新词库;所述网络新词库存储有网络新词;根据所述网络新词库和常用词库对待分类文本进行分词处理,获得特征词;所述常用词库存储有常用词;采用第一计算公式计算属于所述常用词的特征词的第一特征权重;采用第二计算公式计算属于所述网络新词的特征词的第二特征权重;其中,对于同一特征词,所述第一计算公式的计算结果小于所述第二计算公式的计算结果;将所述第一特征权重和所述第二特征权重构成所述待分类文本的特征向量,并根据所述特征向量对所述待分类文本进行分类;其中,第一计算公式采用如下公式: 第二计算公式采用如下公式: 其中,wdt表征第一特征权重;wdt′表征第二特征权重;tfdt表征特征词tp在文本di中出现的频率;N表征文本语料库中文本的总数;nt表征文本语料库中包含特征词tp的文本数;K为文本di中特征项的个数;lentp表征特征词的字符数。

全文数据:

权利要求:

百度查询: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 文本的分类方法及系统、电子设备、存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。