买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于TF-IDF加权的文本分类方法_天津大学_202311722855.0 

申请/专利权人:天津大学

申请日:2023-12-13

公开(公告)日:2024-03-12

公开(公告)号:CN117688183A

主分类号:G06F16/35

分类号:G06F16/35;G06F40/216;G06F18/22;G06F18/24

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明公开了一种基于TF‑IDF加权的文本分类方法,属于语义网络技术领域;本发明包括以下步骤:A、计算数据集各个类别文档上的TF‑IDF;B、对文档的TF‑IDF进行排序;C、根据文档中每个单词的TF‑IDF的排名信息重新映射数值;D、计算当前句子与类别文档的相似性分数;E、评估分类效果。本发明通过计算单词级别的类别相似性分数来表示文档的类别特征,便于直接利用其进行文本分类,有效解决了类别间数据量差异或数据特征分布差异等问题造成的TF‑IDF特征无法很好地表示文档的类别信息的问题。

主权项:1.一种基于TF-IDF加权的文本分类方法,其特征在于,包括以下步骤:S1、计算TF-IDF:输入文本分类数据集,所述数据集包括句子文本及其对应的类别标签,将同一个类别的所有文本视为一个文档,在python中使用sklearn库在各个文档上计算每个文档中所有单词的TF-IDF;S2、TF-IDF加权:S2.1、排序:基于S1中所得计算结果,将文档中所有单词按照TF-IDF值大小进行降序排列,获得单词的排名;S2.2、映射:使用一个递减的映射函数,根据S2.1中所得排名对单词的TF-IDF进行重新赋值,用以表示类别相似性分数;S3、分类:使用S2中所得的类别相似性分数进行分类,对于待分类的句子,在各个文档上,将句子中所有单词的类别相似性分数进行相加,在哪个文档上总的类别相似性分数高,就分类为哪类,输出句子所属类别;S4、结果评估:基于S3中的分类结果,计算F1分数,具体计算方法如下:精确率=TPTP+FP召回率=TPTP+FNF1分数=2*精确率*召回率精确率+召回率式中,TP表示分类结果中正样本被正确识别的数量;FP表示分类结果中误报的负样本数量;FN表示分类结果中漏报的正样本数量。

全文数据:

权利要求:

百度查询: 天津大学 一种基于TF-IDF加权的文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。