买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于NB-Bagging的短文本分类方法_淮阴工学院_202110079516.X 

申请/专利权人:淮阴工学院

申请日:2021-01-21

公开(公告)日:2023-10-13

公开(公告)号:CN112749756B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/216;G06F40/289;G06F18/214;G06F18/2415

优先权:

专利状态码:有效-授权

法律状态:2023.10.13#授权;2021.05.21#实质审查的生效;2021.05.04#公开

摘要:本发明公开了一种基于NB‑Bagging的短文本分类方法,属于文本分类与机器学习领域。针对朴素贝叶斯弱分类器的样本属性关联性差和过拟合问题,提出了一种朴素贝叶斯用Bagging思想集成的短文本分类方法。本方法首先使用结巴分词方法完成文本的分词,然后使用词向量空间模型和TF‑IDF算法来获得特征项和权重矩阵,再通过多个朴素贝叶斯分类器用Bagging方法集成得到多组分类预测标签,最后通过少数服从多数的投票方式得到最终的分类预测标签。本发明实现较高准确度的文本分类,优化了泛化能力和过拟合问题,提高了短文本分类的准确度。

主权项:1.一种基于NB-Bagging的短文本分类方法,其特征在于,包括如下步骤:步骤1:对文本数据集预处理,将数据分为训练集G1和测试集H1,通过结巴分词方法对所述训练集G1和测试集H1进行分词处理,得到文本数据集G2和H2,对所述文本数据集G2和H2进行Bunch类数据化处理,得到Bunch数据类型G2'和H2';步骤1.1:定义Text为单类文本集,定义label、text、name分别为标签、单个文本和名称,并且满足Text={label,text1,name1,label,text2,name2,…,label,textN,nameN},texta为Text中第a个文本,namea为Text中第a个文本名称,其中,变量a∈[1,N];步骤1.2:定义训练集和测试集分别为G1和H1,G1={Text1,Text2,…,TextA},H1={Text1,Text2,…,TextB};步骤1.3:使用结巴分词方法对G1和H1处理,去掉结巴分词库里的常用词和符号,得到分词后的文本数据集G2和H2,G2={Text1,Text2,…,TextP},H2={Text1,Text2,…,TextQ};步骤1.4:定义target_name,labels,filenames,contents分别为数据集类别集合、文本标签集合、文本文件名字集合和文本内容集合,满足target_name={labels,filenames,contents};步骤1.5:对G2和H2Bunch类数据化处理,得到Bunch数据类型G2'和H2',G2'={target_name1,target_name2,…,target_nameA},H2'={target_name1,target_name2,…,target_nameB};步骤2:通过词向量空间模型处理G2'中的文本内容,建立词向量空间V1,再映射到H2'中的文本内容,得到词向量空间V2;步骤2.1:使用常用停用词表对G2'和H2'中的文本内容进行停用词过滤处理,得到过滤后的Bunch类数据集G2''和H2'';步骤2.2:通过词向量空间模型建立G2''中文本内容的词向量空间V1,使用权重策略TF-IDF对V1进行处理,得到训练集的二维权重矩阵T1,T1=[v1,v2,…,vm];步骤2.3:将V1词向量空间映射到H2''文本内容上,得到测试集词向量空间V2,使用TF-IDF权重策略处理V2,得到测试集的二维权重矩阵T2,T2=[v1,v2,…,vn];步骤3:通过TF-IDF权重策略处理词向量空间V1和V2,得到权重矩阵T1和T2,将T1矩阵中的权重值和其对应的标签输入用Bagging集成的朴素贝叶斯模型中训练,再输入T2矩阵中的权重值和其对应的标签进行测试,得到预测标签F;步骤3.1:定义R1={r1,r2,…rh1,…,rn1},其中rh1={V1,G2''.labels},rh1表示单词文本向量集中第h个的权重值和标签,变量h∈1,n;步骤3.2:定义R2={r1,r2,…rk2,…,rj2},其中rk2={V2,H2''.labels},rk2表示单词文本向量集中第k个的权重值和标签,变量k∈1,j;步骤3.3:定义n_estimators=35,max_features=0.7,max_samples=0.7,其中n_estimators为模型集成的数量,max_features表示每次随机抽取特征的数量,max_samples表示每次随机抽取样本的数量;步骤3.4:按指定参数抽取R1中的样本输入朴素贝叶斯分类器进行训练;步骤3.5:按指定参数抽取R2的样本进行测试,得到预测标签F,满足F={forecast1,forecast2,…,forecasts…,forecastn_e},其中,forecasts={label1,label2,…,labeln_e},变量s∈1,n_e;步骤4:通过少数服从多数的投票方式处理预测标签F,得到最终短文本分类的结果。

全文数据:

权利要求:

百度查询: 淮阴工学院 一种基于NB-Bagging的短文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。