【发明授权】一种基于NB-Bagging的短文本分类方法_淮阴工学院_202110079516.X

导航：龙图腾网> 最新专利技术> 一种基于NB-Bagging的短文本分类方法_淮阴工学院_202110079516.X

申请/专利权人：淮阴工学院

申请日：2021-01-21

公开（公告）日：2023-10-13

公开（公告）号：CN112749756B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/216;G06F40/289;G06F18/214;G06F18/2415

优先权：

专利状态码：有效-授权

法律状态：2023.10.13#授权;2021.05.21#实质审查的生效;2021.05.04#公开

摘要：本发明公开了一种基于NB‑Bagging的短文本分类方法，属于文本分类与机器学习领域。针对朴素贝叶斯弱分类器的样本属性关联性差和过拟合问题，提出了一种朴素贝叶斯用Bagging思想集成的短文本分类方法。本方法首先使用结巴分词方法完成文本的分词，然后使用词向量空间模型和TF‑IDF算法来获得特征项和权重矩阵，再通过多个朴素贝叶斯分类器用Bagging方法集成得到多组分类预测标签，最后通过少数服从多数的投票方式得到最终的分类预测标签。本发明实现较高准确度的文本分类，优化了泛化能力和过拟合问题，提高了短文本分类的准确度。

主权项：1.一种基于NB-Bagging的短文本分类方法，其特征在于，包括如下步骤：步骤1：对文本数据集预处理，将数据分为训练集G1和测试集H1，通过结巴分词方法对所述训练集G1和测试集H1进行分词处理，得到文本数据集G2和H2，对所述文本数据集G2和H2进行Bunch类数据化处理，得到Bunch数据类型G2'和H2'；步骤1.1：定义Text为单类文本集，定义label、text、name分别为标签、单个文本和名称，并且满足Text={label,text1,name1,label,text2,name2,…,label,textN,nameN}，texta为Text中第a个文本，namea为Text中第a个文本名称，其中，变量a∈[1,N]；步骤1.2：定义训练集和测试集分别为G1和H1，G1={Text1,Text2,…,TextA}，H1={Text1,Text2,…,TextB}；步骤1.3：使用结巴分词方法对G1和H1处理，去掉结巴分词库里的常用词和符号，得到分词后的文本数据集G2和H2，G2={Text1,Text2,…,TextP}，H2={Text1,Text2,…,TextQ}；步骤1.4：定义target_name,labels,filenames,contents分别为数据集类别集合、文本标签集合、文本文件名字集合和文本内容集合，满足target_name={labels,filenames,contents}；步骤1.5：对G2和H2Bunch类数据化处理，得到Bunch数据类型G2'和H2'，G2'={target_name1,target_name2,…,target_nameA}，H2'={target_name1,target_name2,…,target_nameB}；步骤2：通过词向量空间模型处理G2'中的文本内容，建立词向量空间V1，再映射到H2'中的文本内容，得到词向量空间V2；步骤2.1：使用常用停用词表对G2'和H2'中的文本内容进行停用词过滤处理，得到过滤后的Bunch类数据集G2''和H2''；步骤2.2：通过词向量空间模型建立G2''中文本内容的词向量空间V1，使用权重策略TF-IDF对V1进行处理，得到训练集的二维权重矩阵T1，T1=[v1,v2,…,vm]；步骤2.3：将V1词向量空间映射到H2''文本内容上，得到测试集词向量空间V2，使用TF-IDF权重策略处理V2，得到测试集的二维权重矩阵T2，T2=[v1,v2,…,vn]；步骤3：通过TF-IDF权重策略处理词向量空间V1和V2，得到权重矩阵T1和T2，将T1矩阵中的权重值和其对应的标签输入用Bagging集成的朴素贝叶斯模型中训练，再输入T2矩阵中的权重值和其对应的标签进行测试，得到预测标签F；步骤3.1：定义R1={r1,r2,…rh1,…,rn1}，其中rh1={V1,G2''.labels}，rh1表示单词文本向量集中第h个的权重值和标签，变量h∈1,n；步骤3.2：定义R2={r1,r2,…rk2,…,rj2}，其中rk2={V2,H2''.labels}，rk2表示单词文本向量集中第k个的权重值和标签，变量k∈1,j；步骤3.3：定义n_estimators=35，max_features=0.7,max_samples=0.7，其中n_estimators为模型集成的数量，max_features表示每次随机抽取特征的数量，max_samples表示每次随机抽取样本的数量；步骤3.4：按指定参数抽取R1中的样本输入朴素贝叶斯分类器进行训练；步骤3.5：按指定参数抽取R2的样本进行测试，得到预测标签F，满足F={forecast1,forecast2,…,forecasts…,forecastn_e}，其中，forecasts={label1,label2,…,labeln_e}，变量s∈1,n_e；步骤4：通过少数服从多数的投票方式处理预测标签F，得到最终短文本分类的结果。

全文数据：

权利要求：

百度查询：淮阴工学院一种基于NB-Bagging的短文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种富氦气藏区带的评价方法、装置、设备及介质_中国石油天然气股份有限公司_202311208279.8

下一篇：一种蜡样芽孢杆菌YZ-228发酵制剂及其制备方法和应用_吉林农业大学_202310313518.X

相关技术

一种富氦气藏区带的评价方法、装置、设备及介质_中国石油天然气股份有限公司_202311208279.8

一种蜡样芽孢杆菌YZ-228发酵制剂及其制备方法和应用_吉林农业大学_202310313518.X

用于运行机动车的方法、调节装置和机动车_奥迪股份公司_202110617439.9

一种基于动网格模拟隧道列车运动的结构网格划分方法_天津大学_202111426137.X

一种乘用车极限强度冲击试验平台辅助装置_中汽研汽车试验场股份有限公司_201911236112.6

一种基于计算机视觉的肺区区域分割系统_东莞理工学院_202210022595.5

一种基于Flink流处理的地铁轨道几何检测数据清洗方法_成都国铁电气设备有限公司_202210023454.5

消息的发送方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202210060996.X

基于对抗样本的人体康复运动数据增强方法_大连海事大学_202110864746.7

验证转化回传数据方法、装置、计算机设备和存储介质_上海数禾信息科技有限公司_202311042515.3

一种焊枪铜线的自动夹扣装置_温州技师学院_201910988267.9

基于无监督学习的多视角显著性估计方法_西北工业大学_202011250827.X

文本相关技术

文本识别方法、文本识别装置、介质与电子设备_OPPO广东移动通信有限公司_202211407144.X

文本颜色确定方法及装置_珠海金山办公软件有限公司_202211401674.3

基于文本挖掘和自然语言处理的地质报告文本可视化方法_中国地质大学(武汉)_202011111355.X

基于富文本编辑器的文本结构化方法及装置、介质及设备_医渡云(北京)技术有限公司_202211058751.X

文本压缩方法、装置、存储介质及电子设备_度小满科技(北京)有限公司_202410038920.6

一种文本处理方法及系统_联通沃音乐文化有限公司_202311227355.X

文本显示方法、装置、电子设备及存储介质_维沃移动通信有限公司_202110407700.2

文本定位方法、装置、设备及存储介质_珠海莫界科技有限公司_202311805366.1

文本搜索提速方法、装置、设备及存储介质_北京中科闻歌科技股份有限公司_202410198070.6

一种文本聚类的方法及装置_平安科技(深圳)有限公司_202010038156.4

NB-Bagging相关技术

NB-Iot智能水表错峰上传数据的方法、系统和NB-Iot智能水表_深圳市敏泰智能科技有限公司_202110827563.8

一种基于NB-IOT的非地面网络通讯方法及通讯终端_上海移芯通信科技股份有限公司_202410257060.5

一种Si-Mn-Cr-Mo-V-Ti-Nb多元合金化超高强度盘条及其制备方法_钢铁研究总院有限公司_202410021243.7

一种超薄型膜片舰船动力装备用05Cr17Ni4Cu4Nb不锈钢钢锭及其制备方法和应用_浙江大隆新材料股份有限公司_202410349254.8

一种NB联网的户外功率放大器_南京迈科拓通讯有限公司_202322272421.7

Sn₂Nb₂O₇光阳极材料及Sn₂Nb₂O₇光电极薄膜_辽宁大学_201711170982.9

一种低轨卫星下NB-IoT终端随机接入参数动态配置方法_南京邮电大学_202410139359.0

一种Nb-Ti微合金化低成本贝氏体非调质钢及其制造工艺和应用_马鞍山钢铁股份有限公司_202410088115.4

一种汽车用高强高韧含Nb免热处理铝硅铜镁合金及其制备方法_北京科技大学_202311753484.2

单域抗体双特异性T细胞激动剂CD3-CD105/Nb-BiTE及其制备方法与应用_广西医科大学_202211385227.3

方法相关技术

制造方法_意法半导体(克洛尔2)公司_202311475458.8

训练数据生成方法、图像检测方法、图像分类方法及装置_第四范式(北京)技术有限公司_202211345497.1

图像特征处理方法、图像对比方法、模型训练方法及装置_浙江深象智能科技有限公司_202410418358.X

编码方法、解码方法和处理比特流的方法_松下电器(美国)知识产权公司_202410304249.5

增殖方法_花王株式会社_202080014224.1

控制棒组件的安装方法、取出方法以及更换方法_中国原子能科学研究院_202111129136.9

排烟机拖车及其掉头方法、自行行走方法_苏州瑞奇安机电科技有限公司_202410210474.2

视频处理方法、影视视频处理方法及装置_阿里巴巴集团控股有限公司_202010147566.2

半导体结构及其制备方法、晶圆切割方法_北京弘图半导体有限公司_202410157714.7

喷墨记录方法及层合体的制造方法_富士胶片株式会社_202280064929.3

龙图腾网&IPTOP

【发明授权】一种基于NB-Bagging的短文本分类方法_淮阴工学院_202110079516.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务