【发明公布】粒子群算法结合CNN卷积神经网络的文本分类方法_中电万维信息技术有限责任公司_202311647629.0

申请/专利权人：中电万维信息技术有限责任公司

申请日：2023-12-04

公开（公告）日：2024-04-16

公开（公告）号：CN117891939A

主分类号：G06F16/35

分类号：G06F16/35;G06N3/006;G06N3/0464;G06Q10/10;G06F40/30;G06F18/2415;G06F18/211;G06F18/213

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.03#实质审查的生效;2024.04.16#公开

摘要：本发明涉及文本分类技术领域，特别是粒子群算法结合CNN卷积神经网络的文本分类方法，具体为一种基于自惯性权重自适应粒子群算法结合CNN卷积神经网络的文本分类方法。通过融合FastText与TF‑IDF算法，既能够计算每个词在文档中的频率（TF）和在整个文档集合中的逆文档频率（IDF），来衡量一个词对于文本的重要性，又改进了TF‑IDF无法捕捉到词语之间的语义关系的缺点。使用FastText模型可以学习到词语的语义信息，但它对单词出现次数较少的情况下效果较差。因此，融合TF‑IDF和FastText可以综合利用它们各自的优势，提高模型的性能。

主权项：1.粒子群算法结合CNN卷积神经网络的文本分类方法，其特征在于包括如下步骤：S1、公文词向量构建，包含文本预处理、标签预处理、基于TF-IDF及FastText算法的公文词向量构建三个步骤；所述文本预处理包括数据采集、数据清洗、分词操作、词性标注处理过程；所述标签预处理包含提取公文标签标签、构建公文标签集、序列化数据集标签子集步骤；所述基于TF-IDF及FastText算法的公文词向量构建包括：FastText特征提取、TF-IDF特征提取、特征融合步骤；通过融合FastText与TF-IDF算法，计算每个词在文档中的频率TF和在整个文档集合中的逆文档频率IDF；S2、词向量优化：基于双向注意力机制，分别对正文、标题词向量序列进行序列化编码，得到含有上下文语义信息的正文隐层向量序列和标题隐层向量序列，标题-正文交互：使用协同注意力机制捕捉标题和正文之间的联系，根据词编码层提取的文章信息和标题信息进行信息匹配，通过一个全连接层降维至与原始词向量相同的维度；S3、基于自惯性权重自适应粒子群算法的公文特征集提取：（1）初始化参数：初始化粒子群的规模和维度，粒子的迭代次数、惯性；（2）初始化粒子速度：初始化每个粒子的初始位置x和初始速度v；（3）跟新粒子位置：更新每个粒子的速度和位置；（4）评估：对初始位置的每个粒子计算适应度，即对应位置的目标函数值；（5）更新个体最优位置和全局最优位置：对于每个粒子i，更新其个体最优历史位置p_i，即使得其适应度达到最大值或最小值的位置；同时，根据算法规则选择适应度最好的粒子的位置作为全局最优位置p_g；（6）更新速度和位置：对于每个粒子i，根据上述公式跟新速度和位置，其中，w为自适应惯性权重，c1和c2为加速因子，rand为随机数生成函数；（7）更新自适应参数：根据算法提出的自适应规则，根据粒子群的表现和迭代信息，动态地调整惯性权重w、加速因子c1和c2等参数，以提高粒子群的搜索性能；（8）终止条件：如果满足终止条件，则停止迭代；否则返回第3步；S4、CNN模型下的公文信息识别：在公文信息识别中，采用基于卷积神经网络CNN的方法进行信息处理和分类，整个模型包括输入层、多个卷积层、池化层、全连接层和输出softmax层；每个卷积层包含多个不同的卷积核，记为ω，其中ω∈Rhk，h表示卷积核的高度，k表示词向量的空间维度；卷积核以步长1向下滑动，经过一个大小为h*k的窗口对文本向量进行卷积运算，产生一个新的特征值；对于长度为h+1的词语序列Wi:i+h，其中Wi,Wi+1,...,Wi+h为序列中的词语，使用卷积核矩阵ω进行卷积计算，卷积计算包括对每个窗口进行逐元素相乘，并对结果进行求和，在加上偏置项b（b∈R），最后经过激活函数f进行非线性变换；每个卷积核对文本向量处理后会得到一个特征图c=c1,c2,...,cn-h+1，其中n为公文中词语的个数；使用1-max-pooling的池化层对特征图进行处理，通过选取特征图中的最大值cm=max{c}，我们得到了固定长度的特征表示；将池化层的输出作为全连接层的输入，全连接层的大小为p（卷积核的种类）乘以q（每种卷积核的个数）；最后，通过输出层的softmax函数对不同类别进行判定，从而实现对公文信息进行分类；softmax函数将模型的输出转化为概率分布，用于确定最终的类别，通过以上步骤的处理和建模，实现公文信息的智能识别和分类；S5、基于公文特征的用户公文画像构建，用户画像是根据用户的公文流转记录、CNN模型下的公文信息识别信息等因素抽象出来的标签化的用户公文模型，在公文流转过程中每一节点的可办公人员列表均已配置好，故在本发明中采用三元素法表示用户画像：{I,N,W}其中I代表办公人员在OA中的ID号，N代表办公人员的姓名+单位+职位+角色，W代表通过上文所述公文智能分类模块算法训练出的基于标签分类的关键词和权重信息，将文档关键词权重的训练结果存储在数据库文件中，选取系统中三个代表性办公人员的用户画像模型，其ID、单位、姓名、职位、角色的对应关系；读取办公人员的历史处理公文，通过CNN模型下的公文分类信息、通过TFIDF算法处理后得到用户画像模型，算法的计算结果为一个列表，列表中的每个元素为元组，元组中的两个元素为关键词在词典中的序号和关键词权重：{I1,W1,I1,W1...},采用词云来对用户画像的关键词权重信息进行可视化显示。

全文数据：

权利要求：

百度查询：中电万维信息技术有限责任公司粒子群算法结合CNN卷积神经网络的文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：浓缩机物料预处理设备_淮北市宇达矿山机械有限公司_202322524957.3

下一篇：一种信息读取模组及终端_东集技术股份有限公司_202322635210.5

相关技术

浓缩机物料预处理设备_淮北市宇达矿山机械有限公司_202322524957.3

一种信息读取模组及终端_东集技术股份有限公司_202322635210.5

一种商用燃气蒸饭柜_安徽铂悦厨业科技股份有限公司_202322509637.0

一种建筑施工场地用废水处理装置_合肥翊安建筑工程有限公司_202322586658.2

一种锂电池保护板散热结构_深圳市海马士电子有限公司_202322405576.3

一种加强型装配式钢结构节点_广西建设职业技术学院_202322606607.1

一种新型船舶热交换器_南通海利源船舶设备工程有限公司_202322457448.3

一种消防机器人探测头清理装置_海南山新消防科技有限公司_202322547152.0

一种具有伸缩式笔盖功能的硅胶笔_富东新材料科技(东莞)有限公司_202322580378.0

一种用于公路施工的防撞装置_江苏常鑫路桥集团有限公司_202322375940.6

一种污水处理用药剂投放机_常州市尚明环保科技有限公司_202322438903.5

微光与长波红外双波段共口径光学系统_烟台艾睿光电科技有限公司_202322432284.9

神经相关技术

植入式神经刺激延伸导线_常州瑞神安医疗器械有限公司_202111061293.0

图像深度预测神经网络_谷歌有限责任公司_202010612045.X

用于神经渲染的多核系统_上海科技大学_202180102463.7

治疗神经退行性疾病的方法_上海日馨医药科技股份有限公司_202280060164.6

一种神经外科头部固定护理装置_海口市人民医院(中南大学湘雅医学院附属海口医院)_202410300938.9

一种神经外科脑部手术辅助仪_山东省公共卫生临床中心_202410298405.1

神经网络剪枝方法及相关装置_哲库科技(上海)有限公司_202211271227.0

一种神经内科疼痛缓解设备_安建华_202210074177.0

基于图神经网络的客户画像分析方法_上海栈略数据技术有限公司_202311741157.5

神经电刺激电极组件及其制备方法_北京品驰医疗设备有限公司_201910339477.5

积相关技术

一种积层板自动焊锡装置_苏州市勤基电子科技有限公司_202322373311.X

一种防积灰翅片管省煤器结构_洛阳星利达热力设备有限公司_202322551472.3

船舶积载图绘制方法和系统_烟台中理外轮理货有限公司_202410216950.1

倾角可调式混凝土受料仓聚拢清理积料装置_中国水利水电第四工程局有限公司_202322803011.0

一种检测催化剂积碳组成的方法_国家能源投资集团有限责任公司_202010850137.1

一种光伏组串积尘检测方法、装置及系统_合肥零碳技术有限公司_202011222497.3

具备冷却和防止积灰功能的长喷管激波吹灰器_中船重工(上海)新能源有限公司_201910442922.0

一种密封带式提升机用清积料机构_河南长兴实业有限公司_202322286016.0

一种铣刨料烘干桶积料处理装置_江苏新越沥青产业研发有限公司_202210593544.8

一种阻碍内部裂隙扩展的风积沙路面基料及其制备方法_中国水利水电第十四工程局有限公司_202410030925.4

CNN相关技术

基于Mask R-CNN的淀粉颗粒识别方法_华南理工大学_202111027701.0

一种基于MDS-CNN的干扰信号分类识别方法及系统_吉林大学_202111236109.1

基于注意力的CNN-BiLSTM算法的车联网入侵检测方法及系统_北京邮电大学_202410014699.0

一种基于CNN卷积神经网络的智能室内灯检测装置及方法_常州星宇车灯股份有限公司_202410353973.7

基于射频指纹技术与CNN-BILSTM的LoRa网络安全身份认证方法_山西警察学院_202410131510.6

一种基于CNN-BILSTM和KF相结合超短期电力系统负荷预测方法_沈阳化工大学_202410028016.7

一种基于Embedding-CNN的混合车群运动演化规律的刻画方法_重庆大学_202210359994.0

基于多特征感知的Faster R-CNN的探地雷达空洞目标识别方法_哈尔滨工业大学_202311147890.4

基于双支路CNN-Transformer的高光谱与LiDAR协同农作物精准分类方法_哈尔滨理工大学_202311282162.4

基于优化Mask R-CNN的小样本卫星雷达图像帆板识别和分割方法_南京航空航天大学_202310035501.2

龙图腾网&IPTOP

【发明公布】粒子群算法结合CNN卷积神经网络的文本分类方法_中电万维信息技术有限责任公司_202311647629.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务