买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】粒子群算法结合CNN卷积神经网络的文本分类方法_中电万维信息技术有限责任公司_202311647629.0 

申请/专利权人:中电万维信息技术有限责任公司

申请日:2023-12-04

公开(公告)日:2024-04-16

公开(公告)号:CN117891939A

主分类号:G06F16/35

分类号:G06F16/35;G06N3/006;G06N3/0464;G06Q10/10;G06F40/30;G06F18/2415;G06F18/211;G06F18/213

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.03#实质审查的生效;2024.04.16#公开

摘要:本发明涉及文本分类技术领域,特别是粒子群算法结合CNN卷积神经网络的文本分类方法,具体为一种基于自惯性权重自适应粒子群算法结合CNN卷积神经网络的文本分类方法。通过融合FastText与TF‑IDF算法,既能够计算每个词在文档中的频率(TF)和在整个文档集合中的逆文档频率(IDF),来衡量一个词对于文本的重要性,又改进了TF‑IDF无法捕捉到词语之间的语义关系的缺点。使用FastText模型可以学习到词语的语义信息,但它对单词出现次数较少的情况下效果较差。因此,融合TF‑IDF和FastText可以综合利用它们各自的优势,提高模型的性能。

主权项:1.粒子群算法结合CNN卷积神经网络的文本分类方法,其特征在于包括如下步骤:S1、公文词向量构建,包含文本预处理、标签预处理、基于TF-IDF及FastText算法的公文词向量构建三个步骤;所述文本预处理包括数据采集、数据清洗、分词操作、词性标注处理过程;所述标签预处理包含提取公文标签标签、构建公文标签集、序列化数据集标签子集步骤;所述基于TF-IDF及FastText算法的公文词向量构建包括:FastText特征提取、TF-IDF特征提取、特征融合步骤;通过融合FastText与TF-IDF算法,计算每个词在文档中的频率TF和在整个文档集合中的逆文档频率IDF;S2、词向量优化:基于双向注意力机制,分别对正文、标题词向量序列进行序列化编码,得到含有上下文语义信息的正文隐层向量序列和标题隐层向量序列,标题-正文交互:使用协同注意力机制捕捉标题和正文之间的联系,根据词编码层提取的文章信息和标题信息进行信息匹配,通过一个全连接层降维至与原始词向量相同的维度;S3、基于自惯性权重自适应粒子群算法的公文特征集提取:(1)初始化参数:初始化粒子群的规模和维度,粒子的迭代次数、惯性;(2)初始化粒子速度:初始化每个粒子的初始位置x和初始速度v;(3)跟新粒子位置:更新每个粒子的速度和位置;(4)评估:对初始位置的每个粒子计算适应度,即对应位置的目标函数值;(5)更新个体最优位置和全局最优位置:对于每个粒子i,更新其个体最优历史位置p_i,即使得其适应度达到最大值或最小值的位置;同时,根据算法规则选择适应度最好的粒子的位置作为全局最优位置p_g;(6)更新速度和位置:对于每个粒子i,根据上述公式跟新速度和位置,其中,w为自适应惯性权重,c1和c2为加速因子,rand为随机数生成函数;(7)更新自适应参数:根据算法提出的自适应规则,根据粒子群的表现和迭代信息,动态地调整惯性权重w、加速因子c1和c2等参数,以提高粒子群的搜索性能;(8)终止条件:如果满足终止条件,则停止迭代;否则返回第3步;S4、CNN模型下的公文信息识别:在公文信息识别中,采用基于卷积神经网络CNN的方法进行信息处理和分类,整个模型包括输入层、多个卷积层、池化层、全连接层和输出softmax层;每个卷积层包含多个不同的卷积核,记为ω,其中ω∈Rhk,h表示卷积核的高度,k表示词向量的空间维度;卷积核以步长1向下滑动,经过一个大小为h*k的窗口对文本向量进行卷积运算,产生一个新的特征值;对于长度为h+1的词语序列Wi:i+h,其中Wi,Wi+1,...,Wi+h为序列中的词语,使用卷积核矩阵ω进行卷积计算,卷积计算包括对每个窗口进行逐元素相乘,并对结果进行求和,在加上偏置项b(b∈R),最后经过激活函数f进行非线性变换;每个卷积核对文本向量处理后会得到一个特征图c=c1,c2,...,cn-h+1,其中n为公文中词语的个数;使用1-max-pooling的池化层对特征图进行处理,通过选取特征图中的最大值cm=max{c},我们得到了固定长度的特征表示;将池化层的输出作为全连接层的输入,全连接层的大小为p(卷积核的种类)乘以q(每种卷积核的个数);最后,通过输出层的softmax函数对不同类别进行判定,从而实现对公文信息进行分类;softmax函数将模型的输出转化为概率分布,用于确定最终的类别,通过以上步骤的处理和建模,实现公文信息的智能识别和分类;S5、基于公文特征的用户公文画像构建,用户画像是根据用户的公文流转记录、CNN模型下的公文信息识别信息等因素抽象出来的标签化的用户公文模型,在公文流转过程中每一节点的可办公人员列表均已配置好,故在本发明中采用三元素法表示用户画像:{I,N,W}其中I代表办公人员在OA中的ID号,N代表办公人员的姓名+单位+职位+角色,W代表通过上文所述公文智能分类模块算法训练出的基于标签分类的关键词和权重信息,将文档关键词权重的训练结果存储在数据库文件中,选取系统中三个代表性办公人员的用户画像模型,其ID、单位、姓名、职位、角色的对应关系;读取办公人员的历史处理公文,通过CNN模型下的公文分类信息、通过TFIDF算法处理后得到用户画像模型,算法的计算结果为一个列表,列表中的每个元素为元组,元组中的两个元素为关键词在词典中的序号和关键词权重:{I1,W1,I1,W1...},采用词云来对用户画像的关键词权重信息进行可视化显示。

全文数据:

权利要求:

百度查询: 中电万维信息技术有限责任公司 粒子群算法结合CNN卷积神经网络的文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。