首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于双对抗变分自编码器的小样本分类方法_暨南大学;中通服建设有限公司_202111432553.0 

申请/专利权人:暨南大学;中通服建设有限公司

申请日:2021-11-29

公开(公告)日:2024-05-17

公开(公告)号:CN114120041B

主分类号:G06V10/764

分类号:G06V10/764

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2022.03.18#实质审查的生效;2022.03.01#公开

摘要:本发明公开了一种基于双对抗变分自编码器的小样本分类方法,解决现有分类方法在小样本下网络难以训练、准确率较低的问题。该分类方法包括:数据预处理,对目标数据集进行清洗、填充和归一化;模型设计与优化步骤,利用VAE和GAN设计相应的网络结构,并针对过拟合和训练产生震荡等问题进行模型的优化;模型训练步骤,利用小样本数据集对模型进行训练,进而获得网络模型权重;模型预测步骤,输入测试集对模型进行预测,对比现有的一些经典深度学习分类方法,验证本发明的有效性。本发明公开的方法中构建的模型能够在小样本情况下实现数据增强,并且能够提取有效特征从而提高分类的准确率,普遍适用于不同类型的分类任务。

主权项:1.一种基于双对抗变分自编码器的小样本分类方法,其特征在于,所述小样本分类方法包括下列步骤:S1、数据预处理,对待分类数据进行清洗、填充和归一化,并划分成训练集和测试集,所述待分类数据为血液细胞数据集和手写数字数据集,所述血液细胞数据集包括红细胞、白细胞和血小板的浓度指标,所述手写数字识别数据集包括0-9的手写数字;S2、构建基于双对抗变分自编码器的小样本分类网络模型,该网络模型包括三个级联的子网络,分别是对数据进行特征编码的特征编码子网络、对数据进行扩充并对扩充数据以及其特征编码进行判别的数据增强子网络和对数据进行分类的分类子网络;其中,所述特征编码子网络的输入是原始数据x,输出是经编码后的重构数据x′;特征编码子网络包括变分自编码器VAE,变分自编码器VAE包括一个编码器网络D和一个解码器网络E,其中,编码器网络D将原始数据x投影到特定的潜在空间中,解码器网络E通过在潜在空间采样还原原始数据x,从而实现原始数据x的特征编码;所述数据增强子网络的输入是原始数据x,输出是扩充数据x″,数据增强子网络用于对小样本数据进行扩充;将原始数据x送入特征编码子网络的编码器网络D中进行特征编码得到z*,将特征编码z*联合真实标签y送入数据增强子网络中得到扩充数据x″,将扩充数据x″输入编码器网络D中进行特征编码得到z″,使用生成对抗网络GAN对扩充数据x″及其特征编码z″进行对抗训练,所述数据增强子网络包括数据判别子网络Dx和特征判别子网络Dz,分别用于判别数据增强子网络生成的扩充数据x″与原始数据x的差异,以及扩充数据x″进行特征编码生成的特征编码z″与变分自编码器VAE中先验分布z的差异;所述分类子网络,用于完成分类,输入是原始数据x,输出是模型分类正确的概率,所述分类子网络使用特征编码子网络中的编码器网络D作为神经网络;S3、模型训练,输入训练集,对特征编码子网络、数据增强子网络以及分类子网络设计损失函数,通过梯度下降来更新网络的参数,实现基于双对抗变分自编码器的小样本分类网络模型的收敛;所述步骤S3中模型训练通过优化损失函数,实现模型的收敛,其中,所述损失函数设计过程如下:优化特征编码子网络生成的重构数据x′与原始数据x之间的差异:设置特征编码子网络损失函数,如下所示:LVAE=-EQZ|X[logPx|z]+DKL[Qz|x||Pz]该损失函数由极大似然估计和后验概率组成,其中,Qz|x表示近似后验概率分布,Px|z表示VAE的解码器,Pz表示z的原始分布,DKL表示计算KL散度;优化条件式判别子网络的差异:设置条件式判别网络损失函数,即判别生成的扩充数据x″和原始数据x、扩充数据x″对应的特征编码z″和先验分布z之间的差异,条件式表达损失函数设计如下: 其中,m表示样本大小,xi、yi、zi分别表示第i个样本、第i个样本的标签以及对第i个样本进行先验分布的采样;x″i和z″i代表通过第i个样本生成的扩充数据以及其特征编码;Dxxi,yi与Dxx″i,yi是GAN加入标签信息y后,数据判别子网络Dx对原始数据x和扩充数据x″的评判结果,Dzzi与Dzz″i分别为特征判别子网络Dz对先验分布z和特征编码z″的评判结果,该网络的目标是最大化LD的值,优化判别器参数;优化条件式生成网络的差异:设置条件式生成网络损失函数,通过判别器对扩充数据x″i即其特征编码z″i的判别结果来更新生成网络的参数,条件式表达损失函数设计如下: 其中,Dzz″i是特征判别子网络Dz对特征编码z″的评判结果,Dxx″i,yi是数据判别子网络Dx对扩充数据x″的评判结果,该网络的目标是最小化LG的值,优化生成器的参数;优化分类子网络中的分类结果与真实标签之间的差异:设置分类子网络损失函数如下所示: 其中,n表示标签类别数,当标签采用one-hot形式时,yij表示第i个样本真实标签第j个位置的值,y′ij表示第i个样本预测标签第j个位置的值;整个小样本分类网络模型的损失函数如下:L=LVAE-LD+LG+LC;S4、模型预测,输入测试集,利用分类子网络,完成小样本的分类结果,得到小样本分类网络模型的分类准确率,其中,血液细胞数据集分类结果包括以下三种:血液细胞浓度指标正常、血液细胞浓度指标低于正常值、血液细胞浓度指标超过正常值一个数量级以上;手写数字数据集的分类结果为识别图片表示的0-9的数字。

全文数据:

权利要求:

百度查询: 暨南大学;中通服建设有限公司 一种基于双对抗变分自编码器的小样本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。