买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种受优化算法启发的深度神经网络结构设计方法_北京大学_201810958553.6 

申请/专利权人:北京大学

申请日:2018-08-22

公开(公告)日:2021-11-19

公开(公告)号:CN108985457B

主分类号:G06N3/08(20060101)

分类号:G06N3/08(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.11.19#授权;2019.01.04#实质审查的生效;2018.12.11#公开

摘要:本发明公布了一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数Fx的迭代过程;进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数Fx,由此得到新的性能更好的网络结构;可应用于人工智能、计算机视觉等应用领域。采用本发明技术方案,从优化算法出发设计神经网络结构,能够改进传统的依靠经验、实验尝试搜索的设计方式,得到更高效的神经网络结构,从而节省大量的时间与计算资源。

主权项:1.一种用于计算机视觉处理的受优化算法启发的深度神经网络结构设计方法,将所述受优化算法启发的深度神经网络结构设计方法用于人脸识别,高效地设计深度神经网络的结构;对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数Fx的迭代过程;进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数Fx,由此得到新的性能更好的网络结构;包括如下步骤:1在所有层共享相同的线性变换的前馈神经网络中,第k层的输出xk和第k+1层的输出xk+1的关系表示为式1:xk+1=φWxk式1其中,φ是激活函数;W是线性变换;x为网络输出;xk为第k层的输出,xk+1为第k+1层的输出;2针对不同的激活函数φ,找到具体的函数Fx,使用梯度下降法对函数Fx最小化,使得式1等价于式2: 式2中,表示Fx的梯度;通过式2使得前馈神经网络中的前向过程等价于使用梯度下降法最小化函数Fx;3采用重球法或Nesterov加速算法最小化该函数Fx,得到相应深度神经网络的结构;分别执行如下操作:3A使用重球法最小化函数Fx:在第k次迭代,迭代公式表示为式3: 其中,β为待定常数;式3等价于式4所示的前向过程:xk+1=φWxk+βxk-xk-1式4由此得到相应深度神经网络的结构,称为重球算法网络HB-Net;3B采用Nesterov加速算法最小化函数Fx:在第k次迭代,迭代公式表示为式5: 其中, 式5等价于式6所示前向过程: 由此得到相应神经网络的结构,称为加速算法网络AGD-Net;进一步定义元操作拓展重球算法网络HB-Net和加速算法网络AGD-Net的网络结构;元操作包括:A.定义元操作松弛φ和W,将全连接的线性变换松弛为卷积操作,且允许不同的层具有不同的权重;将激活函数φ松弛为BN操作,且允许φ为激活函数、pooling、BN、卷积和全连接线性变换的复合操作;B.定义元操作自适应参数,重球算法网络HB-Net和加速算法网络AGD-Net中的系数β和hk,j自由设置,并使其在训练过程中由学习得到;将重球算法网络HB-Net和加速算法网络AGD-Net网络结构变为如下公式:xk+1=Txk+β1xk+β2xk-1式7 其中,β1、β2、αk+1,j、βk+1,j均为待定系数;C.定义元操作块结构,将网络分为多个前向连接的块,在每个块内使用式7和8表示的网络结构;D.将所述受优化算法启发的深度神经网络结构设计方法用于人脸识别,具体包括如下步骤:D1采集人脸数据;对输入的人脸图像数据进行图像预处理,并进行归一化;D2建立人脸识别问题的目标函数,所述目标函数对应神经网络的损失函数;具体选用Center-loss,L-softmax建立损失函数Fx,从而最大化类间方差,最小化类内方差;D3通过所述受优化算法启发的深度神经网络结构设计方法,得到深度神经网络HB-Net或AGD-Net;D4确定网络结构的总层数、特征长度,可采用多个HB-Net或AGD-Net的网络结构;并确定网络训练的超参数;D5利用人脸图像数据进行网络训练,得到训练好的网络;D6利用训练好的深度神经网络判断输入人脸图像的标签,实现人脸识别。

全文数据:一种受优化算法启发的深度神经网络结构设计方法技术领域[0001]本发明涉及深度神经网络结构设计技术领域,尤其涉及一种受优化算法启发的深度神经网络结构设计方法。背景技术[0002]随着近年来图像处理器GPU计算能力的飞速发展,以及人们能获得的数据量越来越大,深度神经网络在计算机视觉、图像处理和自然语言处理等领域获得了广泛应用。自从2012年深度神经网络在ImageNet分类任务上取得了突破性进展之后,研究者提出了多种不同网络,并且其结构不局限于经典的前馈神经网络结构。在前馈网络结构中,每个神经元只和其后的神经元相连。典型的例子包括文献[1]He,K.,Zhang,X.,Ren,S.,andSun,J.Deepresiduallearningforimagerecognition.InCVPR,2015记载的ResNet和文南犬[2]Huang,G.,Liu,Z.,vanderMaaten,L.,andWeinberger,K.Q.Denselyconnectedconvolutionalnetworks.InCVPR,2017记载的DenseNet,其中前者在传统的前馈网络结构上增加了旁支,后者允许每个神经元和它之后的所有神经元相连。[0003]基于卷积神经网络的深度模型在一系列领域取得了广泛的应用,比如自动驾驶、人脸识别、图像识别、检测等等。尽管目前广泛采用的一系列网络结构在性能上相比传统方法具有很大的优势,但是这一系列的网络结构在设计上缺乏准则,更多的是依靠经验摸索与不断的实验调试来确定最终的网络结构。所以研究者在设计新网络结构时具有一定的盲目性,缺乏指导性。[0004]已有的网络结构设计工作主要是基于搜索的启发式方法。在网络结构设计的早期阶段,文献[3]Schaffer,J.D.,Whitley,D.,andEshelman,L.J.Combinationsofgeneticalgorithmsandneuralnetworks:Asurveyofthestateoftheart.InInternationalWorkshoponCombinationsofGeneticAlgorithmsandNeuralNetworks,1992·、文南犬[4]Lam,H.K·,Leung,F·H.F·,andTam,P.K.S.Tuningofthestructureandparametersofaneuralnetworkusinganimprovedgeneticalgorithm.IEEETrans.onNeuralNetworks,14:79-88,2003.均记载了使用遗传算法寻找最优的网络结构和连接权重,但是通常情况下,文献[5]Verbancsics,P.andHarguess,J.Generativeneuroevolutionfordeeplearning.Inarxiv:1312.5355,2013指出,使用遗传算法设计出的网络结构要比手工设计的网络结构效果更差。文献[6]Domhan,T.,Springenberg,J.T.,andHutter,F·Speedingupautomatichyperparameteroptimizationofdeepneuralnetworksbyextrapolationoflearningcurves.InIJCAI,2015使用贝叶斯策略搜索网络结构。文献[7]Kwok,T.andYeung,D.Constructivealgorithmsforstructurelearningfeedforwardnerualnetworksforregressionproblems.IEEETrans.onNeuralNetworks,8⑶:630-645,1997.、文献[8]Ma,L.andKhorasani,K.Anewstrategyforadaptivelyconstructingmultiplayerfeedforwardneuralnetworks.Neurocomputing,51:361-385,2003、文南犬[9]Cortes,C.,Gonzalvo,X.,Kuznetsov,V.,Mohri,M.,andYang,S.AdaNet:Adaptivestructurelearningofartificialneuralnetworks.InICML,2017.使用自适应策略来搜索网络结构,具体做法为从一个相对较小的网络结构基于某种原则一层一层地加深网络,相应的原则包括平衡模型复杂度和经验损失最小。文献[10]Baker,B.,Gupta,0.,Naik,N.,andRaskar,R.Designingneuralnetworkarchitecturesusingreinforcemenlearning.Inarxiv:1611.02167,2016、文献[11]Zoph,B.andLe,Q.V.Neuralarchitecutresearchwithreinforcementlearning.InCoRR,2016使用强化学习来搜索网络结构。所有上述策略都是基于搜索的启发式策略,即在特定的搜索空间中搜索一个尽可能好的网络结构。因此,基于搜索的方法需要在巨大的搜索空间中搜索出最优策略,当搜索空间巨大且计算能力有限时,现有的基于搜索的方法无法设计出有效的网络结构。发明内容[0005]为了克服上述现有技术的不足,本发明提供一种受优化算法启发的深度神经网络结构的设计方法,以得到新的性能更好的网络结构。[0006]本发明的技术方案是:[0007]—种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数FX的迭代过程;进一步采用收敛速度更快的重球法HeavyBallmethod和Nesterov加速算法AcceleratedGradientmethod最小化该函数Fx,由此得到新的性能更好的网络结构。具体包括如下步骤:[0008]1在所有层共享相同的线性变换的前馈神经网络中,第k层的输出处和第k+Ι层的输出Xk+l的关系表不为式1:[0009]xk+i=ΦWxk式I其中,Φ是激活函数,例如Sigmoid或ReLU;W是线性变换;a为第k层的输出,xk+1为第k+1层的输出。[0010]2针对不同的激活函数Φ,找到具体的函数FX,使得式1等价于式2:[0011]式2[0012]其中VFX表示FX的梯度。在优化理论中,式2表示使用梯度下降法对函数FX最小化,即使得前馈神经网络中的前向过程等价于使用梯度下降法最小化某个函数FX。[0013]3采用重球法或Nesterov加速算法最小化该函数FX,得到相应深度神经网络的结构。分别执行如下操作:[0014]3A使用重球法最小化函数FX:[0015]3A1在第k次迭代,迭代公式表示为式3:[0016]式3[0017]其中,β为待定常数;[0018]3Α2式3等价于式4所示的前向过程:[0019]Xk+1=JWxk+Pxk-xk-i试4[0020]3A3得到相应深度神经网络的结构,本发明称为HB-NetHeavyBallNetwork,重球算法网络);[0021]3B采用Nesterov加速算法最小化函数FX:[0022]3B1在第k次迭代,迭代公式表示为式5:[0023]式5[0028]式6[0024]其中[0025][0026][0027]3B2式5等价于式6所示前向过程:[0029]3B3得到相应神经网络的结构,本发明称为AGD-NetAcceleratedGradientDescentNetwork-加速算法网络)。[0030]本发明所提出的受优化算法启发的深度神经网络结构设计,可以应用于人工智能、计算机视觉技术如人脸识别等应用中。通过采用本发明方法,可以更高效地设计深度神经网络的结构,从而节省大量的时间与计算资源,并且能够取得同等的表现水平。[0031]与现有技术相比,本发明取得的技术效果为:[0032]本发明提供一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的前馈网络结构,在该前馈网络中的前向过程中,采用重球法和Nesterov加速算法,对函数FX进行最小化,由此得到新的性能更好的网络结构,在测试神经网络的标准数据集CIFAR和ImageNet上,本发明提出的网络结构比经典的ResNet和DenseNet结构需要更少的层数以达到相同的拟合误差,或具有更低的分类错误率。因此,采用本发明技术方案,从优化算法出发设计神经网络结构,能够改进传统的依靠经验、实验尝试搜索的设计方式,得到更高效的神经网络结构,从而节省大量的时间与计算资源。附图说明[0033]图1为采用本发明方法得到的深度神经网络的结构,[0034]其中,(a为HB-Net网络结构;⑹为AGD-Net网络结构;T表示在一个神经元内部的线性及非线性操作;+表示线性求和。[0035]图2是本发明网络结构设计方法的流程框图。具体实施方式[0036]下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。[0037]本发明可以应用于任何使用深度神经网络的场合,比如图像分类、物体检测、文字识别等等,但这里仅举一个实施例,即将本发明应用于人脸识别问题。人脸识别系统主要包含四个组成部分,分别为人脸图像采集及检测、人脸图像预处理、人脸图像特征提取和构建分类器对人脸特征进行识别。深度卷积神经网络同时包含特征提取和特征识别过程,并且性能优于基于特征脸、支持向量机、线段Hausdorff距离等其他人脸识别方法。[0038]本实施例具体包括如下步骤:[0039]步骤1,采集人脸数据;[0040]通过摄像镜头来采集人脸的静态图像和动态图像,一般要包含不同位置、不同相貌与表情等,从而增大数据集的多样性,使得训练所得模型具有较好的泛化能力。[0041]步骤2,建立人脸识别问题的目标函数,所述目标函数对应神经网络的损失函数;[0042]在具体实现中,一般多采用交叉熵作为损失函数,根据问题特点,也可以采用其他目标函数。由于人脸识别问题中,数据的分布一般呈现类间方差较小的特点,所以也可以选用Center-loss,L-softmax等建立损失函数FX,从而最大化类间方差,最小化类内方差。[0043]步骤3,选择用于识别的深度神经网络,通过本发明方法得到深度神经网络HB-Net或AGD-Net;通过HB-Net或AGD-Net实现人脸特征提取和特征识别;[0044]在本发明的实施例中,可选择任何一个优化算法,根据其迭代步骤设计相应的深度神经网络,比如选择重球法或Nesterov加速算法,通过本发明的网络结构设计方法,得到对应的深度神经网络(即HB-Net或AGD-Net。[0045]针对选择用于识别的深度神经网络,即所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化步骤二中建立的目标函数FX;采用收敛速度更快的重球法HeavyBallmethod和Nesterov加速算法AcceleratedGradientmethod最小化该函数Fx,由此得到新的性能更好的网络结构;具体包括如下步骤:[0046]1在所有层共享相同的线性变换的前馈神经网络中,第k层的输出处和第k+1层的输出Xk+l的关系表不为式1:[0047]xk+i=ΦWxk式I[0048]其中,Φ是激活函数,例如Sigmoid或ReLU;W是线性变换;Xk为第k层的输出,》+1为第k+Ι层的输出。[0049]2针对不同的激活函数Φ,找到具体的函数FX,使得式7等价于式2:[0050]式2[0051]在优化理论中,式2表示使用梯度下降法对函数FX最小化,即使得前馈神经网络中的前向过程等价于使用梯度下降法最小化某个函数FX。[0052]3采用重球法或Nesterov加速算法最小化该函数FX,得到相应深度神经网络的结构。分别执行如下操作:[0053]3A使用重球法最小化函数FX:[0054]3A1在第k次迭代,迭代公式表示为式3:[0055]式3[0056]其中,β为待定常数;[0057]3Α2式3等价于式4所示的前向过程:[0058]xk+i=ΦWxk+βxk-xk-i式4[0059]3A3得到相应深度神经网络的结构,本发明称为HB-NetHeavyBallNetwork,重球算法网络);[ΟΟόΟ]3B采用Nesterov加速算法最小化函数FX:[0061]3B1在第k次迭代,迭代公式表示为式5:[0062]式5[0063]其中,[[[0066]3B2式5等价于式6所示前向过程:式6[0068]3B3得到相应神经网络的结构,本发明称为AGD-NetAcceleratedGradientDescentNetwork-加速算法网络)。[0069]4得到网络结构后,需确定网络结构的细节。由于人脸数据集一般情况下样本数量较小,为了避免过拟合,采用网络规模较小的结构。在本实施例中,可将网络总层数设置为50层左右,最终的特征长度为1000维左右。如果用于训练的人脸数据的尺寸较大,也可以在网络中引入多个HB-Net或AGD-Net的基础结构,从而在最终特征中融合不同尺度上提取的信息。[0070]步骤4:对输入数据做预处理;[0071]由于系统获取的原始图像受到各种因素的限制和干扰,一般不能直接使用,需要先对人脸图像数据进行预处理,从而获得稳定的识别性能。在本实施例中,可以选用的预处理方案包括对人脸图像的光线补偿、灰度转换、直方图均衡化、几何校正等操作。除此之外,还要对输入数据进行归一化。[0072]步骤5:确定网络训练的超参数;[0073]在训练之前,要确定网络训练的超参数,包括batchsize,学习率、迭代次数等。在人脸识别的问题中,可以选用batchsize为64,学习率为0.1,迭代1000-2000次。[0074]步骤6;进行网络训练;[0075]得到网络结构后,可利用用于训练的人脸图像数据对该网络进行训练,直至损失函数的值趋近于收敛时停止训练;[0076]在本发明的实施例中,完成以上步骤,训练好的深度神经网络即可以用来做人脸识别,判断输入人脸图像的标签。[0077]针对上述采样本发明方法设计得到的网络结构,式4和式6表示的网络结构由优化算法等价衍化而来。在工程实践中直接应用式4和式6表示的网络结构的效果可能不理想。为了能够更好地应用于工程实践,我们定义如下元操作以拓展式4和式6表示的网络结构。[0078]—松弛Φ和W[0079]在式4和式6表示的HB-Net和AGD-Net网络结构中,我们使用全连接的线性变换Wx和激活函数Φ。在工程应用中,我们允许将Wx松弛为卷积操作W*x,并且允许不同的层具有不同的权重W。同样地,我们允许将Φ松弛为pooling和BatchnormalizationBN操作,并且允许Φ为激活函数、P〇〇ling、BN、卷积和全连接线性变换的复合操作。在该元操作下,网络结构式1所示网络结构)涵盖了众多经典网络结构,如LeNet和VGG。在下述描述中,我们使用TX替换ΦWx。[0080]二)自适应参数[0081]在网络结构式6中,参数hk,j由优化算法确定。在工程实践中,我们保持网络式4和式6的结构,但允许其中的系数β和hh自由设置,并且允许其在训练过程中由学习得至IJ。在该元操作下,网络结构式4和式6变为如下公式:[0082]xk+i=TXk+Pixk+fexk-i,(式7式8[0084]其中fo,β2,ak+1,j,Pk+1,」为待定系数。[0085]经典网络结构RreNet和DenseNet分别是网络结构式7和式8的特例。[0086]三块结构[0087]当使用下采样down-sampling时,不同的Xk具有不同的维度,因此,式7和式8无法实现加法操作。我们将网络分为多个前向连接的块,在每个块内使用式7和式8的结构。[0088]以下给出HB-Net和AGD-Net的一种具体实现方式。[0089]—)HB-Net[0090]在HB-Net中,我们令式7中扮=1J2=-UTX层网络的复合,其中第一层网络是卷积,BN和ReLU的复合,第二层网络是卷积和BN的复合。在每个块的第一层我们使用步调为2的下采样。[0091]二)AGD-Net[0092]在AGD-Net中,我们设置参数如下:[0094]其中i3=0.1,ak+u在训练过程中学习得到,hk+u的设置与式6优化迭代中的相同。TX为BN、ReLU和卷积的复合。[0095]下述实验用于验证HB-Net和A⑶-Net的有效性。我们在数据集CIFAR10、CIFAR100和ImageNet上做测试。其中CIFAR10和CIFAR100包含60000张32父32的彩色图片,在:正41?10中,这些图片分属10类,在CIFAR100中则分属100类。我们使用50000张图片作为训练数据,10000张图片作为测试数据。我们对每张图片做归一化:减去均值并处以标准差。ImageNet包含1200000张训练图片,50000张验证图片和100000张测试图片。这些图片分属1000个类。我们将每张图片归一化为[0,1]。[0096]我们使用文献[2]中的策略训练HB-Net和AGD-Net。具体地,我们使用随机梯度下降法SGD训练网络,设置Nesterov冲量为0.9,权重衰减为ΚΓ4。我们使用文献[1]中的初始化方法,并且使用Xaviern初始化全连接层。对于CIFAR,我们训练300次循环,使用样本批量大小为64。初始学习率设为0.1,并在第150次迭代和225次迭代分别将学习率除以10。对于ImageNet,我们训练100次迭代,使用样本批量大小为256。在第30、60和90次迭代时减小学习率。我们使用4个GPU。[0097]表1列举了在CIFAR上的实验结果,其中前两列为HB-Net和ResNet的误差率对比结果,后两列为AGD-Net和DenseNet的对比结果。对于ResNet,η=9和η=18分别对应于56层和110层网络。“+”表示标准的数据扩充,表示DenseNet的结果由文献[2]报道,其余结果均由我们自行实现。可以看到当网络规模变大时,HB-Net的优势较ResNet更加明显,AGD-Net的优势较DenseNet更加明显。表2列举了在ImageNet上的实验结果,可以看到HB-Net和AGD-Net相应地比ResNet和DenseNet具有更低的误差率。[0098]表l:HB-Net、AGD-Net和ResNet、DenseNet在CIFAR数据集上的性能比较[0100]表2;!©-他1:、46〇-他1:和1^8他1:、〇61186他1:在111^6他1:数据集上的性能比较I[0102]本发明提出了受优化算法启发的网络结构设计框架。本发明指出在标准的前馈网络结构中,前向过程等价于使用梯度下降法最小化某个函数FX。将梯度下降法替换为收敛速度更快的重球法和Nesterov加速算法,我们得到相应的新的网络结构HB-Net和AGD-Net,实验结果显示受优化算法启发得到的新的网络结构要优于经典的ResNet和DenseNet网络。由此表明,收敛更加快速的优化算法有助于设计更好的网络结构。[0103]需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

权利要求:1.一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数FX的迭代过程;进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数FX,由此得到新的性能更好的网络结构;包括如下步骤:1在所有层共享相同的线性变换的前馈神经网络中,第k层的输出处和第k+Ι层的输出Xk+l的关系表不为式1:xk+i=ΦWxk式I其中,Φ是激活函数;W是线性变换;X为网络输出;Xk为第k层的输出,Xk+1为第k+1层的输出;2针对不同的激活函数Φ,找到具体的函数FX,使用梯度下降法对函数FX最小化,使得式1等价于式2:xk+i=Xk-VFx式2式2中,VFX表示FX的梯度;通过式2使得前馈神经网络中的前向过程等价于使用梯度下降法最小化函数FX;3采用重球法或Nesterov加速算法最小化该函数FX,得到相应深度神经网络的结构;分别执行如下操作:3A使用重球法最小化函数FX:在第k次迭代,迭代公式表不为式3:试3其中,β为待定常数;式3等价于式4所示的前向过程:由此得到相应深度神经网络的结构,称为重球算法网络HB-Net;3Β采用Nesterov加速算法最小化函数FX:在第k次迭代,迭代公式表不为式5:式5其中,式5等价于式6所示前向过程:式6.由此得到相应神经网络的结构,称为加速算法网络AGD-Net。2.如权利要求1所述受优化算法启发的深度神经网络结构设计方法,其特征是,进一步定义元操作拓展重球算法网络HB-Net和加速算法网络AGD-Net的网络结构;元操作包括:A.定义元操作松弛Φ和W,将全连接的线性变换松弛为卷积操作,且允许不同的层具有不同的权重;将激活函数Φ松弛为BN操作,且允许Φ为激活函数、pooling、BN、卷积和全连接线性变换的复合操作;B.定义元操作自适应参数,重球算法网络HB-Net和加速算法网络AGD-Net中的系数β和hk,j自由设置,并使其在训练过程中由学习得到;将重球算法网络HB-Net和加速算法网络AGD-Net网络结构变为如下公式:式8其中,扮、、^+1,』、+1,』均为待定系数;C.定义元操作块结构,将网络分为多个前向连接的块,在每个块内使用式7和8表示的网络结构。3.如权利要求2所述受优化算法启发的深度神经网络结构设计方法,其特征是,在网络结构HB-Net中,具体地,令式7中=1,β2=-1;TX层网络复合中,第一层网络是卷积、BN和ReLU的复合;第二层网络是卷积和BN的复合;在每个块的第一层使用步调为2的下采样。4.如权利要求2所述受优化算法启发的深度神经网络结构设计方法,其特征是,在网络结构AGD-Net中,设置参数如下:其中,0=〇.1;处+1,」在训练过程中学习得到;1'〇〇为81此1^和卷积的复合。5.如权利要求2所述受优化算法启发的深度神经网络结构设计方法,其特征是,具体采用数据集CIFAR10、CIFAR100和ImageNet验证网络结构HB-Net和AGD-Net的有效性。6.如权利要求1所述受优化算法启发的深度神经网络结构设计方法,其特征是,将所述受优化算法启发的深度神经网络结构设计方法应用于人工智能、计算机视觉领域。7.如权利要求1所述受优化算法启发的深度神经网络结构设计方法,其特征是,将所述受优化算法启发的深度神经网络结构设计方法用于人脸识别,高效地设计深度神经网络的结构;包括如下步骤:71采集人脸数据;对输入的人脸图像数据进行图像预处理,并进行归一化;72建立人脸识别问题的目标函数,所述目标函数对应神经网络的损失函数;具体选用Center-loss,L-softmax建立损失函数FX,从而最大化类间方差,最小化类内方差;73通过所述受优化算法启发的深度神经网络结构设计方法,得到深度神经网络HB-Net或AGD-Net;74确定网络结构的总层数、特征长度,可采用多个HB-Net或AGD-Net的网络结构;并确定网络训练的超参数;75利用人脸图像数据进行网络训练,得到训练好的网络;76利用训练好的深度神经网络判断输入人脸图像的标签,实现人脸识别。

百度查询: 北京大学 一种受优化算法启发的深度神经网络结构设计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。