买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于模型压缩思想的NAS架构搜索方法_天翼电子商务有限公司_202211028380.0 

申请/专利权人:天翼电子商务有限公司

申请日:2022-08-25

公开(公告)日:2024-03-12

公开(公告)号:CN117688985A

主分类号:G06N3/0464

分类号:G06N3/0464;G06N3/084

优先权:

专利状态码:在审-公开

法律状态:2024.03.12#公开

摘要:本发明公开了一种基于模型压缩思想的NAS架构搜索方法,具体包括以下:1构建搜索空间,这里搜索空间设置8个算子,如下:1*1卷积,3*3卷积,5*5卷积,1*1的DW卷积,3*3的DW卷积,5*5的DW卷积,skip‑connect,None;2构建可微分的网络架构,和先前的构建方式相同,需要构建一个supernet;这里先构建两个supernet的组成元素,一个提取特征的cell和一个特征池化的下采样的cell。本发明相比其他技术,最显著的优点如下:将模型架构参数构建成一个超级网络的W,然后通过压缩思路进行压缩,在模型训练完全收敛后进行有限制的参数压缩,经过实验得到了较优的架构,而且在训练后期也不会出现比较明显的架构性能崩溃的现象。

主权项:1.一种基于模型压缩思想的NAS架构搜索方法,其特征在于,具体包括以下:1构建搜索空间,这里搜索空间设置8个算子,如下:1*1卷积,3*3卷积,5*5卷积,1*1的DW卷积,3*3的DW卷积,5*5的DW卷积,skip-connect,None;2构建可微分的网络架构,和先前的构建方式相同,需要构建一个supernet;这里先构建两个supernet的组成元素,一个提取特征的cell和一个特征池化的下采样的cell;构建方式如下:将0,1节点设置成网络的输入节点,将2,3,4节点的输出组合成一个map作为cell的特征输出值;使用每个算子处理后的map1-map8和a1-a8对应相乘然后相加合成组合的map,其中a1-a8就是其中的架构参数,记为;这里一个cell有9个连接于是架构参数量为9*8,有两种类型的cell,那么参数有9*8*2=144.由于目前的搜索空间是离散的,不能通过梯度更新的方式进行优化;所以借用softmax来松弛成连续的空间;组合的map计算方式如下: 通过松弛后,modelα可以和model自身的W权重进行更新训练;更新方式如下: 随着网络更新到模型收敛之后,最后通过如下的方式来得到最后的离散架构:a离散=argmaxa∈Aai,j通过选取架构中的modelα的softmax值最大的对应的算子作为最优的算子用来构成最优架构的最优cell;通过这种最优cell堆叠来组成新的架构;但是通过这种方式发现训练极其不稳定,得到架构的准确率在训练后期会出现性能崩溃,受到模型压缩的启发,将选取算子的方法进行了优化,假设将所有的架构参数modelα作为网络训练的另一个W,而不是将它作为算子重要性的代表;于是定义了该模型参数的敏感度,通过敏感度来选取重要的算子,于是设计了如下的计算方法来衡量: 其中diag*代表去矩阵斜对角线的值,Hessian代表modelα的参数的海塞矩阵;通过不断去除敏感度低的参数使得架构参数不断稀疏化,但是这里和模型压缩不同的是,这里的参数稀疏是有限制的,对于9*8的cell参数的每一行都需要留下一个参数。

全文数据:

权利要求:

百度查询: 天翼电子商务有限公司 一种基于模型压缩思想的NAS架构搜索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。