买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】多样本多通道卷积神经网络Same卷积向量化实现方法_中国人民解放军国防科技大学_201911000690.X 

申请/专利权人:中国人民解放军国防科技大学

申请日:2019-10-21

公开(公告)日:2023-06-27

公开(公告)号:CN110807170B

主分类号:G06F17/16

分类号:G06F17/16;G06F17/15;G06N3/0464;G06N3/0495;G06N3/063

优先权:

专利状态码:有效-授权

法律状态:2023.06.27#授权;2020.03.13#实质审查的生效;2020.02.18#公开

摘要:本发明公开一种多样本多通道卷积神经网络Same卷积向量化实现方法,步骤包括:步骤1:将输入特征数据集数据按照样本维优先方式存储,以及将卷积核的数据按照卷积核的数量维优先方式存储;步骤2:按列将输入特征数据集数据矩阵划分为多个矩阵块;步骤3:每次将卷积核数据矩阵传输到各个核的SM中,以及将从输入特征数据矩阵中按行抽取组成的子矩阵传输到各个核的AM中,执行向量化矩阵乘法计算和并行化矩阵乘法计算,并在计算中执行补0;步骤4:将输出特征矩阵计算结果存储在片外存储器中;步骤5:重复步骤3至4,直到完成全部计算。本发明能够实现Same卷积向量化,且具有实现操作简单、执行效率及精度高且带宽需求小等优点。

主权项:1.一种多样本多通道卷积神经网络Same卷积向量化实现方法,其特征在于,步骤包括:步骤1:将用于卷积神经网络计算的输入特征数据集数据按照样本维优先的方式存储,以及将卷积核的数据按照卷积核的数量维优先的方式存储;步骤2:向量处理器按列将所述输入特征数据集数据矩阵划分为多个矩阵块,得到多个输入特征数据矩阵;步骤3:向量处理器每次将卷积核数据矩阵传输到各个核的标量存储器SM中,以及将从所述输入特征数据矩阵中按行抽取V行数据组成的子矩阵传输到各个核的向量阵列存储器AM中,其中0V=K,K为单个卷积核的像素数据数目,通过执行向量化矩阵乘法计算和各个核的并行化矩阵乘法计算,并在计算过程中执行补0操作,得到输出特征数据矩阵计算结果;步骤4:将所述输出特征数据矩阵计算结果存储在向量处理器的片外存储器中;步骤5:重复步骤3、4,直到完成全部输入特征数据矩阵计算;所述步骤3中,所述执行向量化矩阵乘法计算和各个核的并行化矩阵乘法计算的具体步骤包括:步骤3.2.1:向量处理器将所述输入特征数据矩阵分别传输到向量处理器的各个核的向量阵列存储器AM中预设的输入特征数据缓冲区中,每个核传入的输入特征数据矩阵规模为V*p阶,p为每个核的向量处理单元VPE个数;步骤3.2.2:向量处理器将所述卷积核数据矩阵分别传输到向量处理器各个核的标量存储器SM中预设的卷积核数据缓冲区中,每个核传入的卷积核数据矩阵规模为K*nextC阶,其中nextC为卷积核的数量;步骤3.2.3:向量处理器的各个核的标量处理部件SPU依次从所述卷积核数据缓冲区按列读取一个卷积核数据到一个标量寄存器中,判断读取的所述卷积核数据对应的输入特征数据矩阵行是为否为0元素行,若是继续读取下一个列元素,计算结果为直接赋值为全0元素构成的0向量;若不是则通过标量广播指令广播到一个向量寄存器;步骤3.2.4:向量处理器的各个核的向量处理部件VPU依次从所述输入特征数据缓冲区读取一行输入特征数据到一个向量寄存器,将该向量寄存器与所述步骤3.2.3得到的向量寄存器进行乘累加计算;步骤3.2.5:判断是否遍历所述卷积核数据矩阵一列的K个元素数据,若不是,则跳转步骤3.2.3,且所述步骤3.2.3中读取位置移到下一元素、所述步骤3.2.4中读取位置移到下一行;若是,则每个核完成该列数据计算对应的p个输出特征数据的计算,p为每个核的向量处理单元VPE个数,跳转步骤3.2.6;步骤3.2.6:判断是否遍历完卷积核数据的所有nextC列数据,若不是,则跳转步骤3.2.3,且所述步骤3.2.3中读取位置移到下一列首地址、所述步骤3.2.4中读取位置回到输入特征数据缓冲区起始地址;若是则遍历完nextC列,向量处理器完成nextC*MB阶的输出特征数据的计。

全文数据:

权利要求:

百度查询: 中国人民解放军国防科技大学 多样本多通道卷积神经网络Same卷积向量化实现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。