买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于token增长的高效Transformer神经网络训练方法_华东师范大学_202410041372.2 

申请/专利权人:华东师范大学

申请日:2024-01-11

公开(公告)日:2024-04-16

公开(公告)号:CN117892790A

主分类号:G06N3/084

分类号:G06N3/084;G06N3/0455

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.03#实质审查的生效;2024.04.16#公开

摘要:本发明公开了一种基于token增长的高效Transformer神经网络训练方法,其可以做到在不损失主流Transformer神经网络的最终性能,甚至提升神经网络性能的条件下,提高Transformer网络的训练速度。本发明可以在训练过程中减少Transformer的token数量,同时保留Transformer神经网络的中间特征空间中含有重要信息的token,无需修改原本Transformer神经网络任何超参数、架构和训练策略,在一个token渐进增长的训练框架下完成Transformer的高效训练。本发明的高效Transformer训练方法相比较于业内其他训练方法,处于领先水平。

主权项:1.一种基于token增长的高效Transformer神经网络训练方法,其特征在于,该方法具体包括:步骤A.从空间特征分布的角度初始选择部分参与训练的token;具体包括:将图片经过Transformer神经网络的嵌入层和第l个Transformer块后,得到输出token集合其中是第l个Transformer块的输出token集合的第i个token,表示对所有的谓语逻辑符号;同时Nl是第l个Transformer块的输出token的数量;将得到的token集合通过索引来初始选择token参与训练;初始选择token的过程表达如下: 其中是选择参与训练的token集合,是不参与训练的token集合,r0是预定义的初始token比例;此时初始选择了个token参与Transformer神经网络的训练;步骤B.初始选择token后,在满足选择的token符合原中间特征分布的条件下,逐渐添加未被选择的token参与训练;具体包括:将Transformer神经网络的训练平均分割成Ng个阶段,在第δ阶段,δ≤Ng,将执行δ次增长,其中第m次增长的token数量比例μm和当前阶段参与训练总token数量比例rm可构建为: rm=rm-1+μm,其中r1=2·r0∈0,1];m∈[1,2,…,δ]对于第δ个阶段,每次token增长操作将增长个token参与训练;其中第m次token增长操作表达如下:对于步骤A选择中参与训练的token集合和不参与训练的token集合使用余弦距离来定义特征分布距离,得到两个token集合的特征分布距离矩阵表述如下: 其中1是值全为1的矩阵;T表示矩阵的转置;||·||表示L2范数距离;再定义第i个不参与训练的token集合与选择参与训练的token集合最近的特征分布距离表述如下: 其中,同时|•|表示token个数;根据最近的特征分布距离以下列公式来更新token集合和 其中,k是预定义的并行迭代次数,代表选出特征分布距离最大的个token;此时,经过k次选择,从中选出个token加入在第δ个阶段经过总共δ次token增长操作,参与训练的token集合和不参与训练的token集合分别具有和个token;步骤C.将没有选择的token的信息合并到特征分布距离最近的被选择参与训练的token中,具体包括:在第δ个阶段,选择了个token参与训练;此时有个token没有参与训练;为避免token信息的浪费,将中个token与中特征分布距离最近的token合并;操作表述如下: 其中 其中,是最后得到参与训练的token集合,具有个token;按照索引将中token与中token平均合并在一起得到新的token;步骤D.对token进行渐进增长来控制参与训练的token数量,即将总训练回合数与阶段数进行关联,由此获得当前阶段的δ,描述如下: 其中E为总的训练回合数,e表示为第e个训练回合,为上取整函数;训练过程使用与原始模型的训练一致的梯度下降法进行高效训练,不改变训练超参数,从第一个阶段使用最少的token逐渐增长到最后阶段使用全部的token来参与训练,最终得到一个与原Transformer神经网络架构一致的、用于部署的Transformer神经网络权重。

全文数据:

权利要求:

百度查询: 华东师范大学 一种基于token增长的高效Transformer神经网络训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。