【发明公布】一种基于token增长的高效Transformer神经网络训练方法_华东师范大学_202410041372.2

导航：龙图腾网> 最新专利技术> 一种基于token增长的高效Transformer神经网络训练方法_华东师范大学_202410041372.2

申请/专利权人：华东师范大学

申请日：2024-01-11

公开（公告）日：2024-04-16

公开（公告）号：CN117892790A

主分类号：G06N3/084

分类号：G06N3/084;G06N3/0455

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.03#实质审查的生效;2024.04.16#公开

摘要：本发明公开了一种基于token增长的高效Transformer神经网络训练方法，其可以做到在不损失主流Transformer神经网络的最终性能，甚至提升神经网络性能的条件下，提高Transformer网络的训练速度。本发明可以在训练过程中减少Transformer的token数量，同时保留Transformer神经网络的中间特征空间中含有重要信息的token，无需修改原本Transformer神经网络任何超参数、架构和训练策略，在一个token渐进增长的训练框架下完成Transformer的高效训练。本发明的高效Transformer训练方法相比较于业内其他训练方法，处于领先水平。

主权项：1.一种基于token增长的高效Transformer神经网络训练方法，其特征在于，该方法具体包括：步骤A.从空间特征分布的角度初始选择部分参与训练的token；具体包括：将图片经过Transformer神经网络的嵌入层和第l个Transformer块后，得到输出token集合其中是第l个Transformer块的输出token集合的第i个token，表示对所有的谓语逻辑符号；同时Nl是第l个Transformer块的输出token的数量；将得到的token集合通过索引来初始选择token参与训练；初始选择token的过程表达如下：其中是选择参与训练的token集合，是不参与训练的token集合，r0是预定义的初始token比例；此时初始选择了个token参与Transformer神经网络的训练；步骤B.初始选择token后，在满足选择的token符合原中间特征分布的条件下，逐渐添加未被选择的token参与训练；具体包括：将Transformer神经网络的训练平均分割成Ng个阶段，在第δ阶段，δ≤Ng，将执行δ次增长，其中第m次增长的token数量比例μm和当前阶段参与训练总token数量比例rm可构建为： rm＝rm-1+μm，其中r1＝2·r0∈0，1]；m∈[1，2，…，δ]对于第δ个阶段，每次token增长操作将增长个token参与训练；其中第m次token增长操作表达如下：对于步骤A选择中参与训练的token集合和不参与训练的token集合使用余弦距离来定义特征分布距离，得到两个token集合的特征分布距离矩阵表述如下：其中1是值全为1的矩阵；T表示矩阵的转置；||·||表示L2范数距离；再定义第i个不参与训练的token集合与选择参与训练的token集合最近的特征分布距离表述如下：其中，同时|•|表示token个数；根据最近的特征分布距离以下列公式来更新token集合和其中，k是预定义的并行迭代次数，代表选出特征分布距离最大的个token；此时，经过k次选择，从中选出个token加入在第δ个阶段经过总共δ次token增长操作，参与训练的token集合和不参与训练的token集合分别具有和个token；步骤C.将没有选择的token的信息合并到特征分布距离最近的被选择参与训练的token中，具体包括：在第δ个阶段，选择了个token参与训练；此时有个token没有参与训练；为避免token信息的浪费，将中个token与中特征分布距离最近的token合并；操作表述如下：其中其中，是最后得到参与训练的token集合，具有个token；按照索引将中token与中token平均合并在一起得到新的token；步骤D.对token进行渐进增长来控制参与训练的token数量，即将总训练回合数与阶段数进行关联，由此获得当前阶段的δ，描述如下：其中E为总的训练回合数，e表示为第e个训练回合，为上取整函数；训练过程使用与原始模型的训练一致的梯度下降法进行高效训练，不改变训练超参数，从第一个阶段使用最少的token逐渐增长到最后阶段使用全部的token来参与训练，最终得到一个与原Transformer神经网络架构一致的、用于部署的Transformer神经网络权重。

全文数据：

权利要求：

百度查询：华东师范大学一种基于token增长的高效Transformer神经网络训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：硅片切割液用灌装装置_常州高特新材料股份有限公司_202322580218.6

下一篇：一种可拆卸式台灯_中山市百利威灯饰有限公司_202322422078.X

相关技术

硅片切割液用灌装装置_常州高特新材料股份有限公司_202322580218.6

一种可拆卸式台灯_中山市百利威灯饰有限公司_202322422078.X

一种新型船舶热交换器_南通海利源船舶设备工程有限公司_202322457448.3

一种废钢回收筛选设备_十堰市再生资源有限公司_202322399164.3

一键式智能配茶机_上海嘻粒粒食品科技有限公司_202322460102.9

一种商用燃气蒸饭柜_安徽铂悦厨业科技股份有限公司_202322509637.0

一种污水处理用药剂投放机_常州市尚明环保科技有限公司_202322438903.5

一种用建筑垃圾制备的高强混凝土排水管_南京运达新型建材有限公司_202322364972.6

雷达安装结构及车辆_长城汽车股份有限公司_202322575661.4

氮化铝陶瓷基片自动磨洗设备_宁夏北瓷新材料科技有限公司_202322419986.3

一种带有调节机构的抗震支架_陕西开天实业有限公司_202322564448.3

一种锂电池保护板散热结构_深圳市海马士电子有限公司_202322405576.3

Transformer相关技术

一种基于局部特征强化及信息融合的故障目标Transformer检测方法_东南大学_202410079449.5

一种基于图Transformer的智能医疗问诊方法及系统_广东工业大学_202410141993.8

一种基于DDPM与Conv-Transformer的冶炼过程异常状态检测方法_东北大学_202410119638.0

一种基于Transformer模型的企业辅助决策生成方法_国网辽宁省电力有限公司经济技术研究院_202311698799.1

一种复杂场景下基于Transformer网络的多目标跟踪方法_哈尔滨工程大学_202310907783.0

基于标识解析和Transformer的预测性维护系统及方法_南京优速网络科技有限公司_202410129828.0

一种基于Transformer的半监督式城市街景分割方法_松立控股集团股份有限公司_202410121443.X

基于Transformer时序多模态特征的电力系统恶意流量检测方法_国网浙江省电力有限公司绍兴供电公司_202311867933.6

一种基于Transformer模型的固定翼集群无人机飞行能力评估方法_四川腾盾科技有限公司_202311694704.9

基于双支路CNN-Transformer的高光谱与LiDAR协同农作物精准分类方法_哈尔滨理工大学_202311282162.4

神经相关技术

图像深度预测神经网络_谷歌有限责任公司_202010612045.X

植入式神经刺激延伸导线_常州瑞神安医疗器械有限公司_202111061293.0

用于神经渲染的多核系统_上海科技大学_202180102463.7

治疗神经退行性疾病的方法_上海日馨医药科技股份有限公司_202280060164.6

一种神经外科头部固定护理装置_海口市人民医院(中南大学湘雅医学院附属海口医院)_202410300938.9

一种电场耦合式神经刺激系统_北京领创医谷科技发展有限责任公司_202410061327.3

一种神经外科脑部手术辅助仪_山东省公共卫生临床中心_202410298405.1

神经网络剪枝方法及相关装置_哲库科技(上海)有限公司_202211271227.0

一种神经内科疼痛缓解设备_安建华_202210074177.0

基于图神经网络的客户画像分析方法_上海栈略数据技术有限公司_202311741157.5

网络相关技术

配置网络方法和设备_华为技术有限公司_202211345833.2

企业网络监控装置_安徽恒源煤电股份有限公司_202322035696.9

融合网络流量特征和威胁情报的网络攻击同源性分析方法_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202410347079.9

一种基于数据中心网络系统的网络容错性能评估方法_南京邮电大学_202410119787.7

故障网络设备节点的定位方法、装置和网络通信方法_阿里巴巴集团控股有限公司_202010668536.6

SDN网络的带内网络遥测探测路径规划方法及系统_中科南京信息高铁研究院_202111031564.8

网络传输协作策略智能修正系统_南京勇士营地网络科技有限公司_202410131875.9

网络资源保护装置_中国联合网络通信集团有限公司_202322563222.1

网线接头及网络通信设备_中国联合网络通信集团有限公司_202322612287.0

用于车辆的网络访问控制_通用汽车环球科技运作有限责任公司_202310531909.9

龙图腾网&IPTOP

【发明公布】一种基于token增长的高效Transformer神经网络训练方法_华东师范大学_202410041372.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务