买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于线性变换的预训练模型微调方法和装置_之江实验室_202410060305.5 

申请/专利权人:之江实验室

申请日:2024-01-16

公开(公告)日:2024-04-26

公开(公告)号:CN117574982B

主分类号:G06N3/08

分类号:G06N3/08;G06N3/045;G06N3/0464;G06N3/047;G06N3/0499;G06V10/82;G06V10/774;G06V10/764

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要:一种基于线性变换的预训练模型微调方法和装置,其方法包括:收集与下游任务的相关图像数据,对图像数据划分训练集、验证集,并进行适当的预处理,选择合适的预训练模型,修改该模型的任务头,以适配下游任务,并冻结预训练模型的骨干部分;在相邻层间插入线性变换模块,所述线性变换模块用于对特征的缩放和平移;利用下游任务的数据微调预训练模型,保存在验证集上表现最优的模型权重;利用重参数技术将线性变换模块的参数融入到相邻层中,最后部署模型,完成下游任务。本发明引入的待学习参数少,在多种下游任务上,能够实现更高的准确率,并且,在模型推理阶段采用重参数技术将引入的参数融入了模型骨干层中,极大地简化了模型的部署。

主权项:1.一种基于线性变换的预训练模型微调方法,其特征在于,包括以下步骤:S1,数据收集及预处理:收集与下游任务的相关图像数据,对图像数据划分训练集、验证集,并进行预处理,包括保持宽高比随机比例缩放、随机裁剪、随机水平翻转、RGB抖动、标签平滑、去均值;S2,准备预训练模型:选择在ImageNet-1K或者21K数据集上预训练后的主流的神经网络模型,冻结预训练模型的骨干部分backbone,即对应的网络参数不再更新,根据下游任务的类别数量,修改预训练模型的任务头head的输出维度,并对修改后head部分的参数随机初始化;S3,引入线性变换:在预训练模型的相邻两层间插入额外的线性变换模块,所述线性变换模块的维度与相邻层的输出特征满足矩阵乘法关系,对上一层输出的特征进行缩放和平移,使得预训练模型能够适配下游数据;以transformer作为预训练模型时,记模型的层数为m,模型第层的输入为,其中B、L、D分别是输入数据的批量大小、输入序列长度、输入序列的维度;所述的线性变换模块包含两部分,特征缩放和特征平移;加入线性变换模块后的网络前向传播过程为:其中为输入的图像数据,为transformer模块,由多头自注意力、前馈网络、多层感知器和残差连接组成;以CNN作为预训练模型时,仍记模型的层数为m,模型第层的输入为,其中B、C、h和w分别是输入数据的批量大小、特征通道数、特征宽和高;所述的线性变换模块仍包含两部分,特征缩放和特征平移;加入线性变换模块后的网络前向传播过程为:其中为输入的图像数据,为CNN模块,由卷积层、批标准化层、非线性激活函数和残差连接组成;S4,模型微调:利用下游任务的数据训练步骤S2中head部分的参数及步骤S3中线性变换模块的参数;S5,模型重参数:选择在验证集上表现最好的模型并保存模型权重,更新参数,即将步骤S3中所引入的线性变换模块的参数融入到预训练模型的backbone参数中;S6,模型部署:将重参数后的模型部署到终端设备上,终端设备将接收的新的数据,并输入到训练好的模型,得到预测概率向量,进而完成相关下游任务。

全文数据:

权利要求:

百度查询: 之江实验室 一种基于线性变换的预训练模型微调方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。