【发明授权】一种基于线性变换的预训练模型微调方法和装置_之江实验室_202410060305.5

导航：龙图腾网> 最新专利技术> 一种基于线性变换的预训练模型微调方法和装置_之江实验室_202410060305.5

申请/专利权人：之江实验室

申请日：2024-01-16

公开（公告）日：2024-04-26

公开（公告）号：CN117574982B

主分类号：G06N3/08

分类号：G06N3/08;G06N3/045;G06N3/0464;G06N3/047;G06N3/0499;G06V10/82;G06V10/774;G06V10/764

优先权：

专利状态码：有效-授权

法律状态：2024.04.26#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要：一种基于线性变换的预训练模型微调方法和装置，其方法包括：收集与下游任务的相关图像数据，对图像数据划分训练集、验证集，并进行适当的预处理，选择合适的预训练模型，修改该模型的任务头，以适配下游任务，并冻结预训练模型的骨干部分；在相邻层间插入线性变换模块，所述线性变换模块用于对特征的缩放和平移；利用下游任务的数据微调预训练模型，保存在验证集上表现最优的模型权重；利用重参数技术将线性变换模块的参数融入到相邻层中，最后部署模型，完成下游任务。本发明引入的待学习参数少，在多种下游任务上，能够实现更高的准确率，并且，在模型推理阶段采用重参数技术将引入的参数融入了模型骨干层中，极大地简化了模型的部署。

主权项：1.一种基于线性变换的预训练模型微调方法，其特征在于，包括以下步骤：S1，数据收集及预处理：收集与下游任务的相关图像数据，对图像数据划分训练集、验证集，并进行预处理，包括保持宽高比随机比例缩放、随机裁剪、随机水平翻转、RGB抖动、标签平滑、去均值；S2，准备预训练模型：选择在ImageNet-1K或者21K数据集上预训练后的主流的神经网络模型，冻结预训练模型的骨干部分backbone，即对应的网络参数不再更新，根据下游任务的类别数量，修改预训练模型的任务头head的输出维度，并对修改后head部分的参数随机初始化；S3，引入线性变换：在预训练模型的相邻两层间插入额外的线性变换模块，所述线性变换模块的维度与相邻层的输出特征满足矩阵乘法关系，对上一层输出的特征进行缩放和平移，使得预训练模型能够适配下游数据；以transformer作为预训练模型时，记模型的层数为m，模型第层的输入为，其中B、L、D分别是输入数据的批量大小、输入序列长度、输入序列的维度；所述的线性变换模块包含两部分，特征缩放和特征平移；加入线性变换模块后的网络前向传播过程为：其中为输入的图像数据，为transformer模块，由多头自注意力、前馈网络、多层感知器和残差连接组成;以CNN作为预训练模型时，仍记模型的层数为m，模型第层的输入为，其中B、C、h和w分别是输入数据的批量大小、特征通道数、特征宽和高；所述的线性变换模块仍包含两部分，特征缩放和特征平移；加入线性变换模块后的网络前向传播过程为：其中为输入的图像数据，为CNN模块，由卷积层、批标准化层、非线性激活函数和残差连接组成;S4，模型微调：利用下游任务的数据训练步骤S2中head部分的参数及步骤S3中线性变换模块的参数；S5，模型重参数：选择在验证集上表现最好的模型并保存模型权重，更新参数，即将步骤S3中所引入的线性变换模块的参数融入到预训练模型的backbone参数中；S6，模型部署：将重参数后的模型部署到终端设备上，终端设备将接收的新的数据，并输入到训练好的模型，得到预测概率向量，进而完成相关下游任务。

全文数据：

权利要求：

百度查询：之江实验室一种基于线性变换的预训练模型微调方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种降低冷轧轧制力的方法_首钢智新迁安电磁材料有限公司_202111360250.2

下一篇：一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

相关技术

一种降低冷轧轧制力的方法_首钢智新迁安电磁材料有限公司_202111360250.2

一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

一种基于准零刚度原理的空气悬架及其结构设计与优化方法_江苏大学_202111438418.7

一种直径与中继协作的信号空间分集传输方法_山东交通学院_202110011021.3

一种可燃气体监测装置和方法_天信仪表集团有限公司_202111562761.2

消息的发送方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202210060996.X

一种蜡样芽孢杆菌YZ-228发酵制剂及其制备方法和应用_吉林农业大学_202310313518.X

基于对抗样本的人体康复运动数据增强方法_大连海事大学_202110864746.7

一种电石渣煅烧氧化钙粉体循环压球系统及工艺_江苏中圣园科技股份有限公司_202011333705.7

一种弱监督云检测方法_安徽大学_202310764234.2

双电源双炉体切换开关的自动化控制系统_苏州振湖电炉有限公司_202111432710.8

一种含氟塑料加工助剂及其制备工艺_稷昶新材料科技(上海)有限公司_202311471760.6

龙图腾网&IPTOP

【发明授权】一种基于线性变换的预训练模型微调方法和装置_之江实验室_202410060305.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务