申请/专利权人:深圳大学;人工智能与数字经济广东省实验室(深圳)
申请日:2024-02-02
公开(公告)日:2024-05-07
公开(公告)号:CN117689961B
主分类号:G06V10/764
分类号:G06V10/764;G06V10/80;G06V10/82;G06N3/0464;G06N3/084
优先权:
专利状态码:有效-授权
法律状态:2024.05.07#授权;2024.03.29#实质审查的生效;2024.03.12#公开
摘要:本发明公开了一种视觉识别模型训练、视觉识别方法、系统、终端及介质,通过使用可训练的视觉提示词来微调预训练的视觉Transformer模型,使用随机锐度感知最小化方法更新视觉识别模型的模型参数,平衡地提升视觉识别模型在头类和尾类上的泛化能力。将提示词信息与视觉Transformer模型输出的类编码信息进行融合,充分利用提示词信息来提升模型的分类性能。训练好的视觉识别模型对长尾分布数据的识别精度较高。
主权项:1.视觉识别模型训练方法,所述视觉识别模型中设有预训练的视觉Transformer模型、可训练的视觉提示词和线性分类器,所述视觉提示词被配置为采用视觉提示词微调方法插入在所述视觉Transformer模型中,其特征在于,所述训练方法包括:基于呈长尾分布的图片数据集,获取训练数据;生成随机扰动向量,基于所述随机扰动向量和所述视觉识别模型,获得扰动后模型;将所述训练数据输入所述扰动后模型,获得所述扰动后模型中的视觉Transformer模型的最后一层输出的类编码信息;将所述扰动后模型中的视觉Transformer模型的视觉提示词与所述类编码信息进行融合,获得融合信息;将所述融合信息输入所述扰动后模型中的线性分类器,获得分类结果,根据所述分类结果获得所述扰动后模型的损失值,并根据所述损失值计算梯度值;根据所述梯度值更新所述视觉识别模型的模型参数,重新获取训练数据进行迭代训练直至所述视觉识别模型收敛,获得已训练的视觉识别模型;所述视觉提示词用于给所述视觉Transformer模型中的注意力机制额外引入与用来进行迁移训练的呈长尾分布的图片数据集相关的特征向量。
全文数据:
权利要求:
百度查询: 深圳大学;人工智能与数字经济广东省实验室(深圳) 视觉识别模型训练、视觉识别方法、系统、终端及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。