买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于超维矢量与注意力机制的图像翻译方法_北京工商大学_202311807298.2 

申请/专利权人:北京工商大学

申请日:2023-12-26

公开(公告)日:2024-03-22

公开(公告)号:CN117745878A

主分类号:G06T11/40

分类号:G06T11/40;G06V10/44;G06N3/0475;G06N3/0464;G06N3/045;G06N3/084;G06N3/094

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明涉及一种基于超维矢量与注意力机制的图像翻译方法,属于计算机学科下的计算机视觉领域。实现步骤为:首先使用基于双重注意力机制的生成器,与基于patchGAN的特征鉴别器组成对抗性图像生成框架;通过基于VGG19的特征提取器提取源域、目标域、转换域图像的特征向量,并使用超维矢量映射模块将特征向量映射到VSA超空间中,获得对应的特征超维矢量;构建基于多层感知机的映射网络,与各模块共同组成基于超维矢量和注意力机制的图像翻译模型,定义模型损失函数并训练该模型;使用训练后的模型,可针对输入的源域图像生成翻译后的目标域结果图像;该方法能够在具有复杂特征的图像翻译任务中显著减少现语义翻转问题,并减少异常噪点出现概率。

主权项:1.基于超维矢量与注意力机制的图像翻译方法,其特征在于,包括以下步骤:步骤一、建立图像翻译方法的源域和目标域数据集,具体步骤为:步骤1.1、根据图像翻译任务的要求,将数据集中的图片分为源域和目标域;命名源域图像为Sourcex,命名目标域图像为Targety;步骤1.2、将源域和目标域中的图像分别分为训练部分和验证部分;步骤1.3、将训练集中的图像转化为统一的尺寸;步骤1.4、对训练集中的图像进行随机裁剪来对数据集进行增强,防止训练过程中过拟合的出现;步骤二、构建“基于堆叠ResNet块的生成器G”,并初始化权重为随机权重;步骤三、为基于堆叠ResNet块的生成器G添加“频率通道注意力机制”,提取不同通道的频谱特征,在图像翻译过程中使用更多的频率信息,具体实现方法如下:步骤3.1、设针对源域图像Sourcex的生成器卷积层输出的特征图为X∈RC×H×W,其中C表示特征图的频率通道数,H表示高度,W表示宽度;将特征图X分成[X0,X1,…,Xn-1],其中n为频率通道分组数量,要求C能被n整除,分组后每个组的频道通道数Xi∈RC′×H×W,i∈{0,1,…,n-1};步骤3.2、为每个Xi执行二维离散余弦变换,获得其对应的多频谱分量Freqi;为每个Xi执行二维离散余弦变换的计算方法如公式1所示, 其中,Freqi∈RC′为压缩后的C′维向量,[ui,vi]表示对应于Xi的多频谱分量的二维索引,2DDCT为二维离散余弦变换,为二维离散余弦变换的基础形式,其计算方法如公式2所示, 公式1和公式2中的变量意义与步骤3.1中相同;步骤3.3、拼接多频谱分量Freqi得到整体多频谱向量Freq,如公式3所示, 其中Freq∈RC为得到的多频谱向量,compressX表示压缩函数,Freqi为每个Xi对应的多频谱分量,cat是将频率通道的不同项按照指数幂连接在一起形成一个包含多个频率通道的张量的操作;步骤3.4、为多频谱向量Freq计算Sigmoid值,获得整个多频谱的通道注意力,如公式4所示,ma_att=sigmoidfcFreq4其中,sigmoid是将任意实数映射到一个取值范围在0,1之间的值的映射函数,fc表示全连接层的一维卷积映射函数,ms_att为不同频谱通道的注意力权重;步骤3.5、将得到的ms_att结果和特征图分量Xi相乘,即为每一个频谱通道赋不同的权重值,得到经过频率通道注意力机制加权的特征图,进入模型的后续层训练;步骤四、为基于堆叠ResNet块的生成器G添加“自注意力机制”,使图像翻译过程中利用输入图像中不同部分之间的相关性信息,具体实现方法如下:步骤4.1、设针对源域图像Sourcex的生成器中间层输出的特征图为x∈RC×N,其中C为通道数,H表示高度,W表示宽度,N=W×H为该特征图的特征位置数;步骤4.2、获取特征图x的第j个区域对第i个位置的关注程度,计算方法如公式5所示, 其中,βj,i表示特征图x的第j个区域对第i个位置的关注程度,sij为第j个区域与第i个位置的相似性分数,其计算方法如公式6所示,sij=fxiTgxj6其中,fxi=Wfxi将特征图进行卷积操作得到query向量,gxj=Wgxj将特征图通过卷积操作得到key向量;和是进行由C维到维的卷积的权重矩阵;是query向量和key向量的维数;步骤4.3、计算特征图x的第j个区域对整个特征图的自注意输出,计算方法如公式7所示, 其中,βj,i为公式5的输出,即特征图第j个区域对第i个位置的关注程度;hxi=Whxi将特征图进行卷积操作得到value向量,是进行由C维到维的卷积的权重矩阵;va=Wva将a向量进行由维到C维的卷积操作,是进行由维到C维的卷积的权重矩阵;步骤4.4、拼接特征图中所有区域的自注意输出,得到对整个特征图的自注意输出,如公式8所示,o=o1,o2,…,oj,…,oN8其中自注意输出o∈RC×N,维数与特征图x∈RC×N对应;步骤4.5、针对第i个位置,将其受到的自注意关注程度oi乘以尺度参数γ并与特征xi相加,实现第i个位置的原特征与自注意输出的特征相融合的结果yi,如公式9所示,yi=γoi+xi9其中γ是可学习的标量,初始化为0;在模型训练过程中,γ学习局部邻域中的重点区域并不断增加,为非局部区域分配更多的权重,学习合适的参数以得到经过自注意机制的特征图,进入后续层训练;至此,通过步骤二、步骤三、步骤四,“基于双重注意力机制的生成器Gatt”构建完毕;步骤五、构建“基于patchGAN的特征鉴别器DY”;与步骤二、步骤三、步骤四中实现的“基于双重注意力机制的生成器Gatt”,共同组成基本的对抗性图像生成框架;对抗性图像生成框架的主要作用是为源域图像Sourcex生成对应的“转换域图像”,将转换域图像命名为Gx;步骤六、以ImageNet上预训练的VGG19作为底层网络,构建“基于VGG19的特征提取器”;使用该特征提取器提取源域图像Sourcex、目标域图像Targety、转换域图像Gx的特征;将特征提取器提取到的特征平面化并沿维数连接,最终得到维数为m的特征向量;其中源域图像Sourcex的特征对应的特征向量命名为fX,目标域图像Targety的特征对应的特征向量命名为fY,转换域图像Gx的特征对应的特征向量命名为fGx;步骤七、构建“基于LSH算法的超维矢量映射模块”,将源域图像特征向量fX、目标域图像特征向量fY和转换域图像特征向量fGx映射到VSA超空间中,得到对应的超维矢量,具体实现方法如下:使用局部敏感哈希LSH算法将特征向量fX、fY、fGx降维映射至随机超空间其中nm,将图像特征向量fX、fY、fGx编码为随机超空间中的超维矢量;源域图像特征向量fX对应的源域特征超维矢量命名为vx,目标域图像特征向量fY对应的目标域特征超维矢量命名为vY,转换域图像特征向量fGx对应的转换域特征超维矢量命名为vGx;以超维矢量vx为例,在源域图像对应的随机超空间中,超维矢量vx可以分解为源域图像中的所有物体间的bunding操作,以及物体和物体属性的binding操作的组合结果,如公式10所示, 其中,c、p是源域图像中的物体对应的超维矢量,csrc和psrc是c、p对应物体的属性的超维矢量;表示超维矢量间的binding操作,即图像中的物体与其属性的绑定操作;“+”表示超维矢量间的bunding操作,即在图像中添加物体及其属性;所有物体间的bunding操作,以及物体和物体属性的binding操作的结果即为整个图像对应的超维矢量vx;由于随机超空间中超维矢量的维数非常高,噪声对超维矢量几乎没有影响,因此超维矢量的以上操作具有很好的鲁棒性;步骤八、构建“基于多层感知机MLP的映射网络F”;使用该映射网络F构建源域特征超维矢量vx到目标域特征超维矢量vY的映射至此,步骤二至步骤四构建的“基于双重注意力机制的生成器Gatt”、步骤五构建的“基于patchGAN的特征鉴别器DY”、步骤六构建的“基于VGG19的特征提取器”、步骤七构建的“基于LSH算法的超维矢量映射模块”,以及步骤八构建的“基于多层感知机MLP的映射网络F”,共同组成“基于超维矢量和注意力机制的图像翻译模型”,命名该模型为att_VSAIT模型;步骤九、为att_VSAIT模型定义模型的损失函数,该模型的损失包括两个部分:基于注意力机制的生成对抗矢量损失和矢量符号体系结构的循环损失;两个部分的损失的具体定义方法如下:步骤9.1、定义基于注意力机制的生成对抗矢量损失,其计算方法如公式11所示, 其中,LGANGatt,DY,F,X,Y是训练Gatt、DY和F过程中的超维矢量对抗损失;logDYvy表示鉴别器DY对目标域图像超维矢量vy的鉴别概率输出的自然对数;log1-DYvGx关注生成器Gatt的损失,由鉴别器DY对通过生成器Gatt得到的转换域图像超维矢量vGx的概率输出的补集的自然对数;log1-DYvX→Y关注映射网络F的损失,该部分由鉴别器DY对受映射网络F影响的平移超维矢量vX→Y的概率输出补集的自然对数;vX→Y的计算方法如公式12所示, 其中,vX→Y表示从源域映射到目标域的平移超维矢量;vx是源域图像的超维矢量,为源域图像超维矢量vx通过映射网络F后得到的源域到目标域的超维矢量映射,即Fvx;表示超维矢量间的binding操作,即图像中的物体与其属性的绑定操作;步骤9.2、定义矢量符号体系结构的循环损失,其计算方法如公式13所示, 其中Latt_VSAGatt,X是通过源域图像X训练Gatt时的循环损失,表示索引为i的图像patch对应的源域图像超维矢量与该部分转换域图像特征映射到源域的平移超维矢量之间的余弦距离,vGx→x是使用与vGX进行超维矢量binding操作得到的转换域图像特征映射到源域的平移超维矢量,计算方法如公式14所示, 矢量符号体系结构的循环损失通过最小化vGx→x和vx之间的平均余弦距离,确保转换域图像超维矢量映射回源域时获得的超维矢量vGx→x与源域图像的超维矢量vx间具有最大的相似性,即vGx→x≈vx,确保在图像翻译过程中的转换域图像Gx能够恢复与源域图像X最相似的特征,达到保留源内容并减少语义翻转的目的;步骤9.3、为两部分损失设置比例系数λ,形成整个att_VSAIT模型的总损失,如公式15所示, 其中λ≥5;当λ<5时,矢量符号体系结构的循环损失权重过小,将增加语义翻转问题的产生概率;λ过大时,将可能导致生成图像质量下降或模式崩溃;步骤十、设置模型训练epoch参数、Adam优化器和StepLR调度器,对生成器Gatt、鉴别器DY和映射网络F进行训练,不断迭代优化源特征超维矢量到目标特征超维矢量的映射并使用验证部分数据集进行模型验证,通过验证后获得训练完成的att_VSAIT模型;训练完成的att_VSAIT模型,包含网络架构和各个组件最优的配置和权重设置;步骤十一、att_VSAIT模型训练完成后,可以在测试过程中直接使用该模型进行图像翻译;加载训练完成的att_VSAIT模型,输入要进行翻译的源域图像,获得翻译后的目标域结果图像,具体步骤为:步骤11.1、通过特征提取器提取源域图像Sourcex的特征,并平面化和沿维数连接,获得源域图像特征向量fX;步骤11.2、通过基于LSH算法的超维矢量映射模块,将源域图像特征向量fX映射到VSA超空间中,得到源域图像超维矢量vx;步骤11.3、通过映射网络F的矢量映射,获得源域图像超维矢量vx的映射即Fvx;在已训练完成的att_VSAIT模型中,映射Fvx即为源域到目标域的超维矢量最优映射步骤11.4、将“源域图像超维矢量vx”与“源域到目标域的超维矢量最优映射进行超维矢量间的binding操作获得从源域映射到目标域的最优平移超维矢量,即平移超维矢量即解绑源域图像中的属性,并绑定目标域图像中的属性获得的超维矢量,该矢量即是最接近“图像翻译模型希望获得的翻译结果图像”对应的超维矢量,即步骤11.5、通过生成器Gatt的前向传播,生成翻译后的目标域结果图像;至此,“基于超维矢量与注意力机制的图像翻译方法”执行完毕,该方法能够在具有复杂特征的图像翻译任务中显著减少现语义翻转问题,并减少异常噪点出现概率,尤其是在近景物体的细节刻画上改进明显。

全文数据:

权利要求:

百度查询: 北京工商大学 基于超维矢量与注意力机制的图像翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。