买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于RGB数据的单视角三维物体重建方法及装置_北京工业大学_202110765943.3 

申请/专利权人:北京工业大学

申请日:2021-07-05

公开(公告)日:2024-04-09

公开(公告)号:CN113538662B

主分类号:G06T17/00

分类号:G06T17/00;G06T15/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2021.11.09#实质审查的生效;2021.10.22#公开

摘要:一种基于RGB数据的单视角三维物体重建方法及装置,能够将对象三维重建任务转换成基底系数矩阵的生成问题,挖掘可见部分和遮挡部分形状之间的关系,从而得到具有精确细节信息的三维体素,提升了三维模型重建精度。方法包括:1建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间,经编码‑解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。2建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建。

主权项:1.一种基于RGB数据的单视角三维物体重建方法,其特征在于:该方法包括以下步骤:1建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成;令训练集中的样本张成形状空间,经编码-解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建;2建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建;所述步骤1包括以下分步骤:1.1通过一个自编码器学习训练集中三维体素的潜在特征S,然后利用SVD来定义一组基底;1.2用一个图像编码器提取输入图像的特征表示Z,对于每个物体类别,对该类别内所有实例的潜在嵌入进行聚类,并把聚类结果作为形状先验B;然后设计基于Transformer的网络去回归系数,其利用自注意力机制建模并融合图像视觉特征和先验信息以探索它们之间的关联关系,且提高特征的上下文依赖关系并学习复杂的语义抽象信息以得到更好的系数表示Y;所述步骤1.2中,Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示,编码器包含L个相同块组成,每个块有两个子层;第一个子层是多头自注意机制,第二个子层是多层感知机网络,这两个子层的每一层都使用一个残差连接;自注意是Transformer的核心组件,它将特征映射的不同位置关联起来,自注意描述为一个映射函数,将查询矩阵Q,键矩阵K和值矩阵V映射到输出注意矩阵,都是矩阵,输出是由值的加权和计算得到的,其中分配给每个值得权重是通过相应的键和查询计算得到,在注意力操作中,使用比例因子进行适当的归一化,当d导致点积在数量级上的增长时,缩放点积注意力的输出表示为: 其中Q,K,和V是由嵌入特征通过WQ,WK,和的线性变换计算得到的:Q=ZWQ,K=ZWK,V=ZWV2多头自注意层MSA利用多个头对来自不同位置的表示子空间的信息进行联合建模,每个头平行地使用缩放点积注意力,多头自注意的输出将是h个注意头输出的拼接:MSAQ,K,V=ConcatH1,H2,...,HhWoutHi=AttentionQi,Ki,Vi,i∈[1,...,h]3给定嵌入特征则L层的特征Transfomer编码器结构表示为:Z'l=MSALNZl-1+Zl-1,l=1,2,...LZl=MLPLNZl+Zl',l=1,2,...LY=LNZL,4其中LN·定义为层归一化操作,最后编码器输出就是求得的系数;将系数与基底相乘之后送入到解码器中进行解码,从而得到重建的初始三维体素Vcoa;所述步骤2中,对于每一个三维体素,首先将其定义为V;然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片,得到集合,其中集合里包含一个dr×dr的二维切片序列,序列长度为dr;每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为每个切片特征,则切片特征矩阵T为dr×Dl;将此特征矩阵送入Transformer编码器中,则L层的Transfomer编码器结构表示为:T'l=MSALNTl-1+Tl-1,l=1,2,...LTl=MLPLNTl+Tl',l=1,2,...LM=LNTL,6其中LN·定义为层归一化操作,Transformer编码器包含L个相同层,输出与编码器输入保持一样的大小,然后将优化后的切片拼接形成完整而准确的三维体素。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于RGB数据的单视角三维物体重建方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。