申请/专利权人:北京智谱华章科技有限公司
申请日:2023-12-04
公开(公告)日:2024-03-01
公开(公告)号:CN117635766A
主分类号:G06T11/60
分类号:G06T11/60;H04N19/132;G06T3/4053;G06T3/4092;G06T9/00
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.03.19#实质审查的生效;2024.03.01#公开
摘要:本发明属于大模型技术领域,涉及一种作为GUI代理的视觉语言模型及其构建方法,所述作为GUI代理的视觉语言大模型包括:降采样模块;低分辨率图像编码器;MLP适配器;词嵌入模块;视觉语言解码器;高分辨率图像编码器,其用于对高分辨率GUI图像进行处理以获得高分辨率GUI图像特征序列;交叉注意力模块,其具有多层交叉注意力层,每层所述交叉注意力层分别用于对所述高分辨率GUI图像特征序列和每层自注意力层输出的图像文本组合特征序列进行处理,以获得最终的组合特征序列。其在基础视觉理解方面具有强大的性能,能够用于GUI的理解和导航。
主权项:1.一种作为GUI代理的视觉语言模型,其包括:降采样模块,其用于对高分辨率GUI图像进行降采样处理,以获得低分辨率GUI图像;低分辨率图像编码器,其用于对所述低分辨率GUI图像进行处理以获得低分辨率GUI图像特征序列;MLP适配器,其用于实现所述低分辨率图像编码器与视觉语言解码器之间的适配;词嵌入模块,其用于对输入文本进行处理以获得文本特征序列;视觉语言解码器,其具有多层自注意力层,每层所述自注意力层都用于对所述低分辨率GUI图像特征序列和文本特征序列的组合输入进行处理,以获得图像文本组合特征序列;其特征在于,进一步包括:高分辨率图像编码器,其用于对高分辨率GUI图像进行处理以获得高分辨率GUI图像特征序列;交叉注意力模块,其具有多层交叉注意力层,每层所述交叉注意力层分别用于对所述高分辨率GUI图像特征序列和每层所述自注意力层输出的图像文本组合特征序列进行处理,以获得最终的组合特征序列。
全文数据:
权利要求:
百度查询: 北京智谱华章科技有限公司 一种作为GUI代理的视觉语言模型及其构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。