首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于语言大模型的可解释性图像美学情感预测方法_西北大学_202410057047.5 

申请/专利权人:西北大学

申请日:2024-01-15

公开(公告)日:2024-05-17

公开(公告)号:CN118052771A

主分类号:G06T7/00

分类号:G06T7/00;G06N3/0455;G06N3/084;G06N5/045;G06F18/25;G06F40/284;G06V10/44

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.04#实质审查的生效;2024.05.17#公开

摘要:本发明公开了一种基于语言大模型的可解释性图像美学情感预测方法:步骤1,获取美学数据集,对美学数据集进行数据清洗和预处理,获得每张图片的图像ID、文本描述信息和美学质量评分信息;步骤2,构建图像美学可解释性模型,该模型包括视觉特征提取模块、提示文本特征提取模块、文本‑视觉融合模块、美学情感特征提取模块、美学自适应模块和美学描述生成解码模块;步骤3采用训集对图像美学可解释模型进行训练,得到训练好的图像美学可解释模型。步骤4,将待测的图像输入步骤3得到的训练好的图像美学可解释模型,得到输出结果。本发明解决有效地提高了美学可解释性的能力。

主权项:1.一种基于语言大模型的可解释性图像美学情感预测方法,其特征在于,包括以下步骤:步骤1,获取美学数据集,对美学数据集进行数据清洗和预处理,获得每张图片的图像ID、文本描述信息和美学质量评分信息;步骤2,构建图像美学可解释性模型,该模型包括视觉特征提取模块、提示文本特征提取模块、文本-视觉融合模块、美学情感特征提取模块、美学自适应模块和美学描述生成解码模块;所述的视觉特征提取模块用于提取步骤1中处理的美学数据集中的图像的视觉特征;所述的提示文本特征提取模块用于提取Prompt的相关文本特征;所述的文本-视觉融合模块用于将提示文本特征提取模块提取的相关文本特征和视觉特征提取模块提取出的图像的视觉特征进行对应融合,得到关于Prompt提示文本的图像特征;所述的美学情感特征提取模块用于作为美学情感特征提取空间,将视觉特征提取模块提取出的图像的视觉特征进行处理获得有关美学和情感的特征;所述的美学自适应模块用于对文本-视觉融合模块得到的Prompt提示文本的图像特征进行前向传播、反向传播;所述的美学描述生成解码模块用于对美学自适应模块的输出进行特征解码,生成和图像相关的美学质量评价,以及关于该评价的文本解释;步骤3,将步骤1处理过的美学数据集中的每张图片、每张图片的文本描述、对应的美学得分标签作为训练集,对步骤2构建得到的图像美学可解释模型进行训练,得到训练好的图像美学可解释模型。步骤4,将待测的图像输入步骤3得到的训练好的图像美学可解释模型,得到输出结果。

全文数据:

权利要求:

百度查询: 西北大学 一种基于语言大模型的可解释性图像美学情感预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。