买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于Transformer的多模态美学质量评价方法_杭州电子科技大学_202310175150.5 

申请/专利权人:杭州电子科技大学

申请日:2023-02-28

公开(公告)日:2024-03-01

公开(公告)号:CN117635964A

主分类号:G06V10/44

分类号:G06V10/44;G06V10/77;G06V10/80;G06V10/82;G06N3/08;G06N3/0464

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.19#实质审查的生效;2024.03.01#公开

摘要:本发明公开了一种基于Transformer的多模态美学质量评价方法,包括步骤如下:S1、将图像输入视觉特征编码器中提取视觉特征;S2、将对应的用户评论数据输入文本特征编码器中提取包含语义信息的文本特征;S3、提取得到视觉特征和文本特征输入跨模态编码器中,输出特征融合后的视觉特征和文本特征;S4、将S3中输出的视觉特征和文本特征进行连接,经过一层Linear层输出10维的美学分数分布,使用EMD作为损失函数进行训练优化。该方法设计一个良好的跨模态编码器充分地学习另一模态的信息,充分地建模视觉特征和文本特征之间的内在关联性,有效地提升美学质量评价的性能。

主权项:1.一种基于Transformer的多模态美学质量评价方法,其特征在于,包括如下步骤:S1、将图像输入至视觉特征编码器中提取视觉特征;S2、将图像所对应的用户评论数据输入至文本特征编码器中提取包含语义信息的文本特征;S3、将提取得到视觉特征和文本特征输入至跨模态编码器中,输出特征融合后的视觉特征和文本特征;S4、将S3中输出的融合后的视觉特征和文本特征进行连接,经过一层Linear层输出10维的美学分数分布,使用EMD作为损失函数进行训练优化。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种基于Transformer的多模态美学质量评价方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。