买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于视觉与主题协同注意力的连贯性故事生成系统及方法_同济大学_202110931513.4 

申请/专利权人:同济大学

申请日:2021-08-13

公开(公告)日:2024-01-23

公开(公告)号:CN113779938B

主分类号:G06F40/166

分类号:G06F40/166;G06F40/216;G06F16/35;G06V10/77;G06N3/0442;G06N3/0475;G06N3/0455;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.01.23#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要:本发明涉及一种基于视觉与主题协同注意力的连贯性故事生成系统及方法,该方法包括以下步骤:1提取相册特征向量以及时间动态信息;2获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;3基于视觉与主题协同注意力生成主题连贯性的图像描述语句;4通过考虑n‑gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。与现有技术相比,本发明具有增强描述语句的主题连贯性、提高故事本文的表达多样性、优化视觉故事的生成质量等优点。

主权项:1.一种基于视觉与主题协同注意力的连贯性故事生成系统,其特征在于,该系统包括:图像相册特征编码模块:用以提取相册特征向量以及时间动态信息;主题感知模块:由故事描述文本主题挖掘模型和主题分布预测模型构成,用以获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;视觉与主题协同注意力模块:分别与图像相册特征编码模块和主题感知模块连接,用以基于视觉与主题协同注意力生成主题连贯性的图像描述语句;所述的视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型、基于GRU的自上而下主题注意力模型以及分别与视觉与主题协同注意力模块包括基于GRU的自上而下视觉注意力模型和基于GRU的自上而下主题注意力模型连接的连贯性语句生成模型组成;所述的基于GRU的自上而下视觉注意力模型以上一个时间步的隐状态、图像相册视觉编码信息以及在当前时间步前已经生成的单词Weχt-1作为输入,以视觉权重分布和当前时间步的隐状态作为输出,具体为: 其中,θj,t为时间步t图像相册j的时间动态信息的正则化注意力权重,tanh·表示双曲正切函数,Wv和Wa为转换矩阵,表示向量连接运算符,为基于GRU的自上而下视觉注意力模型在时间步t-1时第j个相册特征的隐状态,为权重参数,为第j个相册在时间步t的视觉权重分布,softmax·为归一化指数函数,We为大小为Ω的词汇表单词嵌入矩阵,χt-1为输入单词在时间步t-1的独热编码;所述的基于GRU的自上而下主题注意力模型自上而下的主题注意力GRU模型的上一个时间步的隐状态、相册中每一幅图像的主题概率分布和主题预测分布以及在当前时间步前已经生成的单词Weχt-1作为输入,以主题权重分布和当前时间步的隐状态作为输出,具体为: 其中,bj,t为时间步t图像相册特征的正则化注意力权重,Wd和Wc为转换矩阵,为基于GRU的自上而下主题注意力模型在时间步t-1时第j个相册特征的隐状态,为权重参数,为第j个相册在时间步t的主题权重分布,为第j个相册在时间步t的主题概率分布;所述的连贯性语句生成模型以视觉权重分布主题权重分布时间步t第j个相册特征的隐状态作为输入,生成主题连贯性的图像描述语句,所述的连贯性语句生成模型的表达式为: 其中,表示连贯性语句生成模型GRUlan的输入,表示连贯性语句生成模型GRUlan模型中第j个相册在时间步t的隐状态,Wp和bp分别为连贯性语句生成模型的学习参数和偏差,pyj,t为第j个相册在时间步t生成单词yj,t的概率分布。

全文数据:

权利要求:

百度查询: 同济大学 基于视觉与主题协同注意力的连贯性故事生成系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。