申请/专利权人:东北大学
申请日:2024-01-09
公开(公告)日:2024-04-12
公开(公告)号:CN117874276A
主分类号:G06F16/583
分类号:G06F16/583;G06N3/0455;G06N3/08
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.30#实质审查的生效;2024.04.12#公开
摘要:本发明提供基于词生成的端到端编码器‑解码器图像描述生成方法,涉及图像描述生成技术领域。首先获取图像描述数据集全集,并根据图像描述数据集全集构建若干个参考句集合,同时获取用于模型初始化的预训练权重;根据参考句集合构建图像描述数据集子集;然后构建基于词生成的端到端编码器‑解码器的图像描述模型,包括串行的图像特征抽取器、语言模型规模适应器、词级别描述生成器、描述生成集成模块;利用预训练权重对图像描述模型进行初始化;利用构建的图像描述模型生成最终图像描述;通过设定的训练策略训练图像描述模型,得到训练好的图像描述模型;最后通过训练好的图像描述模型实现图像描述生成,提高了图像描述文本的生成效率和质量。
主权项:1.基于词生成的端到端编码器-解码器图像描述生成方法,其特征在于,该方法包括如下步骤:步骤1:获取图像描述数据集全集,并根据图像描述数据集全集构建若干个参考句集合,同时获取用于模型初始化的预训练权重;步骤2:根据参考句集合构建图像描述数据集子集;步骤3:构建基于词生成的端到端编码器-解码器的图像描述模型,该模型包括串行的图像特征抽取器、语言模型规模适应器、词级别描述生成器和描述生成集成模块;利用预训练权重对所述图像特征抽取器和所述词级别描述生成器进行初始化;步骤4:将图像描述数据集子集输入基于词生成的端到端编码器-解码器的图像描述模型,得到最终图像描述;步骤5:通过设定的训练策略对基于词生成的端到端编码器-解码器的图像描述模型进行训练,得到训练好的基于词生成的端到端编码器-解码器的图像描述模型;步骤6:通过训练好的基于词生成的端到端编码器-解码器的图像描述模型实现图像描述生成。
全文数据:
权利要求:
百度查询: 东北大学 基于词生成的端到端编码器-解码器图像描述生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。