首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种多模增强的速记待办生成方法及系统_中科九思智能科技(安徽)有限公司_202410300126.4 

申请/专利权人:中科九思智能科技(安徽)有限公司

申请日:2024-03-15

公开(公告)日:2024-05-17

公开(公告)号:CN118051876A

主分类号:G06F18/25

分类号:G06F18/25;G06F40/284;G06N3/0442;G06F40/126

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.04#实质审查的生效;2024.05.17#公开

摘要:本发明为一种多模增强的速记待办生成方法及系统,涉及计算机技术领域,利用整个通话过程中通话双方的每一帧时间戳对应的音频,获取每通话过程中的多模增强相关特征;再利用整个通过过程中通话双方的每一帧时间戳对应的视频面部情绪信息,获取每通话过程中的个性化的多模增强信息。然后利用构建的多模增强信息和原通话文本信息融合模型,充分融合两者信息,提取的多模增强的词级隐层特征,最后利用构建的多模增强交互注意力机制的生成解码模型,自动生成通话双方个性化的速记待办。通过多模增强技术,满足通话双方用户对速记生成、待办生成侧重不同的需求,提出多模增强和通话原文两者之间多模态信息融合机制,并在电话视频通话过程中,充分利用多模增强信息在会议原文中抽取个性化的内容信息,保证生成和通话双方各自关注的速记和待办,最终实现针对视频通话过程中多模增强的效果良好的速记和待办。

主权项:1.一种多模增强的速记待办生成方法,其特征在于,包括以下步骤:对视频通话内容进行处理,获得文本信息,根据对应文本的时间戳信息,进而获得对应的音频信息以及双方的面部图像信息;将文本信息以及对应的音频信息输入Transformer中的编码器部分模型处理,获得文本隐层特征、音频隐层特征,并将文本隐层特征、音频隐层特征直接融合,得到融合后的隐层特征,并且结合根据视频通话内容提取原文的词隐层特征,与音频隐层特征通过self-attention机制处理,得到音频-文本交互融合隐层特征;根据双方的面部图像信息输入双向LSTM结构中处理,获得双方的面部图像隐层特征,并直接融合双方的个人面部图像隐层特征,然后结合音频-文本交互融合隐层特征,得到文本-音频-双方图像融合特征以及双方个性化的图像-音频-文本进一步交互融合后隐层特征;基于交叉熵的损失函数,根据得到的音频-文本交互融合的隐层特征以及个性化的图像-音频-文本交互融合后隐层特征,构建基于多模增强的速记待办解码模型,将待处理视频通话内容输入所述速记待办解码模型中,生成通话双方个性化的速记待办。

全文数据:

权利要求:

百度查询: 中科九思智能科技(安徽)有限公司 一种多模增强的速记待办生成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。