买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】融合主题关联图的越汉低资源跨语言摘要方法_昆明理工大学_202210671046.0 

申请/专利权人:昆明理工大学

申请日:2022-06-15

公开(公告)日:2024-04-19

公开(公告)号:CN115048948B

主分类号:G06F40/58

分类号:G06F40/58;G06F40/42;G06F40/242;G06F16/34

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2022.09.30#实质审查的生效;2022.09.13#公开

摘要:本发明涉及一种融合主题关联图的越汉低资源跨语言摘要方法,属于自然语言处理技术领域。本发明首先利用源语言文本获取文本主题词,基于越汉概率映射对将主题词进行映射从而构建主题关联图,然后通过图编码器、序列编码器,基于双编码器生成表示,最后在解码端同时关注主题关联图表示和神经网络生成的分布来生成摘要。本发明在越‑汉跨语言摘要数据集上进行了实验,实验证明了本发明模型的有效性和优越性。

主权项:1.融合主题关联图的越汉低资源跨语言摘要方法,其特征在于,所述方法的具体步骤如下:Step1.语料收集:利用基于模板的网络爬虫技术从互联网上爬取基于越南语的文章摘要数据集,并获得对应的中文的文章摘要数据集;从而获得越汉跨语言摘要数据集,并进行筛选对齐,得到最终的越汉跨语言摘要数据集;Step2.语料预处理:对筛选后获得的最终的越汉跨语言摘要数据集进行分词预处理,利用fast-align工具及统计的思想获得越汉概率映射对,并基于源语言文本获取文本的主题词;Step3.图映射构建及编码:首先通过越汉概率映射对将基于越南语的主题词映射到汉语的语义空间中,以此作为主题关联图的节点;将两个主题词之间的相似度作为连接两个主题词之间的边,由此构建主题关联图,引入图编码器,对主题关联图进行表征;Step4.主题关联图的融入:以序列到序列模型Transformer为框架,结合图编码器,对处理好的越汉跨语言摘要数据集进行训练,并得到训练好的融合主题关联图的越汉低资源跨语言摘要模型,利用测试集对训练好的模型进行测试,得到跨语言摘要结果并进行质量评估;所述Step4中,基于序列到序列模型的Transformer框架,通过图编码器、序列编码器,基于双编码器生成表示,最后在解码端同时关注主题关联图表示和神经网络生成的分布来生成摘要;所述Step3中,构建主题关联图时,首先通过源语言文本获取全文的主题词,基于主题词作为节点,首先对节点进行编码,然后通过越汉概率映射词典,通过越汉概率映射机制,将基于源语言的主题词节点映射到目标语言;然后利用基于目标语言的主题词构造主题关联图;开始构造主题关联图时,将各个主题词作为主题关联图的节点,将每两个主题词之间的相似度作为连接两个主题词之间的边,由此构建主题关联图;所述Step3中,图形编码器通过合并主题关联图中的所有节点并捕获它们节点之间的交互来编码文档级别的全局上下文;所述Step4中包括:将主题关联图信息的节点特征T作为解码端编解码注意力机制的Key、Value,将多头自注意力机制输出的结果H作为Query;然后,利用融合了主题关联图结构信息的表征Ak来指导源语言文本的解码,以序列编码器的输出作为下一个编解码注意力机制的Key、Value,上一层的输出作为Query;然后,经残差连接归一化后,解码端输出结果。

全文数据:

权利要求:

百度查询: 昆明理工大学 融合主题关联图的越汉低资源跨语言摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术