申请/专利权人:西南电子技术研究所(中国电子科技集团公司第十研究所)
申请日:2020-09-28
公开(公告)日:2021-01-08
公开(公告)号:CN112199511A
主分类号:G06F16/36(20190101)
分类号:G06F16/36(20190101);G06F40/49(20200101);G06F40/58(20200101);G06F40/295(20200101);G06F16/35(20190101)
优先权:
专利状态码:有效-授权
法律状态:2022.07.08#授权;2021.01.26#实质审查的生效;2021.01.08#公开
摘要:本发明公开的一种跨语言多来源垂直领域知识图谱构建方法,涉及知识工程技术领域。本发明通过下述技术方案实现:垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据,通过内容和链接分析完成平行语料库构建,在预处理的基础上基于训练好的翻译模型实现外文文本的自动翻译;领域知识预标注训练实现基于文本分词、文本聚类的主动学习标注,完成基于分析主题的待标注语料筛选,生成确认后的业务标注数据集;选择最优算法,结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取;领域知识融合与消歧对不同来源知识,通过网络等价实体合并进行融合消歧,获得跨语言多来源垂直领域知识图谱。
主权项:1.一种跨语言多来源垂直领域知识图谱构建方法,其特征在于包括如下步骤:垂直领域翻译、领域知识预标注训练、领域知识提取、领域知识融合与消歧,其中,垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据,通过内容和链接分析完成平行语料库构建,利用主动学习技术实现跨语种自动语料标注,进而基于平行语料库完成基于统计模型和神经网络模型的翻译模型构建和训练,同时在外文素材、资料,在预处理的基础上基于训练好的翻译模型,实现外文文本的自动翻译;领域知识预标注训练根据需要标注的文本数据,实现基于文本分词、文本聚类的主动学习标注,完成基于分析主题的待标注语料筛选,基于筛选后的待标注数据和机器预标注模型,采用机器预标注的方法生成标注数据集,通过人工校验和检测工具校验的方式实现标注数据集的校验,并生成确认后的业务标注数据集;基于特征模型,领域知识提取选择最优算法,利用机器学习、自然语言处理、深度学习和领域知识预标注进行训练;在进行领域迁移时,针对应用场景,利用领域知识预标注训练重新训练语料,结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取;领域知识融合与消歧对不同来源知识,通过网络等价实体合并进行融合消歧,获得跨语言多来源垂直领域知识图谱。
全文数据:
权利要求:
百度查询: 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。