【发明公布】跨语言多来源垂直领域知识图谱构建方法_西南电子技术研究所(中国电子科技集团公司第十研究所)_202011044895.0

申请/专利权人：西南电子技术研究所(中国电子科技集团公司第十研究所)

申请日：2020-09-28

公开（公告）日：2021-01-08

公开（公告）号：CN112199511A

主分类号：G06F16/36(20190101)

分类号：G06F16/36(20190101);G06F40/49(20200101);G06F40/58(20200101);G06F40/295(20200101);G06F16/35(20190101)

优先权：

专利状态码：有效-授权

法律状态：2022.07.08#授权;2021.01.26#实质审查的生效;2021.01.08#公开

摘要：本发明公开的一种跨语言多来源垂直领域知识图谱构建方法，涉及知识工程技术领域。本发明通过下述技术方案实现：垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据，通过内容和链接分析完成平行语料库构建，在预处理的基础上基于训练好的翻译模型实现外文文本的自动翻译；领域知识预标注训练实现基于文本分词、文本聚类的主动学习标注，完成基于分析主题的待标注语料筛选，生成确认后的业务标注数据集；选择最优算法，结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取；领域知识融合与消歧对不同来源知识，通过网络等价实体合并进行融合消歧，获得跨语言多来源垂直领域知识图谱。

主权项：1.一种跨语言多来源垂直领域知识图谱构建方法，其特征在于包括如下步骤：垂直领域翻译、领域知识预标注训练、领域知识提取、领域知识融合与消歧，其中，垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据，通过内容和链接分析完成平行语料库构建，利用主动学习技术实现跨语种自动语料标注，进而基于平行语料库完成基于统计模型和神经网络模型的翻译模型构建和训练，同时在外文素材、资料，在预处理的基础上基于训练好的翻译模型，实现外文文本的自动翻译；领域知识预标注训练根据需要标注的文本数据，实现基于文本分词、文本聚类的主动学习标注，完成基于分析主题的待标注语料筛选，基于筛选后的待标注数据和机器预标注模型，采用机器预标注的方法生成标注数据集，通过人工校验和检测工具校验的方式实现标注数据集的校验，并生成确认后的业务标注数据集；基于特征模型，领域知识提取选择最优算法，利用机器学习、自然语言处理、深度学习和领域知识预标注进行训练；在进行领域迁移时，针对应用场景，利用领域知识预标注训练重新训练语料，结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取；领域知识融合与消歧对不同来源知识，通过网络等价实体合并进行融合消歧，获得跨语言多来源垂直领域知识图谱。

全文数据：

权利要求：

百度查询：西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种稀土软磁磁性材料热处理设备_天长市中德电子有限公司_202410043713.X

下一篇：用于冷冻冷藏设备的制冷模块和冷冻冷藏设备_青岛海尔智能技术研发有限公司_202211216064.6

相关技术

一种稀土软磁磁性材料热处理设备_天长市中德电子有限公司_202410043713.X

用于冷冻冷藏设备的制冷模块和冷冻冷藏设备_青岛海尔智能技术研发有限公司_202211216064.6

一种锂离子电池结构及其隔膜的制备方法_苏州思道尔新能源科技有限公司_202410036157.3

动态硫化热塑性弹性体及其制备方法和应用_中国石油化工股份有限公司_202211218049.5

一种基于自动编码器结构的CSI反馈方法_北京航空航天大学_202410265711.5

卫星用铁路运输环境保障装置及制造方法_上海卫星装备研究所_202311802911.1

一种木制家具加工用压胶装置_皇庭雅居家具海安有限公司_202211407041.3

术中使用摄影测量对准手术要素的系统和方法_微创骨科学控股股份有限公司_202280057958.7

一种储能集装箱以及储能系统_华为数字能源技术有限公司_202311836147.X

一种电厂热力循环系统和方法_陈明佳_202211215413.2

基于进化神经网络架构搜索的肌肉骨骼异常检测方法_安徽大学_202410005295.5

元件面板_友达光电股份有限公司_202410037940.1

龙图腾网&IPTOP

【发明公布】跨语言多来源垂直领域知识图谱构建方法_西南电子技术研究所(中国电子科技集团公司第十研究所)_202011044895.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务