买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种建立电力知识图谱的方法_中国电力科学研究院有限公司;中国地质大学(北京)_201910916626.X 

申请/专利权人:中国电力科学研究院有限公司;中国地质大学(北京)

申请日:2019-09-26

公开(公告)日:2024-04-12

公开(公告)号:CN110825881B

主分类号:G06F16/36

分类号:G06F16/36;G06F40/295;G06F40/284

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.10.04#实质审查的生效;2020.02.21#公开

摘要:本发明提供了建立电力知识图谱的方法,解决了需从大量非结构化数据中抽取实体间的关系构建知识图谱的难题,以及远程监督学习构建训练集中的降噪问题,提高了实体识别的准确率,得以建立准确的电力领域知识图谱。

主权项:1.一种建立电力知识图谱的方法,其特征在于,至少包括以下步骤:步骤1,下载以及人工标注电力种子词库,训练电力文本语料得到电力词向量;计算与词向量相似的电力词,筛选有效的候选电力词,构建电力词典;步骤2,通过互信息提取组合词语,根据计算的分数做排序筛序出短语候选组,得到电力短语;步骤3,在网络上获取电力领域的结构化数据以及半、非结构化数据;步骤4,对获取的数据进行数据清洗和预处理,判断数据文件是否存在破损,对采集到的数据文件进行包括统一编码转换和繁简转换的操作;步骤5,对于半、非结构化数据,以构建的电力词典、电力短语作为分词工具的扩展词,使用自然语言处理工具LTP对数据进行分词;对于结构化数据,进行字词人工筛选,作为远程监督学习的知识库;步骤6,对数据进行词性标注、句法分析;步骤7,定义电力知识图谱中电力实体、实体关系、三元组、概念层次图,标注相关的电力数据语料;步骤8,通过深度学习中文命名实体识别方法进行命名实体识别;步骤9,采用远程监督学习法进行实体关系抽取,实现面向电力领域知识图谱的构建;其中,所述步骤9,采用远程监督学习法进行实体关系抽取,具体包括:步骤9-1,进行实体对齐,以实体对齐的方式构建出用于训练和测试的关系实例集;将知识库中的三元组关系映射到训练文档中进行实体对齐,生成关系实例集Q:Q={qn|qn=sm,ei,rk,ej,sm∈D}1其中,ei、ej为两个实体,rk作为两实体在知识库中的关系,sm为实体对在语料库D中的句子,qn为生成的关系实例;步骤9-2,采用基于注意力机制的关系抽取模型进行句内关系抽取;其中,所述步骤9-2,采用基于注意力机制的关系抽取模型进行句内关系抽取,所述基于注意力机制的关系抽取模型主要包括两个部分:句子向量表示模块以及句子级注意力机制模块;所述句子向量表示模块,用于获得关系包内每个关系实例的特征表示;所述句子级注意力机制模块,用于衡量每个关系实例相对于关系包的重要程度;其中,所述句子级注意力机制模块包括:注意力机制计算单元、实体特征表示层、关系包特征表示层、隐藏层以及输出层;所述注意力机制计算单元,用于对关系包中不同实例的权重加以计算,以获得每个关系包的向量表示;权重的计算过程中,在句子向量的基础上融合概念向量、句子标记向量以及目标关系向量三种特征信息,其中,概念向量ei包括描述符向量ci和上下位标记向量qi;所述关系包的特征表示层,用于获得关系包的特征,所述特征由包内的关系实例共同决定;关系包S由n个关系实例组成,S={s1,s2,...,sn},则关系包S的特征向量u可以由公式5得到: 其中,αk是第k个关系实例的权重,sk是第k个关系实例的特征向量;所述实体特征表示层,用于使用BiLSTM来获得实体的抽象特征,具体包括:将关系中实体各自的概率向量e1和e2合并在一起,使用BiLSTM来获得每个实体的前向状态和后项状态将实体的前向状态和后项状态进行合并,如公式6所示; 获得关系中实体各自的状态向量后,对状态向量求和,作为实体对最终的特征表示ef; 得到实体对的特征表示ef和关系包的特征表示u后,将二者进行拼接形成新的特征向量k=[ef;u]送入隐藏层;所述隐藏层,用于接收所述新的特征向量,经过隐藏层的线性和非线性变化,得到实体的最终特征表示z, 其中Wh是参数矩阵,bei是偏置,k为由ef和u拼接形成的新特征向量k=[ef;u];所述输出层,用于输出最终的分类结果,具体包括:对所述隐藏层获得的特征向量z进行线性变换,使用SoftMax变换获得每个关系类别的概率得分,如公式9所示:o=softmaxWoz+bo9其中Wo是参数矩阵,bo是偏置,o是整个网络的输出结果。

全文数据:

权利要求:

百度查询: 中国电力科学研究院有限公司;中国地质大学(北京) 一种建立电力知识图谱的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。