买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种融合规则和深度学习的渔业标准知识图谱构建方法_大连海洋大学_202111143767.6 

申请/专利权人:大连海洋大学

申请日:2021-09-28

公开(公告)日:2024-04-05

公开(公告)号:CN113946685B

主分类号:G06F16/36

分类号:G06F16/36;G06F16/35;G06Q50/02;G06N3/045;G06N3/0442;G06N3/08;G06N5/02

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2022.02.08#实质审查的生效;2022.01.18#公开

摘要:本发明公开一种融合规则和深度学习的渔业标准知识图谱构建方法,包括收集渔业标准文本并对渔业标准数据集进行预处理;对渔业标准文本进行标注并增广比较关系实体对;搭建规则库和构建并训练深度学习的模型;依据规则库和训练好的BERT‑BiLSTM‑CRF模型对训练集继续进行实体和关系的识别和抽取,获得关系三元组,存储在图数据库中并完成渔业标准知识图谱的构建,大大简化了构建图谱工作复杂度。

主权项:1.一种融合规则和深度学习的渔业标准知识图谱构建方法,其特征在于按照如下步骤进行:步骤1.收集渔业标准文本,对渔业标准文本进行预处理;步骤2.根据标注规则对预处理后的渔业标准文本进行人工标注并增广数据集:所述标注规则如下:(1)分为5类实体,采用BIO标注方法分别进行标注:渔业标准号,头字符标注为B-STA;渔业标准涉及人名,头字符标注为B-RM;渔业标准定量指标,头字符标注为B-DL;渔业标准涉及单位,头字符标注为B-DW;渔业标准内其他项,头字符标注为B-BIO;(2)实体与实体之间为8种关系,标注规则分别为:标准号与标准号或定量指标之间存在引用关系,标注为YY;标准号与人名或单位之间存在起草关系,标注为QC;标准号与定量指标之间存在规定关系,标注为GD;标准号与定量指标之间存在包含关系,标注为BH;标准号与单位之间存在发布关系,标注为FB;标准号与单位之间存在提出关系,标注为TC;标准号与单位之间存在归口关系,标注为GK;其他项与其他项之间存在比较关系,标注为BJ;(3)当关系类型为普通关系类型,即单个实体对应单个实体,在实体的标注后标注-7,生成一个三元组;当关系类型为一对多重叠关系,即单个实体对应多个实体,在实体的标注后标注-8,生成多个三元组;当关系类型为多对一重叠关系,即为多个实体对应单个实体,在实体的标注后标注-9,生成多个三元组;所述增广数据集是统计数据集中的比较关系,识别出比较关系三元组中的实体,通过替换和调换三元组中的实体进行数据增广;步骤3.将经过预处理的渔业标准文本分为训练集及应用集,搭建规则库和构建并训练深度学习的模型;所述搭建规则库是选取存在8种关系之一的两个实体作为种子实体,在训练集中寻找包含种子实体的句子,提取句子内句式规则搭建规则库;所述搭建深度学习模型是搭建BERT-BiLSTM-CRF模型,BERT层负责词嵌入,BilSTM层提取特征,CRF层对特征向量进行标签预测;所述训练深度学习的模型是采用训练集的渔业标准文本对所搭建的BERT-BiLSTM-CRF模型进行训练;步骤4.依据规则库和训练好的BERT-BiLSTM-CRF模型对训练集继续进行实体和关系的识别和抽取,获得关系三元组,具体如下:步骤4.1依据规则库,通过正则表达式对已标注的渔业标准文本中符合规则的标准号及关系实体进行抽取,获得基于规则库的关系三元组;步骤4.2隐藏基于规则库的关系三元组,采用BERT将文本转换成包含词向量、句子向量和位置向量的向量矩阵;步骤4.3将向量矩阵输入进BiLSTM层,经过BiLSTM层获取文本的特征词向量表示,然后在汇聚层将特征词向量汇聚成最终用于渔业标准文本关系分类的词向量特征;步骤4.4将词向量特征送入CRF层中进行标签的预测,输出实体和关系的标签序列,获得基于深度学习模型的关系三元组;步骤5.使用py2neo库将基于规则库的关系三元组和基于深度学习模型的关系三元组存储到Neo4j图形数据库中,利用开源可视化库Echarts完成渔业标准知识图谱的构建。

全文数据:

权利要求:

百度查询: 大连海洋大学 一种融合规则和深度学习的渔业标准知识图谱构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。