首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于自编码器的矿山智能问答系统及方法_东北大学_202110727782.9 

申请/专利权人:东北大学

申请日:2021-06-29

公开(公告)日:2024-04-26

公开(公告)号:CN113449038B

主分类号:G06F16/27

分类号:G06F16/27;G06F16/28;G06F16/33;G06F16/332;G06F16/36;G06N5/04

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2021.10.22#实质审查的生效;2021.09.28#公开

摘要:本发明提供一种基于自编码器的矿山智能问答系统及方法,涉及矿山智能问答技术领域。本系统包括矿山数据处理模块,知识图谱表示学习模块,智能问答应用模块;通过对矿山工程实施过程中获得的多源、异构且非结构文本数据较多的信息进行整理和学习,深入挖掘数据之间的内在联系,从而构建出融合了多方信息的知识图谱。通过本发明可以高效的利用原本难以发挥价值的矿山数据。用户可以通过此应用通过提出自然语言问题的形式,快速获取矿山的相关知识。

主权项:1.一种基于自编码器的矿山智能问答系统,其特征在于,包括:矿山数据处理模块,知识图谱表示学习模块,智能问答应用模块;所述的矿山数据处理模块,对矿山数据中的结构化数据以及非结构化文档进行处理,将矿山数据处理成进行表示学习的三元组,数据被整理知识库文件,并以文档的形式保存,并传送至知识图谱表示学习模块;所述知识图谱表示学习模块以矿山数据处理模块传入的知识库文件为输入,通过知识表示学习方法学习知识库文件中三元组中的实体和关系之间的潜在联系,获取数据的分布式结构化信息;所述的智能问答应用模块为,用户通过智能问答的方式获取矿山数据;所述通过智能问答的方式获取矿山数据,智能问答应用模块为用户提供交互界面,用户在交互界面中输入关于矿山的问题,智能问答应用模块后台算法分析问题的结构,并进行拆解,调用事先建立好的矿山数据知识图谱检索用户所提问题的答案;如果用户需要了解问题拆解的过程,以及问题拆解过程中产生的中间答案,点击交互界面上相应的按钮,系统会将问题拆解的过程展示出来,以便于用户了解问题的推理过程,获取问题相关信息;所述后台算法为一个推理网络,包含输入模块,推理模块和回答模块;所述输入模块将自然语言问句编码成分布式的形式,再将先前通过命名实体识别得到的主题实体的分布式表示编码,输入到推理模块中;所述推理模块通过从输入模块获得的信息推断出本次推理需要关注的关系,并将推理结果反馈给输入模型,让其调整输入以便进行下一次推理,同时将结果传输给回答模块,所述回答模块通过获取的实体和关系,在知识图谱中检索这个本次推理分解出的问题的答案,通过不断的迭代,得到问题的答案,回答模块将推理过程中产生的中间信息以及得到的最终答案按照规则整理成文本反馈给用户;所述的一种基于自编码器的矿山智能问答系统,实现基于自编码器的矿山智能问答方法,包括以下步骤:步骤1:矿山信息预处理,将多源异构的矿山数据整理成结构化的文档并存储于数据库中;步骤2:将矿山信息整理为供知识图谱进行表示学习的三元组形式;对于存储于数据库中的数据,将存储于数据库表中的每一条数据名词,属性,属性值按照实体,关系,实体的方式重新构建,若是从非结构化文档中提取的信息则直接按照实体,关系,实体的形式将内容保存为知识库文档;通过对结构化数据和非结构化文档的处理构建知识库文档,文档中的内容按照统一的形式实体,关系,实体进行保存,并制作实体列表和关系列表;步骤3:基于自编码器,构造知识图谱;步骤4:问句解析与答案检索;将非结构化文本的问句转换成图结构的查询,将文本中的实体和关系映射到知识图谱的点与边中,再根据知识图谱中已经结构化的知识,通过检索的方式匹配对应的实体,将检索的结果进行聚合,整理成最终的答案反馈给用户;步骤1中所述预处理过程中,对于数据中存在的非结构化文本,首先使用自然语言处理的方式,进行初步处理:使用命名实体识别,对文本句子中的实体进行标注,得到相应的实体;再通过关系抽取的方式,获取实体与实体之间的关系,最终将非结构化的文本转换成实体,关系,实体的形式;步骤2中所述制作实体列表和关系列表,将知识库文档中出现过的所有实体的集合定义为E,实体之间的关系集合定义为R,出现在知识库文档中第一个位置的实体定义为头实体H,出现在知识库文档中第三个位置的实体定义为尾实体T,其中H,T∈E;此时知识库文档中出现的内容定义为h,r,t,称为三元组,h∈H,r∈R,t∈T,通过所有实体的集合E和所有实体的集合R,分别制作实体列表和关系列表;步骤3中所述知识图谱,对于一个三元组h,r,t,首先使用编码器进行编码,将其映射到关系r所处的空间中,得到头实体h在关系r所处空间中的映射h’,再在r所处的空间中使用关系r对h’进行翻译,得到翻译后的结果h’+r,然后使用解码器将翻译后的结果映射回实体E的空间中,得到结果t’;最后计算使用自编码器进行t’和三元组中原有的t的比较,计算它们之间的距离||t-t’||l12,将三元组h,r,t的得分函数定义为score=DrErh+r-t,其中Erx表示的是使用r对x进行编码的过程,即获得x在r空间中的投影的过程;Drx表示的是使用r对x进行解码的过程,即将x从r空间映射回原空间的过程,将关系r视为是h和t之间的翻译,score视为是头实体h经过r的翻译之后和其对应的尾实体t之间的距离,并使用梯度下降的方法,不断的降低正确的三元组的得分,在降低正确三元组的得分的同时,也给错误的三元组一个更高的得分,最终生成损失函数;所述损失函数L定义成如下的形式: 其中,γ为超参数,△表示知识库文档中保存的三元组h,r,t的集合,△’表示通过随机替换知识库文档中三元组h,r,t的头实体为h’∈E或者尾实体为t’∈E而得到的不正确的三元组h’,r,t’的集合,且h’,r,t’∈△,l12表示的是计算h,r和t三个向量的第一范数或第二范数的数值,ξ是△中正确的三元组h,r,t,ξ’是△’中不正确的三元组h’,r,t’,frξ是指三元组的得分,frh,r,t=DrErh+r–t;步骤4中对于用户给出的自然语言问句,首先需要使用命名实体识别对句子中的成分进行标注,并从中筛选出整个问句的主题实体;再使用推理网络对整个问句进行解析,逐步分析并检索整理出用户想要的答案。

全文数据:

权利要求:

百度查询: 东北大学 一种基于自编码器的矿山智能问答系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。