买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向医疗知识图谱问答的问句解析方法_武汉科技大学_202111170907.9 

申请/专利权人:武汉科技大学

申请日:2021-10-08

公开(公告)日:2024-04-16

公开(公告)号:CN113918694B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/35;G06F16/36;G06N5/022;G06F40/211;G06F40/30;G06N3/0442;G06N3/0455;G06N3/047;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.01.28#实质审查的生效;2022.01.11#公开

摘要:本发明涉及一种面向医疗知识图谱问答的问句解析方法。其技术方案是:采用分类器对医疗问题进行分类,采用识别器对医疗问题进行实体识别和属性识别;再将识别的实体与知识图谱中的所有实体逐个进行匹配,与所述知识图谱中匹配度最高的实体为标准实体;将识别的属性与知识图谱中所有属性逐个进行匹配,与知识图谱中匹配度最高的属性为标准属性;然后将标准实体、标准属性和标准属性值转化为查询语句,知识图谱中查询模块收到查询语句后,即得到医疗问题的答案。本发明具有识别精准度高和问句分析错误率低的特点,能有效缓解医疗资源的失衡,降低医疗成本。

主权项:1.一种面向医疗知识图谱问答的问句解析方法,其特征在于所述问句解析方法包括如下步骤:步骤1、采用分类器对医疗问题进行分类:事实型问题,列表型问题,验证型问题,复杂交互型问题;步骤2、采用识别器对医疗问题进行实体识别和属性识别:验证型问题有一个实体和一个属性,列表型问题有一个属性,事实型问题有一个实体和一个属性,复杂交互型问题有一个属性;所述实体是指具有对客观个体的抽象;所述属性为实体与实体之间关系的抽象和为实体的固有属性;步骤3、将识别的实体与知识图谱中的所有实体逐个进行匹配,与所述知识图谱中匹配度最高的实体为标准实体;将识别的属性与知识图谱中所有属性逐个进行匹配,与知识图谱中匹配度最高的属性为标准属性;所述匹配的具体方式是:将识别的实体与知识图谱中的各实体的最长公共子序列的长度与标准实体的长度之比作为召回率R,将识别的实体与知识图谱中的各实体的最长公共子序列的长度与识别的实体的长度之比作为准确率P;知识图谱中的各实体的匹配度Slcs: 式1中:β表示常数,β为9999,R表示召回率,%,P表示准确率,%;步骤3.1、所述医疗问题的类别为验证型问题将验证型问题的实体与知识图谱中的所有实体逐个进行匹配,则知识图谱中匹配度最高的实体为验证型问题标准实体;将验证型问题的属性与知识图谱中的所有属性逐个进行匹配,则知识图谱中匹配度最高的属性为验证型问题标准属性;对验证型问题的剩余文本进行属性值抽取,采用正则表达式的方式对抽取的属性值进行标准化,得到标准属性值;步骤3.2、所述医疗问题的类别为列表型问题将列表型问题中的属性与知识图谱中的所有属性逐个进行匹配,则知识图谱中匹配度最高的属性为列表型问题标准属性;对列表型问题的剩余文本进行属性值抽取,采用正则表达式的方式对抽取的属性值进行标准化,得到列表型问题标准属性值;步骤3.3、所述医疗问题的类别为事实型问题将事实型问题中的实体与知识图谱中的所有实体逐个进行匹配,则知识图谱中匹配度最高的实体为事实型问题标准实体;将事实型问题中的属性与知识图谱中的所有属性逐个进行匹配,则知识图谱中匹配度最高的属性为事实型问题标准属性;步骤3.4、所述医疗问题的类别为复杂交互型问题若复杂交互型问题中存在指示代词,则转换为上一个问句中的标准实体,反之,则直接采用上一个问句中的标准实体;所述指示代词为“他”、“谁”、“什么”、“这”、“这个”、“哪”、“她”、“它”中的一个;所述上一个问句为本次问句前保留的3个问句,其中包含标准实体;在步骤3.1~步骤3.4中:所述剩余文本为医疗问题中除识别的属性和识别的实体以外的文本;所述正则表达式是对字符串操作的一种逻辑公式;所述逻辑公式由事先定义的字符组成,所述“事先定义的字符”为大写的26个英文字母、小写的26个英文字母、所有中文字符、“\”、“{”、“}”、“[”、“]”、“?”、“*”、“+”、“<”、“”、“|”、“^”、“=”、“:”、“.”和“$”中的一个以上;步骤4、将标准实体、标准属性和标准属性值转化为查询语句,知识图谱中查询模块收到查询语句后,即得到医疗问题的答案;所述查询语句为Cypher,Cypher是一种用于管理图数据库管理系统的编程语言;所述转换是基于Cypher模板进行的,将Cypher模板中的X替换成标准实体、Y替换成标准属性和Z替换成标准属性值;所述医疗问题的类别为验证型问题时,Cypher模板为MATCHn:dis{name:“X”}-:attribute{name:“Y”}-b:“Z”returncountn;所述医疗问题的类别为列表型问题时,Cypher模板为MATCHn-:attribute{name:“Y”}-b:“Z”returnn;所述医疗问题的类别为事实型问题或复杂交互型问题时,Cypher模板为MATCHn:dis{name:“X”}-:attr{name:“Y”}-b:datareturnb;所述查询模块是Neo4j中的一个功能模块;步骤1所述分类器和步骤2所述识别器均为深度学习模型;所述深度学习模型包括语言处理层、自注意力层、编码层和解码层,将医疗问题转换为向量,再将所述向量作为训练集对深度学习模型进行训练,训练包括:在语言处理层,对训练集进行掩码训练和次句预测训练,将语言处理层的输出作为自注意力层的输入向量;在自注意力层,输入向量乘三个随机初始化向量,创建一个Query向量、一个Key向量和一个Value向量,用点积计算Query向量和Key向量的相似度,同时利用初始化矩阵的维度对输出进行调节,然后用相似度除以最后通过softmax函数归一化,使最后的向量和为1;所述dk表示Query向量的维度,所述dk为64维;所述自注意力层的整体公式为 式2中:Q表示Query向量,K表示Key向量,V表示Value向量;在编码层,采用前向、后向两个长短记忆网络对输入序列进行处理,得到编码向量;在解码层,使用编码向量进行类型判断,根据类型判断结果对实体和属性进行识别。

全文数据:

权利要求:

百度查询: 武汉科技大学 一种面向医疗知识图谱问答的问句解析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。