买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于主述位的自动问答系统及其实现方法_苏州大学_201610156326.2 

申请/专利权人:苏州大学

申请日:2016-03-18

公开(公告)日:2019-02-26

公开(公告)号:CN105824933B

主分类号:G06F16/332(2019.01)I

分类号:G06F16/332(2019.01)I

优先权:

专利状态码:有效-授权

法律状态:2019.02.26#授权;2016.08.31#实质审查的生效;2016.08.03#公开

摘要:本发明公开了基于主述位的自动问答系统及实现方法,包含预处理模块、问题理解模块、信息检索模块、答案抽取模块以及知识库模块,预处理模块,用于对用户问句的分词、词性标注;问题理解模块,对问句进行问题分类、主述位切分;信息检索模块,对问句进行答案检索、相似度排序;答案抽取模块,对检索出的答案进行成分抽取、答案合成;知识库模块,构建答案语料知识库。基于语义理解提出基于主述位的问答系统答案相似度搜索匹配方法,先将答案语料库中的篇章切分为小句,将小句分为主位和述位,来表示小句的篇章结构,通过分析问句的主位以及述位,理解用户提问的意图,了解用户已知的信息,从答案中寻找用户未知的内容,以提高自动问答的正确率。

主权项:1.基于主述位的自动问答系统,其特征在于:包含预处理模块1、问题理解模块2、信息检索模块3、答案抽取模块4以及知识库模块5,所述预处理模块1,用于对用户问句的分词、词性标注;所述问题理解模块2,用于对问句进行问题分类、主述位切分;所述信息检索模块3,用于对问句进行答案检索、相似度排序;所述答案抽取模块4,用于对检索出的答案进行成分抽取、答案合成;所述知识库模块5,用于答案语料知识库的构建;所述信息检索模块3包含答案检索模块301和相似度排序模块302;所述答案检索模块301根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=T1,T2,...,Tn表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块302将计算的结果集进行由大到小排序,提取最相关的答案语料。

全文数据:基于主述位的自动问答系统及其实现方法技术领域本发明涉及一种基于主述位的自动问答系统及其实现方法。背景技术当前互联网技术高速发展,每天都有海量的信息存储在互联网上,人们也不断地使用搜索引擎去获取各类信息。但目前的搜索引擎存在很大的局限性,比如用户的搜索返回的通常是大量的相关网页繁多而且冗杂等,传统的搜索引擎已经不适应当前用户的需求,自动问答系统应运而生。自动问答系统允许用户以自然语言来进行提问,通过各种自然语言处理技术理解用户的问题,并返回较为简洁的答案。但是,就目前的自动问答技术来说,大部分的自动问答系统还是基于关键词匹配的形式去搜索用户所需要的信息,并不能理解用户真正的需求。有的时候,人们查找信息的需求并不一定能通过简单的关键词组合来表达自己的意图,这样,自动问答系统就更不能接受并且理解用户的意图,进而给出令人满意的答案了。而且,这种关键词匹配的形式,使用最简单的关键词匹配的形式查找相关信息,无法处理用户的深层语义,因而有的时候检索出来的答案相差很大,准确率很低。在Tree会议的测试中,目前的自动问答系统的准确率一般都在30%左右。发明内容本发明的目的是克服现有技术存在的不足,提供一种基于主述位的自动问答系统及其实现方法,基于语义理解提出基于主述位的问答系统答案相似度搜索匹配,提高自动问答的准确率。本发明的目的通过以下技术方案来实现:基于主述位的自动问答系统,特点是:包含预处理模块、问题理解模块、信息检索模块、答案抽取模块以及知识库模块,所述预处理模块,用于对用户问句的分词、词性标注;所述问题理解模块,用于对问句进行问题分类、主述位切分;所述信息检索模块,用于对问句进行答案检索、相似度排序;所述答案抽取模块,用于对检索出的答案进行成分抽取、答案合成;所述知识库模块,用于答案语料知识库的构建。进一步地,上述的基于主述位的自动问答系统,其中,所述预处理模块包含中文分词模块和词性标注模块,中文分词模块,用于问句中文分词,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块,用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型。更进一步地,上述的基于主述位的自动问答系统,其中,所述问题理解模块包含问题分类模块和主述位切分模块,所述问题分类模块,用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,对问题进行分类;所述主述位切分模块对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,述位是指话语的未知信息,是对主位的陈述。更进一步地,上述的基于主述位的自动问答系统,其中,所述主位分成单项主位、复项主位和句项主位,句子或者话语的主位内部未含有主位述位结构时,主位是一独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,人际成分提取语句中的人物称呼,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位。更进一步地,上述的基于主述位的自动问答系统,其中,所述信息检索模块包含答案检索模块和相似度排序模块;所述答案检索模块根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=T1,T2,...,Tn表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块将计算的结果集进行由大到小排序,提取最相关的答案语料。更进一步地,上述的基于主述位的自动问答系统,其中,所述答案抽取模块包含答案成分抽取模块和答案合成模块;答案成分抽取模块对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,答案合成模块将答案成分与用户的问句进行合成,生成最终答案。更进一步地,上述的基于主述位的自动问答系统,其中,所述知识库模块包含知识爬取模块、小句切分模块、主述位切分模块、数据存储模块;知识爬取模块通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块将爬取到的文章材料进行切分,通过标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块将最后处理的结果存储在数据库中,以便进行信息检索。本发明基于主述位的自动问答方法,包括以下步骤:用户提出问题,对问句进行中文分词,将每个词语区分开来;将区分好的问句进行词性标注;提取问句的疑问词短语,根据疑问词短语来进行问题分类;去掉问句中的疑问词短语,并进行主述位切分,找出问句中缺失的成分;依照问句的主述位,将其带入答案语料中进行相似度计算;对答案语料的相似度进行排序,提取相似度最高的答案语料;根据问句理解模块中得到的问句类型以及问句所需成分,提取出答案语料中的信息;与用户的问句进行合成,形成最终答案。再进一步地,上述的基于主述位的自动问答方法,由预处理模块,对问句进行中文分词以及词性标注,为问句处理提供先决条件;由问题理解模块,对问句的类型进行识别,将不同类型的问题区分开来,根据不同的问句类型采取不同的处理方式,并且对问句进行主述位切分,理解提问的意图;由信息检索模块,将问句带入知识库中进行检索,通过基于主述位理论的方法,进行相似度计算,提取出最相关的答案;由答案抽取模块,将检索的答案根据问句的问题类型以及提问的意图进行处理,抽取出需要的成分与问句进行合成,得到最终的答案;由知识库模块,从网络上爬取相关信息并生成知识库存储在数据库中,供信息检索模块进行答案检索。再进一步地,上述的基于主述位的自动问答方法,所述预处理模块包含中文分词模块和词性标注模块,中文分词模块,用于问句中文分词,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块,用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型;所述问题理解模块包含问题分类模块和主述位切分模块,所述问题分类模块,用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,对问题进行分类;所述主述位切分模块对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,述位是指话语的未知信息,是对主位的陈述;所述主位分成单项主位、复项主位和句项主位,句子或者话语的主位内部未含有主位述位结构时,主位是一独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,人际成分提取语句中的人物称呼,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位;所述信息检索模块包含答案检索模块和相似度排序模块;所述答案检索模块根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=T1,T2,...,Tn表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块将计算的结果集进行由大到小排序,提取最相关的答案语料;所述答案抽取模块包含答案成分抽取模块和答案合成模块;答案成分抽取模块对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,答案合成模块将答案成分与用户的问句进行合成,生成最终答案;所述知识库模块包含知识爬取模块、小句切分模块、主述位切分模块、数据存储模块;知识爬取模块通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块将爬取到的文章材料进行切分,通过标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块将最后处理的结果存储在数据库中,以便进行信息检索。本发明技术方案突出的实质性特点和显著的进步主要体现在:①基于语义理解提出基于主述位的问答系统答案相似度搜索匹配方法,首先将答案语料库中的篇章切分为小句,进一步将小句分为主位和述位,来表示小句的篇章结构,通过分析问句的主位以及述位,理解用户提问的意图,了解用户已知的信息,从答案中寻找用户未知的内容,以提高自动问答的正确率;②采用新型的主述位切分的模式,取代常用的关键词提取的方法,将问句切分成主位和述位,通过主位和述位来理解问句的语义,获取问句中已知的成分以及问句提问的意图;③采用主述位词向量语义匹配的方法替代关键词匹配的方法,并采用基于主述位的词向量语义相似度计算,通过基于主述位的词向量语义相似度匹配来得到最佳答案,提高问答的准确率。附图说明图1:本发明系统的架构原理示意图;图2:预处理模块的架构原理示意图;图3:问题理解模块的架构原理示意图;图4:信息检索模块的架构原理示意图;图5:答案抽取模块的架构原理示意图;图6:知识库模块的架构原理示意图;图7:本发明的流程示意图。具体实施方式通过对当前自动问答技术的研究,提出了一种基于主述位的技术方法,首先将答案语料库中的篇章切分为小句,进一步将小句分为主位和述位,来表示小句的篇章结构。主位是指用户已知的信息,述位是指有关该话题所陈述的新的事实。通过分析问句的主位以及述位,理解用户提问的意图,了解用户已知的信息,从答案中寻找用户未知的内容,以提高自动问答的正确率。如图1所示,基于主述位的自动问答系统,包含预处理模块1、问题理解模块2、信息检索模块3、答案抽取模块4以及知识库模块5,预处理模块1,用于对用户问句的分词、词性标注;问题理解模块2,用于对问句进行问题分类、主述位切分;信息检索模块3,用于对问句进行答案检索、相似度排序;答案抽取模块4,用于对检索出的答案进行成分抽取、答案合成;知识库模块5,用于答案语料知识库的构建。如图2所示,预处理模块1包含中文分词模块101和词性标注模块102,中文分词模块101,用于问句中文分词,自然语言处理是基于词语的基础上处理,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块102,用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型。如图3所示,问题理解模块2包含问题分类模块201和主述位切分模块202,所述问题分类模块201,用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,比如在用户的提问中含有疑问词“谁”,就可很容易地知道用户提问的意图是在询问人名,当用户的提问中会出现疑问词“什么”这类一般疑问词的时,还会采取找到疑问句中与疑问词联合紧密、目的明确的词语来和疑问词合并,组成疑问词短语来进一步判断用户提问的意图,对问题进行分类;主述位切分模块202对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,位于句首的位置,既可是功能性的,也可能是结构性的,述位是指话语的未知信息,是对主位的陈述;主位分成单项主位、复项主位和句项主位,当句子或者话语的主位内部未含有主位述位结构时,主位是一个独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,如“好的”、“现在”等,结构成分,如“当”、“但是”等,连接成分,如“然后”、“最后”等组成,人际成分提取语句中的人物称呼,如“女士们”等,情态成分,如“惊讶地”等,限定成分,如“不”等,疑问词成分,比如“何时”等结构来组成,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位。如图4所示,信息检索模块3包含答案检索模块301和相似度排序模块302;所述答案检索模块301根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=T1,T2,...,Tn表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块302将计算的结果集进行由大到小排序,提取最相关的答案语料。如图5所示,答案抽取模块4包含答案成分抽取模块401和答案合成模块402;答案成分抽取模块401对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块401根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,如问句提问时间的时候,就需要提取答案语料中的时间词语,答案合成模块402将答案成分与用户的问句进行合成,生成最终答案。如图6所示,知识库模块5包含知识爬取模块501、小句切分模块502、主述位切分模块503、数据存储模块504;知识爬取模块501通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块502将爬取到的文章材料进行切分,通过句号等标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块503将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块504将最后处理的结果存储在数据库中,以便进行信息检索。基于主述位的自动问答方法,其步骤为:用户提出问题,对问句进行中文分词,将每个词语区分开来;将区分好的问句进行词性标注;提取问句的疑问词短语,根据疑问词短语来进行问题分类;去掉问句中的疑问词短语,并进行主述位切分,找出问句中缺失的成分;依照问句的主述位,将其带入答案语料中进行相似度计算;对答案语料的相似度进行排序,提取相似度最高的答案语料;根据问句理解模块中得到的问句类型以及问句所需成分,提取出答案语料中的信息;与用户的问句进行合成,形成最终答案。如图7所示,由预处理模1,对问句进行中文分词以及词性标注,为问句处理提供先决条件;问题理解模块2,对问句的类型进行识别,将不同类型的问题区分开来,根据不同的问句类型采取不同的处理方式,并且对问句进行主述位切分,理解提问的意图;信息检索模块3,将问句带入知识库中进行检索,通过基于主述位理论的方法,进行相似度计算,提取出最相关的答案;答案抽取模块4,将检索的答案根据问句的问题类型以及提问的意图进行处理,抽取出需要的成分与问句进行合成,得到最终的答案;知识库模块5,从网络上爬取相关信息并生成知识库存储在数据库中,供信息检索模块进行答案检索。本发明基于语义理解提出一种基于主述位的问答系统答案相似度搜索匹配方法,提高自动问答系统的准确率。采用一种新型的主述位切分的模式,取代常用的关键词提取的方法,将问句切分成主位和述位,通过主位和述位来理解问句的语义,获取问句中已知的成分以及问句提问的意图。采用主述位词向量语义匹配的方法替代关键词匹配的方法,并采用基于主述位的词向量语义相似度计算。通过基于主述位的词向量语义相似度匹配来得到最佳答案,提高问答的准确率。需要理解到的是:以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

权利要求:1.基于主述位的自动问答系统,其特征在于:包含预处理模块1、问题理解模块2、信息检索模块3、答案抽取模块4以及知识库模块5,所述预处理模块1,用于对用户问句的分词、词性标注;所述问题理解模块2,用于对问句进行问题分类、主述位切分;所述信息检索模块3,用于对问句进行答案检索、相似度排序;所述答案抽取模块4,用于对检索出的答案进行成分抽取、答案合成;所述知识库模块5,用于答案语料知识库的构建;所述信息检索模块3包含答案检索模块301和相似度排序模块302;所述答案检索模块301根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=T1,T2,...,Tn表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块302将计算的结果集进行由大到小排序,提取最相关的答案语料。2.根据权利要求1所述的基于主述位的自动问答系统,其特征在于:所述预处理模块1包含中文分词模块101和词性标注模块102,中文分词模块101,用于问句中文分词,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块102,用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型。3.根据权利要求1所述的基于主述位的自动问答系统,其特征在于:所述问题理解模块2包含问题分类模块201和主述位切分模块202,所述问题分类模块201,用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,对问题进行分类;所述主述位切分模块202对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,述位是指话语的未知信息,是对主位的陈述。4.根据权利要求3所述的基于主述位的自动问答系统,其特征在于:所述主位分成单项主位、复项主位和句项主位,句子或者话语的主位内部未含有主位述位结构时,主位是一独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,人际成分提取语句中的人物称呼,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位。5.根据权利要求1所述的基于主述位的自动问答系统,其特征在于:所述答案抽取模块4包含答案成分抽取模块401和答案合成模块402;答案成分抽取模块401对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块401根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,答案合成模块402将答案成分与用户的问句进行合成,生成最终答案。6.根据权利要求1所述的基于主述位的自动问答系统,其特征在于:所述知识库模块5包含知识爬取模块501、小句切分模块502、主述位切分模块503、数据存储模块504;知识爬取模块501通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块502将爬取到的文章材料进行切分,通过标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块503将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块504将最后处理的结果存储在数据库中,以便进行信息检索。7.权利要求1所述系统实现基于主述位的自动问答方法,其特征在于包括以下步骤:用户提出问题,对问句进行中文分词,将每个词语区分开来;将区分好的问句进行词性标注;提取问句的疑问词短语,根据疑问词短语来进行问题分类;去掉问句中的疑问词短语,并进行主述位切分,找出问句中缺失的成分;依照问句的主述位,将其带入答案语料中进行相似度计算;对答案语料的相似度进行排序,提取相似度最高的答案语料;根据问句理解模块中得到的问句类型以及问句所需成分,提取出答案语料中的信息;与用户的问句进行合成,形成最终答案。8.根据权利要求7所述的基于主述位的自动问答方法,其特征在于:由预处理模块1,对问句进行中文分词以及词性标注,为问句处理提供先决条件;由问题理解模块2,对问句的类型进行识别,将不同类型的问题区分开来,根据不同的问句类型采取不同的处理方式,并且对问句进行主述位切分,理解提问的意图;由信息检索模块3,将问句带入知识库中进行检索,通过基于主述位理论的方法,进行相似度计算,提取出最相关的答案;由答案抽取模块4,将检索的答案根据问句的问题类型以及提问的意图进行处理,抽取出需要的成分与问句进行合成,得到最终的答案;由知识库模块5,从网络上爬取相关信息并生成知识库存储在数据库中,供信息检索模块进行答案检索。9.根据权利要求8所述的基于主述位的自动问答方法,其特征在于:所述预处理模块1包含中文分词模块101和词性标注模块102,中文分词模块101,用于问句中文分词,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块102,用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型;所述问题理解模块2包含问题分类模块201和主述位切分模块202,所述问题分类模块201,用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,对问题进行分类;所述主述位切分模块202对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,述位是指话语的未知信息,是对主位的陈述;所述主位分成单项主位、复项主位和句项主位,句子或者话语的主位内部未含有主位述位结构时,主位是一独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,人际成分提取语句中的人物称呼,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位;所述信息检索模块3包含答案检索模块301和相似度排序模块302;所述答案检索模块301根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=T1,T2,...,Tn表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块302将计算的结果集进行由大到小排序,提取最相关的答案语料;所述答案抽取模块4包含答案成分抽取模块401和答案合成模块402;答案成分抽取模块401对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块401根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,答案合成模块402将答案成分与用户的问句进行合成,生成最终答案;所述知识库模块5包含知识爬取模块501、小句切分模块502、主述位切分模块503、数据存储模块504;知识爬取模块501通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块502将爬取到的文章材料进行切分,通过标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块503将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块504将最后处理的结果存储在数据库中,以便进行信息检索。

百度查询: 苏州大学 基于主述位的自动问答系统及其实现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。