买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于依存关系的教学领域本体自动生成方法与装置_广西师范大学_201810219253.6 

申请/专利权人:广西师范大学

申请日:2018-03-16

公开(公告)日:2021-04-27

公开(公告)号:CN108491385B

主分类号:G06F40/253(20200101)

分类号:G06F40/253(20200101);G06F40/30(20200101);G06F40/247(20200101);G06Q50/20(20120101)

优先权:

专利状态码:有效-授权

法律状态:2021.04.27#授权;2018.09.28#实质审查的生效;2018.09.04#公开

摘要:本发明公开了一种基于依存关系的教学领域本体自动生成方法,首先通过TF_IDF权重从教材中抽取并自动生成领域术语表,并将其中的领域术语转换为教学领域本体中的概念,生成只有单层结构的初始教学领域本体,然后根据各类教学领域关系的特点,定义基于依存关系的描述本体关系的句子模板,形成描述本体关系的句子模板库,最后按步骤进行模板匹配、本体关系信息的提取与本体关系的自动生成。本发明所包括的装置有:领域术语表、句子模板库、句子预处理模块、模板推理机与本体关系生成器。本发明的优点是,模板不受句子结构物理位置影响,可扩展性强,教学领域本体自动生成的正确率高,可广泛应用于各学科智能教学系统中教学领域本体的自动构建。

主权项:1.一种基于依存关系的教学领域本体自动生成方法,首先通过TF_IDF权重从教材中抽取并自动生成领域术语表,并将领域术语表中的术语转换为教学领域本体中的概念,生成只有单层结构的初始教学领域本体,然后提出基于依存关系的描述本体关系句子模板的结构与设计原则,并根据各类教学领域关系的特点,定义基于依存关系的描述本体关系的句子模板,形成描述本体关系的句子模板库,最后按照以下步骤进行本体关系信息的提取与领域本体关系的自动生成,包括以下步骤,步骤1进行本体描述句子的预处理;步骤2进行本体描述句子的依存关系分析;步骤3进行关系模板的自动匹配与本体关系信息的自动提取;步骤4进行本体关系的自动生成;所述基于依存关系的教学领域本体自动生成方法,包括教学领域本体自动生成的装置,具体包括:领域术语表、句子模板库、句子预处理模块、模板推理机与本体关系生成器,所述领域术语表,用于存储从教材中提取的本领域所特有的概念名、关系名与属性名;所述句子模板库,用于存储通过依存句法关系描述本体关系的句子模板;所述句子预处理模块,连接领域术语表,用于根据通用语言词典及领域词汇表对来自教材的句子进行分词、句法与依存关系分析,删除本体关系描述句子中的修饰性成分,判定句子是否符合本体关系提取的基本条件,得到句子的依存关系;所述模板推理机,连接句子模板库,按照句子模板规则中的前提条件,对通过预处理的教材句子进行模板匹配与本体关系信息抽取,得到从教材句子中提取出的本体关系信息;所述本体关系生成器,根据模板推理机从教材句子中提取出的本体关系信息,在当前领域本体中生成相应的本体关系或本体属性;所述基于依存关系的教学领域本体自动生成方法还包括基于通用语义词典的术语相似度计算方法,将不被通用语义词典所收录的领域术语分解为多个语义词典所收录的词语元素,然后通过综合考虑领域术语之间的元素相似度与元素顺序得出基于通用语义词典的术语相似度,为统一相似度的计算,将通用语义词典所收录的常规词语处理为元素个数为1的领域术语,具体计算方法如下:1使用如下的公式1计算两个术语T1和T2之间的术语相似度, 其中,Sem_simT1,T2表示基于通用语义词典的语义相似度,OrderT1,T2表示术语T1和T2之间的顺序相似度,|T|表示术语T中的元素个数;2使用如下的公式2计算两个术语T1和T2之间的顺序相似度, 其中,AdjustT1,T2表示为使术语T1和T2中相同元素保持顺序一致而需调整的元素个数,|T|表示术语T中的元素个数,Max表示取最大值,|T1∩T2|表示术语T1和T2中相同元素的个数;3使用如下的公式3计算两个术语T1和T2之间基于通用语义词典的语义相似度, 其中,max_simt,T表示术语中的元素t与术语T的最大相似度,表示术语T中的所有元素,|T|表示术语T中元素的个数;4使用如下的公式4计算术语中的元素t与术语T的最大相似度: 其中,Sem_simt,a表示术语中的元素t和a基于通用语义词典的语义相似度;5使用如下的公式5和6计算术语中的元素i和j基于通用语义词典的语义相似度: 其中,Concepti表示术语中的元素i在通用语义词典中的义项集合,Concepti×Conceptj表示义项集合Concepti、Conceptj之间的所有二元组,LCPa,b表示术语中的元素a和b在通用语义词典中的最近公共父结点,DepthLCPa,b表示最近公共父结点LCPa,b在通用语义词典中的深度,Patha,b表示术语中的元素a和b在通用语义词典中的最短路径。

全文数据:一种基于依存关系的教学领域本体自动生成方法与装置技术领域[0001]本发明涉及人工智能领域中的自然语言处理、知识管理与信息抽取,具体是基于依存关系的教学领域本体自动生成方法与装置,该方法与装置将计算机作为工具,以教材文本语料作为处理对象,实现教学领域本体的自动生成,可广泛应用于各种学科的教学专家系统、教学问答系统与智能教学系统中的教学领域本体的自动构建。背景技术[0002]本体Ontology起源于哲学。它是对客观存在的事物进行规范化、形式化的描述。随着信息技术的发展,20世纪80年代,本体被引入信息领域,并导致了语义Web的产生。本体具有概念化,形式化,明确性以及共享性的特点。本体按照通用程度的高低,可以分为通用本体、核心本体、领域本体三种。其中,领域本体就是对某一特定领域中包含的共享概念进行的形式化、明确性的解释。领域本体可以明确地表示领域中概念的含义,概念之间的关系,以及概念的属性。基于语义关系的结构化表示是让计算机可以理解本体的基础。领域本体又是人们对某一领域知识达成共识的一种途径,有助于实现领域知识共享和重用;同时,对领域知识进行整理,还有助于获得各种隐含的知识。因此,领域本体获得了越来越广泛的应用。目前,语义Web与领域本体在智能教学系统中也得到了广泛的应用,包括:学习资源的语义标注与学习对象的语义检索,基于领域本体的智能学习内容开发及聚集,以及基于领域本体的个性化辅导、自然语言接口与定理证明等。[0003]目前,领域本体的构建方法主要是由领域专家根据自己掌握的知识提供本体构建所需要的信息,并借助于本体编辑工具,进行手工构建。这种方法不仅工作量大,需要大量的人力,而且由于领域专家对专业知识的见解不同,导致构建的本体不容易达成共识;另一方面,随着科技的不断发展,各行各业的信息也呈现出爆炸式的增长,显然手动构建领域本体的方法已经不能满足当今信息时代的需要。为了解决这些问题,研究者们开始尝试使用计算机从文本中自动抽取构建本体所需的关系信息。目前,从文本中自动抽取本体关系的方法主要分为:句子模板又称句子模式、公式与机器学习(又称关联规则的自动发现二大类。它们各有优缺点。其中,句子模板的方法使用事先设计好的模板或模式进行句子分类与关系信息的提取,因此精度较高,但受限于模板的规模,其适应能力与通用性较差;而机器学习的方法,通过统计学或语义分析的方法进行句子分类与关系信息的提取,它并不需要事先设计模板,因此适应能力较强但精度较低。传统的句子模板与关联规则方法,普遍采用关键词或短语作为特征,如:潘黎和冯速提出的《基于概念层次网络的小学应用题句类分析和知识提取》方法,这类方法的最大缺点就是模板容易受特征词语的物理位置影响,因此通用性较差,需要建立大规模的模板库。虽然,古凌岚和孙素云提出了《基于语义依存的中文本体非分类关系抽取方法》,可克服句子特征受物理位置的影响,但他们并没有通过语义依存关系建立精确的句子模板,而是通过语义分析发现本体关系及其相关信息,其关系提取精度不高,只能达到60%左右的正确率。此外,该方法只能提取本体的非分类关系,而无法提取构成本体概念层次结构的分类关系,并且需要领域本体的概念层次的支持,因此该方法无法全方位地实现领域本体的自动生成。本发明提出的基于依存关系的本体自动生成方法,通过依存关系建立适应能力强、精度高的各类句子模板,以教材为语料库,可实现零起点的本体自动生成。在实际应用中,本发明的关系提取可达到80%以上的正确率。[0004]法国语言学家L.Tesiniere于1959年首次提出依存关系的概念,他认为句子中的谓词是一个句子中起支配作用的中心,而其所支配的任何成分以某几种特定的关系分布在句子中。即可以将依存关系表达为一个中心词与依存词通过特定的结构构成的语义关系。依存关系的句法分析可以反映出句子中各成分之间的语义依存关系,不受成分的物理位置影响。如今被广泛应用于分析句子结构之中。美国斯坦福大学设计的开源语法解析工具StanfordParser是目前国际上最为权威的句子语法与依存关系分析软件,它可支持英语、德语、法语与中文等多种语言。发明内容[0005]本发明充分利用句子依存关系不受成分的物理位置影响,以及教材文本文字规范、语法通顺、句法与依存关系分析准确率高的特点,使用国际上最为流行的StanfordParser语法解析工具对教材文本进行句法分析,得出教材句子语法成分之间的依存关系,通过基于依存关系的描述本体关系的句子模板,对教材句子进行分类与本体关系信息的提取,自动生成基于语义关系的教学领域本体。[0006]为了实现上述发明目的,本发明采用的技术方案为:[0007]—种基于依存关系的教学领域本体自动生成方法,首先通过TF_IDF权重从教材中抽取并自动生成领域术语表,并将领域术语表中的术语转换为教学领域本体中的概念,生成只有单层结构的初始教学领域本体,然后提出基于依存关系的描述本体关系句子模板的结构与设计原则,并根据各类教学领域关系的特点,定义基于依存关系的描述本体关系的句子模板,形成描述本体关系的句子模板库,最后按照以下步骤进行本体关系信息的提取与领域本体关系的自动生成,包括以下步骤,[0008]步骤1进行本体描述句子的预处理;[0009]步骤2进行本体描述句子的依存关系分析;[0010]步骤3进行关系模板的自动匹配与本体关系信息的自动提取;[0011]步骤4进行本体关系的自动生成。[0012]进一步的,所述自动生成领域术语表的方法为,基于TF_IDF权重的领域术语表的自动生成方法,来收集教材中的,通用语言词典所不包含的领域术语,为教材句子的正确分词及领域概念的正确划分提供依据,其步骤为:[0013]1收集不同学科的待处理教材电子文档,形成教材语料库;[0014]2使用通用语言词典及现有的分词软件,对教材语料库中的所有句子进行分词及词性标注,形成教材语料库的扩展词汇表;[0015]3对分词后的教材句子中所有通过空格相连的名词、形容词与副词的基本词汇按从右向左的顺序逐个合并,形成教材语料库的扩展词汇表;[0016]⑷按以下公式,计算每一本教材中,每一个基本词汇与扩展词汇的基于词频TF和逆文档频率IDF的TF_IDF权重,[0017]TF_IDF=TFXIDF1[0018]2[0019]:3[0020]其中,t为该词汇在本教材中出现的次数,s为该词汇在教材语料库中出现的次数,D为教材语料库中的教材总数,d为出现该词汇的教材数;[0021]5对于指定教材中的任意一个基本词汇或扩展词汇,如果该词汇在指定教材中的TF_IDF权重大于0,并且高于它在其余教材中TF_IDF权重的平均值,则该词汇被收录为指定教材中的一个领域术语;[0022]6重复步骤5,对指定教材中所有基本词汇与扩展词汇进行处理,从而得到指定教材的领域术语表。[0023]进一步的,所述描述本体关系的句子模板的结构是基于依存关系的谓词蕴含公式,其BNF定义为,[0024]〈句子模板:=〈谓词蕴含公式〉[0025]〈谓词蕴含公式:=〈条件〈—〈结论〉[0026]〈—:=“表示通过条件推导出结论的蕴含运算符”[0027]〈条件:=〈个体声明〉,〈连接符〉,〈依存关系谓词〉,〈关系表达式[0028]〈结论:=〈连接符〉,〈模板声名谓词〉,〈本体关系谓词[0029]〈个体声明:=〈量词X个体变量XeX个体域〉[0030]:=|[0031]:=“表示个体属于某个域的集合算符”[0032]〈连接符:=〈合取符ΛI〈析取符V[0033]〈依存关系谓词:=“由依存关系名命名的谓词”[0034]〈模板声名谓词:=“由模板名命名的谓词”[0035]〈本体关系谓词:=“由本体关系名命名的谓词”[0036]〈关系表达式:=〈操作数〉,〈关系运算符[0037]〈操作数:=〈函数I〈个体变量〉[0038]〈关系运算符:=,,=,,I,,,,I,,=,,I,,〈,,I,,〈=,,[0039]其中,符号“:=”表示定义,“〈”表示定义中的元素,“”表示元组,“表示逻辑“或,,关系。[0040]进一步的,所述句子模板的设计原则为:将模板规则中的前件都设计成蕴涵式的必要条件,而不是排他式的充分条件,同时采用可判定相容原则,以达到简化句子模板结构的目的,具体为包括,相容性句子模板和句子模板的可判定相容,[0041]所述相容性句子模板为,如果句子模板A的所有条件完全被句子模板B的条件集合所蕴涵,则称句子模板B为句子模板A的相容性模板,其定义规则为,[0042][0043]其中,谓词Condition⑵表示模板X的条件集合,谓词Compatible3,A表示模板B与模板A相容;[0044]所述句子模板的可判定相容为,如果句子模板A为句子模板B的相容性模板,并且句子模板B至少包含一个句子模板A中所没有的条件,则称句子模板B为句子模板A的可判定相容性模板,其定义规则为,[0045][0046]其中,谓词CompJustB,A表示B是模板A的可判定相容模板。[0047]进一步的,根据所述的句子模板结构和句子模板设计原则,所述句子模板为,设S表示句子,simα,β表示基于语义词典的词语α与邱勺相似度函数,S表示所有句子的集合,谓词RootRoot-Ο,ν表示V为中心词的依存关系,谓词Nsubjν,η表示η为V的主语的依存关系,谓词Dobjν,η表示η为V的宾语的依存关系,谓词Negv,a表示a为中心词V的否定修饰的依存关系,谓词Prejv,n表示η为V的介词修饰的依存关系,谓词Ccompvi,V2表示V2为Vi的补语从句中心词的依存关系,谓词Assmodnl,n2表示n2为nl的关联修饰的依存关系,谓词Copv,n表示V为η的系动词的依存关系,谓词Nnnl,n2表示n2为nl的名词组合修饰的依存关系,谓词hasPartnl,n2表示本体中nl包含n2的“整体-部分”关系,谓词partOfnl,n2表示本体中nl是n2的部分的“部分-整体”关系,谓词Atnl,n2表示本体中nl放置在n2的位置关系,TH1、TH2分别表示2个相似度的阈值:0.85、0.6,[0048]模板1.父类为主语,子类为宾语的描述分类关系的句子模板规则,[0049][0050]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板1中分类关系特征的动词集合,A^A表示在本体中概念n2被概念m所蕴涵,通过计算句子中心词与模板特征动词集合Stringl中谓词的相似度,确定句子是否为描述分类关系的句子,使得模板具有更强的通用性,符合此模板的句子结构与符合模板1的完全相同,为区分二者,在模板规则中进一步判定主语与宾语的相似度是否大于或等于阈值TH2,即simm,n2=TH2,如果是则符合模板1,否则符合模板4;[0051]模板2.父类为主语、子类为介词修饰语的描述分类关系句子模板规则,[0052][0053]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板2中分类关系特征的动词集合。符合此模板的句子结构与符合模板2的完全相同,为区分二者,在模板规则中进一步判定主语与宾语的相似度是否大于或等于阈值TH2,即simm,n2彡TH2,如果是则符合模板2,否则符合模板5;.[0054]模板3.通过系动词描述分类关系的句子模板规则,[0055][0056]模板4.“整体”概念为主语、“部分”概念为宾语的描述“整体-部分”关系的句子模板规则,[0057][0058]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板4中整体-部分和部分-整体关系特征的动词集合。此模板可同时提取整体-部分和部分-整体关系,即整体-部分和部分-整体关系互为逆关系;[0059]模板5.“整体”概念为主语、“部分”概念为介词修饰语的描述“整体-部分”关系的句子模板规则,[0060][0061]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板5中分类关系特征的动词集合,此模板可同时提取整体-部分和部分-整体关系,即整体-部分和部分-整体关系互为逆关系;[0062]模板6.存放位置为方位修饰语的描述位置关系的句子模板规则,[0063][0064]其中,String2={“位于”,“放在”,“存放”,…,“放置”}表示模板6中位置关系特征的动词集合;[0065]模板7.存放位置为介词修饰语的描述位置关系的句子模板规则,[0066][0067]其中,String2={“位于”,“放在”,“存放”,…,“放置”}表示模板7中位置关系特征的动词集合;[0068]模板8.领域关系名为补语从句中的动词的描述领域关系的句子模板规则,[0069][0070]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示分类关系特征的动词集合;String2={“位于”,“放在”,“存放”,…,“放置”}表示位置关系特征的动词集合;String3“包括”,“包含”,“有”,…,“具有”丨表示属性关系特征的动词集合;谓词Domainv,ri2,n3表示m与Π2构成名为V领域关系;[0071]模板9.领域关系名为主句中心词、值域为介词修饰语的描述领域关系的句子模板规则,[0072][0073]其中,51:1':[即1、31:1';[即2、31:1';[即3、001]^;[11,111,112的含义与模板8中的相同;[0074]模板10.属性名为主语、使用非系动词的描述字符属性的句子模板规则,[0075][0076]其中,String3={“包括”,“包含”,“有”,…,“具有”}表示模板10中属性关系特征的动词集合,函数subStrlS1,V1返回字符串S1*V1之后(不包括vl的子字符串,谓词Attributem,n2,n3表示m与M构成名为m的数据属性。[0077]所述语义词典是指跨领域学科的、基于语义关系的可计算词典。[0078]进一步的,所述步骤1进行本体描述句子的预处理方法为,由于本体是概念规范化、形式化的表示,而自然语言又是复杂多变的,如果能够把自然语言进行简化,把对本体构建没有贡献的成分删除,就可以减少信息抽取时的误差,将正确率尽可能地提高,具体包括删除本体关系描述句子中的修饰性成分和基于依存关系的句子可满足性分析,[0079]所述删除本体关系描述句子中的修饰性成分的方法为,给定一个来自教材的本体关系描述句子,首先根据通用语言词典及领域词汇表对其进行分词,然后使用美国斯坦福大学设计的开源语法解析工具StanfordParser对该本体描述句子进行句法结构分析,得到其句法描述树,最后按以下步骤删除本体描述句子中的修饰性成分,[0080]1以广度优先算法遍历句法树;[0081]⑵如果句法树中的节点为CP,删除CP及其子节点;[0082]⑶如果句法树中的节点为DP,删除DP及其子节点;[0083]其中,CP为StanfordParser句法分析中由“的”构成的表示修饰性关系的短语,DP为句法分析中的限定词短语;[0084]所述基于依存关系的句子可满足性分析的方法为,通过美国斯坦福大学设计的开源语法解析工具StanfordParser,对句子进行依存关系分析,判定句子是否符合本体关系提取的基本条件,包括,[0085]1句子必须具有中心词,如果句子存在中心依存关系root,则满足,否则不满足;[0086]2句子的中心词必须要有主语,如果句子的中心词存在主语依存关系nsubj,则满足,否则不满足;[0087]3句子的语气必须是肯定而不能是否定,如果句子的中心词不存在否定修饰依存关系Neg,则满足,否则不满足;[0088]如果一个教材句子同时满足上述三个条件,表明该句子符合本体关系提取的先决条件,可转模板推理机,作进一步的处理,否则放弃对该句子进行本体关系提取,[0089]所述通用语言词典是指在现有分词软件中用于分词与词性标注的语言词典。[0090]进一步的,所述句子步骤3进行模板的自动匹配与本体关系信息的自动提取方法为,在进行句子模板的自动匹配时,对于任意两个可判定相容性模板,首先选择有更多前件条件的强约束模板进行匹配,仅当强约束的模板不能满足时,才选择弱约束的模板进行匹配,从而避免模板的错误匹配,[0091]针对描述本体关系的句子模板的相容性与条件约束强弱,模板匹配与本体关系信息提取的具体过程:[0092]设Stringl={“分为”,“有”,“组成”,…,“包括”}表示分类关系特征的动词集合;String2={“位于”,“放在”,“存放”,…,“放置”}表示位置关系特征的动词集合;String3=Γ包括”,“包含”,“有”,…,“具有”}表示属性关系特征的动词集合;String4={“内”,“里”,“之里”,…,“之内”}表示“in”位置关系的方向特征词集合;String5={“仅”,“仅仅”,…,“只”}表示全称量词的特征词集合;V表示所提取的关系名或属性名变量,C表示所提取的关系或属性的定义域词语集合变量,D表示所提取的关系或属性的值域词语集合变量,P表示所提取的信息性质是否为属性P=I表示是属性,P=O表示不是属性,设初始值P=〇,M表示所提取的关系或属性的约束量词M=I表示全称量词ν',Μ=0表示存在量词3,设初始值M=0,则对于任意的预处理之后的句子,其关系模板的自动匹配与本体关系信息的自动提取过程如下:[0093]Sl.分别通过句子的依存关系root和nsubj,提取句子依存关系中的中心词H及H的主语n_nsubj,进一步,如果n_nsubj不属于当前领域本体中的概念,并且通过检索11_1181113」_的assmod与nn依存关系确定n_nsubj有关联修饰或名词组合修饰,则句子符合模板10的特征,转S2;如果n_nsubj属于当前领域本体中的概念,并且n_nsubj有名词组合修饰语n_nn,则将n_nn合并到n_nsubj中,转S3;如果n_nsubj无assmod和nn依存关系,则转S3;否则转S14;[0094]S2.如果中心词H与String3中的某一个词语的相似度大于0.85,并且通过检索中心词H的dobj依存关系确定H有宾语,则与模板10匹配成功,否则转S14,进一步,将主语11_nsubj赋给属性名变量V,主语的关联修饰语或名词组合修饰语赋给属性的定义域词语集合变量C,将中心词H之后的子句赋给关系的值域词语集合变量D,将信息性质变量P设置为1,转Sl3;[0095]S3.如果中心词H与Stringl中的某一个词语的相似度大于0.85,则符合模板1、模板2、模板4和模板5的特征,转S4进行下一步的匹配;如果中心词H与String2中的某一个词语的相似度大于〇.85,则符合模板6的特征,转S8进行下一过程的匹配;如果句子的依存关系中出现系动词关系cop,则符合模板3的特征,转S7进行下一过程的匹配;否则转S10;[0096]S4.通过检索中心词H的dobj依存关系,确定H是否有宾语n_dobj,如果中心词H有宾语,则符合模板1和模板4的特征,转S5进一步匹配,如果中心词H没有宾语,则符合模板2和模板5的特征,转S6;[0097]S5.计算主语11_1181113」与宾语n_dobj的相似度,如果11_1181113」与11_1〇13」的相似度大于0.6,则与模板1匹配成功,将关系名变量V设置为“is-a”;否则与模板4匹配成功,将关系名变量¥设置为“1^8?竹”,进一步,转312;[0098]S6.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prep,如果无,则转S14,如果H有介词修饰语,则计算主语n_nsubj与介词修饰语n_prep的相似度,如果n_nsub的相似度大于0.6,则与模板2匹配成功,将关系名变量V设置为“is-a”;否贝IJ,与模板5匹配成功,将关系名变量V设置为“hasPart”,进一步,通过检索介词修饰语11_prep的conj依存关系,找出n_prep的所有并列词,将n_prep及其并列词集合赋给关系的值域词语集合变量D,并将主语n_nsubj赋给关系的定义域词语集合变量C,转S13;[00"]S7.通过检索中心词H的dobj依存关系,确定H是否有宾语n_dobj,如果无宾语,贝Ij转S14;如果有宾语,则与模板3匹配成功,将关系名变量V设置为“is-a”,转S12;[0100]S8.通过检索中心词H的Ioc依存关系,确定H是否有位置修饰词n_loc,如果无则转S9,如果有则与模板6匹配成功,进一步,通过检索位置修饰词11_1〇3的case依存关系,确定n_loc是否有方向修饰词n_dir,若有且n_dir属于方向特征集String4,则将关系名变量V设置为“in”,否则置为“on”,更进一步,将主语1!_1!81*j赋给定义域变量C,将位置修饰词n_loc赋给值域词语集合变量D,转SI3;[0101]S9.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prej,如果无则转S14,如果有,则与模板7匹配成功,进一步,通过检索介词修饰语11_?^」的case依存关系,确定n_prej是否有方向修饰词n_dir,若有且n_dir属于方向特征集String4,则将关系名变量V设置为“in”,否则置为“on”,更进一步,将主语1!_1!81*」赋给定义域变量C,将介词修饰语n_prej赋给值域词语集合变量D,转S13;[0102]SlO.通过检索中心词H的ccomp依存关系,确定中心词是否有补语从句谓词v_ccomp,如果无则转SI1;如果有,则进一步通过检索补语从句谓词v_ccomp的dobj依存关系,确定v_ccomp是否有宾语v_dobj,如果没有则转S14,如果有则与模板8匹配成功,更进一步,将主语n_nsubj赋给定义域变量C,将宾语v_dobj赋给值域词语集合变量D,将补语从句谓词、^〇111?赋给关系名变量¥,转513;[0103]Sll.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prej,如果无则转S14;如果有则与模板9匹配成功,进一步,将主语11_118111^赋给定义域变量C,将介词修饰语n_prej赋给值域词语集合变量D,将中心词H赋给关系名变量V,转S13;[0104]S12.通过检索宾语n_dobj的conj依存关系,找出宾语的所有并列词,将宾语11_dobj及其并列词集合赋给值域词语集合变量D,并将主语11_1181113」赋给定义域词语集合变量C,转S13;[0105]S13.通过检索中心词H的advmod依存关系,确定H是否有壮语修饰词n_adv,如果有,则进一步判断11_31¥是否属于全称量词的特征词集合String5,如果是则置关系或属性约束量词变量M为1,更进一步,返回所提取到的本体关系5元组信息V,C,D,P,M并转系统的本体关系的自动生成模块;[0106]S14.结束模板匹配,转预处理模块,处理下一个教材句子。[0107]进一步的,所述步骤4进行本体关系的自动生成的方法为,将模板推理机中提取的本体关系5元组信息V,C,D,P,M,按以下步骤自动生成本体关系:[0108]SI.判定本体关系5元组信息中的信息性质变量P是否等于1,如果不等于1,则所提取的信息为本体关系,转S2;如果等于1,则所提取的信息为本体属性,进一步判定定义域词语集合变量C中的词语是否为当前领域本体中的概念,如果不是则转S5,否则若当前领域本体中不存在V中属性名的属性,则按V中属性名在当前领域本体中生成相应的字符型属性,更进一步,将值域词语集合变量D中的所有元素按顺序合并成一个字符串SD,如果约束量词变量M=1,则在当前领域本体中为概念C生成一个形如W.SD的属性约束,如果1,则在当前领域本体中为概念C生成一个形如SV.SD的属性约束,转S5;[0109]S2.判定本体关系5元组信息中的变量名变量V是否等于“is-a”,如果不等于“is-a”,则转S3;如果等于“is-a”,则进一步判定值域词语集合变量D中的词语是否为当前领域本体中的概念,如果不是则转S5,否则如果定义域词语集合变量C中的词语不为当前领域本体中的概念,则在本体中生成相应名称的概念,更进一步,为C中的每一个概念生成一个形如laSS〇i:D的“is-a”关系约束,转S5;[0110]S3.判定本体关系5元组信息中的变量名变量V是否等于“hasPart”,如果不等于“hasPart”,则转S4;如果等于“hasPart”,则进一步判定定义域词语集合变量C中的词语是否为当前领域本体中的概念,如果不是则转S5,否则去除值域词语集合变量D中不为当前领域本体中概念的词语,之后D若为空则转S5,否则如果约束量词变量M=1,则在当前领域本体中为概念C生成一个形如VhasPart.D的关系约束,如果1,则在当前领域本体中为概念C生成一个形如3hasP_art,.D的关系约束,更进一步,为D中的每一个概念生成一个形如却mOf.r的关系约束,转S5;[0111]S4.判定本体关系5元组信息中的定义域词语集合变量C中的词语中的词语是否为当前领域本体中的概念,如果不是则转S5,否则去除值域词语集合变量D中不为当前领域本体中概念的词语,之后D若为空则转S5,否则若当前领域本体中不存在V中关系名的关系,则按V中关系名在本体中生成相应的关系,更进一步,如果约束量词变量M=I,则在当前领域本体中为概念C生成一个形如VV.D的关系约束,如果1,则在当前领域本体中为概念C生成一个形如3V;D的关系约束,转S5;[0112]S5.结束本体关系的生成,转预处理模块,处理下一个教材句子;[0113]所述本体中的关系是指本体概念间的二元关系,本体中的属性是指本体概念与数据对象之间的二元关系,它是本体关系的一种特例。[01M]进一步的,所述的基于依存关系的教学领域本体自动生成方法,还包括基于通用语义词典的术语相似度计算方法,[0115]将不被通用语义词典所收录的领域术语分解为多个语义词典所收录的词语元素,然后通过综合考虑领域术语之间的元素相似度与元素顺序得出基于通用语义词典的术语相似度,为统一相似度的计算,将通用语义词典所收录的常规词语处理为元素个数为1的领域术语,具体计算方法如下:[0116]1使用如下的公式⑷计算两个术语Tl和T2之间的术语相似度,[0117][0118]其中,Sem_simTl,T2表示基于通用语义词典的语义相似度,OrderTl,T2表示术语Tl和Τ2之间的顺序相似度,ITI表示术语T中的元素个数;[0119]⑵使用如下的公式⑸计算两个术语TjPT2之间的顺序相似度,[0120][0121]其中,AdjustT1,T2表示为使术语TjPT2中相同元素保持顺序一致而需调整的元素个数,如Adjust软件系统,系统软件)=1,|τI表示术语T中的元素个数,Max表示取最大值,IT1nT21表示术语心和!^中相同元素的个数;[0122]3使用如下的公式(6计算两个术语TjPT2之间基于通用语义词典的语义相似度,[0123][0124]其中,max_simt,T表示术语中的元素t与术语T的最大相似度,v_ief_表示术语T中的所有元素,|T|表示术语T中元素的个数;[0125]⑷使用如下的公式⑺计算术语中的元素t与术语T的最大相似度:[0126]7[0127]其中,Sem_simt,a表示术语中的元素i和j基于通用语义词典的语义相似度;[0128]5使用如下的公式8和(9计算术语中的元素i和j基于通用语义词典的语义相似度:[0129][0130][0131]其中,Concept⑴表示语中的元素i在通用语义词典中的义项集合,Concept⑴XConceptj表示义项集合Concepti、Conceptj之间的所有二元组,LCPa,b表示义项a和b在通用语义词典中的最近公共父结点,DepthLCPa,b表示最近公共父结点LCPa,b在通用语义词典中的深度,Patha,b表示义项a和b在通用语义词典中的最短路径。[0132]更进一步的,一种基于依存关系的教学领域本体自动生成的装置包括:领域术语表、句子模板库、句子预处理模块、模板推理机与本体关系生成器,[0133]所述领域术语表,用于存储从教材中提取的本领域所特有的概念名、关系名与属性名;[0134]所述句子模板库,用于存储通过依存句法关系描述本体关系的句子模板;[0135]所述句子预处理模块,连接领域术语表,用于根据通用语言词典及领域词汇表对来自教材的句子进行分词、句法与依存关系分析,删除本体关系描述句子中的修饰性成分,判定句子是否符合本体关系提取的基本条件,得到句子的依存关系;[0136]所述模板推理机,连接句子模板库,按照句子模板规则中的前提条件,对通过预处理的教材句子进行模板匹配与本体关系信息,得到从教材句子中提取出的本体关系信息;[0137]所述本体关系生成器,根据模板推理机从教材句子中提取出的本体关系信息,在当前领域本体中生成相应的本体关系或本体属性。[0138]本发明的方法与原理,在对所提出的10个常见句子模板及其推理机进行了适应性的扩展后,对多个学科的教材进行了教学领域本体的自动生成应用,每一个应用所提取信息的正确率都达到了80%以上,极大地方便了教学领域本体的快速生成。本发明的特点与优势总结如下:[0139]1、本发明充分利用教材句子的语法规范与依存关系不受成分物理位置影响的特点,使用依存关系定义句子模板,提高了传统描述本体关系的句子模板的语义精度与适应能力;[0140]2、本发明使用弱约束与可判定相容原则设计句子模板,有效降低了句子模板的设计难度,增强了句子模板的可扩展性,同时采用先强约束、后弱约束的模板匹配顺序,确保了句子模板匹配的正确性;[0141]3、本发明提出了一种基于TF_IDF权重的教材领域术语表的自动生成方法,有效减轻了教材领域术语表生成过程中人工手动生成的负担;[0142]4、本发明提出了一种基于通用语义词典的术语相似度计算方法,解决了因领域术语不被通用语义词典所收录而无法计算语义相似度的难题;[0143]5、本发明在模板定义中使用了语义相似度对句子特征进行判断,进一步提高了模板的语义精度与适应能力。[0144]因此,本发明可广泛应用于各种学科的教学专家系统、教学问答系统与智能教学系统中的教学领域本体的自动构建。附图说明:[0M5]图1为实施例1中教学领域本体自动生成方法的流程示意图;[0146]图2为实施例4中StanfordParser句法结构图。具体实施方式[0147]本发明通过实施例,结合说明书附图,对基于依存关系的教学领域本体自动生成方法作进一步详细说明,但不是对本发明的限定。[0148]实施例1[0149]—种基于依存关系的教学领域本体自动生成方法的流程,如图1所示,首先通过TF_IDF权重从教材中抽取并自动生成领域术语表,并将领域术语表中的术语转换为教学领域本体中的概念,生成只有单层结构的初始教学领域本体,然后提出基于依存关系的描述本体关系句子模板的结构与设计原则,并根据各类教学领域关系的特点,定义基于依存关系的描述本体关系的句子模板,形成描述本体关系的句子模板库,最后按照以下步骤进行本体关系信息的提取与领域本体关系的自动生成,包括以下步骤,[0150]步骤1进行本体描述句子的预处理;[0151]步骤2进行本体描述句子的依存关系分析;[0152]步骤3进行关系模板的自动匹配与本体关系信息的自动提取;[0153]步骤4进行本体关系的自动生成。[0154]实施例2[0155]—种基于依存关系的教学领域本体自动生成方法的领域术语表的自动生成实例。由于教材中通常会出现一些通用语言词典所不包含的领域术语,如在计算机类教材中,“计算机网络”是一个不可分割的领域术语,而通用语言词典通常将其分为“计算机”和“网络”二个词语,因此,如果仅仅依靠通用语言词典进行分词,经常会将教材中的句子进行错误的分词。为此,本发明提出了一种基于TF_IDF权重的领域术语表的自动生成方法,来收集教材中的,通用语言词典所不包含的领域术语,为教材句子的正确分词及领域概念的正确划分提供依据。[0156]其步骤为:[0157]1收集10套以上包括待处理教材在内的不同学科的教材电子文档,形成教材语料库。[0158]2使用通用语言词典及现有的分词软件,对教材语料库中的所有句子进行分词及词性标注,形成教材语料库的基本词汇表。[0159]3对分词后的教材句子中所有通过空格相连的名词、形容词与副词的基本词汇按从右向左的顺序逐个合并,形成教材语料库的扩展词汇表;[0160]⑷按以下公式,计算每一本教材中,每一个基本词汇与扩展词汇的基于词频TF和逆文档频率IDF的TF_IDF权重,[0161]TF_IDF=TFXIDF1[0162]2[0163]⑶[0164]其中,t为该词汇在本教材中出现的次数,s为该词汇在教材语料库中出现的次数,D为教材语料库中的教材总数,d为出现该词汇的教材数;[0165]5对于指定教材中的任意一个基本词汇或扩展词汇,如果该词汇在指定教材中的TF_IDF权重大于0,并且高于它在其余教材中TF_IDF权重的平均值,则该词汇被收录为指定教材中的一个领域术语;[0166]6重复步骤5,对指定教材中所有基本词汇与扩展词汇进行处理,从而得到指定教材的领域术语表。[0167]依据本发明提出的基于TF_IDF权重的领域术语表的自动生成方法,“计算机网络”被收录为计算机本体中的领域术语。[0168]实施例3[0169]—种基于依存关系的教学领域本体自动生成方法中,常见的描述本体关系的句子模板实例:[0170]模板1.父类为主语,子类为宾语的描述分类关系的句子模板规则,[0171][0172]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板1中分类关系特征的动词集合,巧GA表示在本体中概念n2被概念m所蕴涵,通过计算句子中心词与模板特征动词集合Stringl中谓词的相似度,确定句子是否为描述分类关系的句子,使得模板具有更强的通用性,符合此模板的句子结构与符合模板1的完全相同,为区分二者,在模板规则中进一步判定主语与宾语的相似度是否大于或等于阈值TH2,即simm,n2=TH2,如果是则符合模板1,否则符合模板4。该句子模板适用于例1和例2等不同结构的句子。[0173]例1.微型机可分为台式机、笔记本电脑和掌上电脑,其依存关系分析结果为:[nsubj分为-3,微型机-I,advmod分为-3,可-2,rootR00T-0,分为-3,conj掌上电脑-8,台式机-4,conj掌上电脑-8,笔记本电脑-6,cc掌上电脑-8,和-7,dobj分为-3,掌上电脑-8]—is_a掌上电脑,微型机);[0174]例2.把信息分成数据和程序。其依存关系为:[ba分成-3,把-I,nsubj分成-3,信息-2,rootR00T-0,分成-3,conj程序-6,数据-4,cc程序-6,和-5,dobj分成-3,程序-6]—is_a程序,信息);[0175]模板2.父类为主语、子类为介词修饰语的描述分类关系句子模板规则,[0176][0177]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板2中分类关系特征的动词集合。符合此模板的句子结构与符合模板2的完全相同,为区分二者,在模板规则中进一步判定主语与宾语的相似度是否大于或等于阈值TH2,即simm,n2彡TH2,如果是则符合模板2,否则符合模板5。[0178]例3.软件系统由系统软件和应用软件组成,其依存关系为:[nsubj组成-6,软件系统-I,case应用软件-5,由-2,conj应用软件-5,系统软件-3,cc应用软件-5,和-4,pr印组成-6,应用软件-5,rootR00T-0,组成-6]—is_a应用软件,软件系统);[0179]模板3.通过系动词描述分类关系的句子模板规则,[0180][0181]例4.笔记本是一种微型机,其依存关系为:[nsubj微型机-5,笔记本-I,cop微型机-5,是-2,nummod种-4,一-3,clf微型机-5,种-4,rootR00T-0,微型机-5]—is_a笔记本,微型机);[0182]模板4.“整体”概念为主语、“部分”概念为宾语的描述“整体-部分”关系的句子模板规则,[0183][0184]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板4中整体-部分和部分-整体关系特征的动词集合。此模板可同时提取整体-部分和部分-整体关系,即整体-部分和部分-整体关系互为逆关系。[0185]例5.硬件包括运算器、控制器、存储器、输入设备和输出设备,其依存关系如下:[nsubj包括-2,硬件-I,r00tR00T-0,包括-2,conj输出设备-11,运算器-3,conj输出设备-11,控制器-5,conj输出设备-11,存储器-7,conj输出设备-11,输入设备-9,cc输出设备-11,和-10,dobj包括-2,输出设备-11]—hasPart硬件,输出设备)ΛpartOf输出设备,硬件);[0186]模板5.“整体”概念为主语、“部分”概念为介词修饰语的描述“整体-部分”关系的句子模板规则,[0187][0188]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板5中分类关系特征的动词集合,此模板可同时提取整体-部分和部分-整体关系,即整体-部分和部分-整体关系互为逆关系,[0189]例6.主板由印刷电路板、CPU插座、控制芯片、CMOS存储器、只读存储器、高速缓冲存储器、各种扩展插槽、插座、跳线和开关组成,其依存关系为:[nsubj组成-21,主板-1,case开关-20,由-2,conj插座-17,印刷电路板-3,conj插座-17,CPU插座-5,conj插座-17,控制芯片-7,conj插座-17,CMOS存储器-9,conj插座-17,只读存储器-11,conj插座-17,高速缓冲存储器-13,conj插座-17,各种扩展插槽-15,nn开关-20,插座-17,conj开关-20,、跳线-18,cc开关-20,和-19,prep组成-21,开关-20,rootR00T-0,组成-21]—hasPart主板,开关)ApartOf开关,主板);[0190]模板6.存放位置为方位修饰语的描述位置关系的句子模板规则,[0191][0192]其中,String2={“位于”,“放在”,“存放”,…,“放置”}表示模板6中位置关系特征的动词集合,[0193]例7.主板位于机箱内,其依存关系为:[nsubj位于-2,主板-I,rootROOT-Oji于-2,Ioc位于-2,机箱-3,case机箱-3,内-4]—At主板,机箱);[0194]模板7.存放位置为介词修饰语的描述位置关系的句子模板规则,[0195][0196]其中,String2={“位于”,“放在”,“存放”,…,“放置”}表示模板7中位置关系特征的动词集合,[0197]例8.数据存放在硬盘中,其依存关系为:[nsubj存放-2,数据-I,rootR00T-0,存放-2,case硬盘-4,在-3,prep存放-2,硬盘-4,case硬盘-4,中-5]—At数据,硬盘;[0198]模板8.领域关系名为补语从句中的动词的描述领域关系的句子模板规则,[0199][0200]其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示分类关系特征的动词集合;String2={“位于”,“放在”,“存放”,…,“放置”}表示位置关系特征的动词集合;String3“包括”,“包含”,“有”,…,“具有”丨表示属性关系特征的动词集合;谓词Domainv,ri2,n3表示m与Π2构成名为V领域关系,[0201]例9.键盘基本键区是用来输入数据和字符的,其依存关系为:[nsubj用来-3,键盘基本键区-I,cop用来-3,是-2,rootR00T-0,用来-3,ccomp用来-3,输入-4,conj字符-7,数据-5,cc字符-7,和-6,dobj输入-4,字符-7,mark用来-3,的-8]—Domain输入,键盘基本键区,字符);[0202]模板9.领域关系名为主句中心词、值域为介词修饰语的描述领域关系的句子模板规则,I.[0203][0204]其中,31:1':[即1、31:1';[即2、31:1';[即3、001]1;[11¥,111,112的含义与模板8中的相同,[0205]例10.目标程序是由机器语言编写的,其依存关系为:[nsubj编写-5,目标程序-1,cop编写-5,是-2,case机器语言-4,由-3,prep编写-5,机器语言-4,rootR00T-0,编写_5,mark编写-5,的-6]—Domain编写,目标程序,机器语言);[0206]模板10.属性名为主语、使用非系动词的描述字符属性的句子模板规则,[0207][0208]其中,String3={“包括”,“包含”,“有”,…,“具有”}表示模板10中属性关系特征的动词集合,函数subStrlS1,Vl返回字符串S1*V1之后(不包括vl的子字符串,谓词Attributeηι,η2,η3表示Π2与η3构成名为m的数据属性,[0209]例11.操作系统的功能有处理器管理、存储管理、文件管理、设备管理,其依存关系为:[assmod功能-3,操作系统-I,case操作系统-1,的-2,nsubj功能-3,有-4,rootR00T-0,有-4,conj设备管理-11,处理器管理-5,conj设备管理-11,存储管理-7,conj设备管理-11,文件管理-9,dobj有-4,设备管理-11!!—Attribute功能,操作系统,“处理器管理、存储管理、文件管理、设备管理”);[0210]例12.计算机特点包括速度快、自动化程度高,其依存关系为:[nn特点-2,计算机-I,nsubj包括-3,特点-2,root®00T-0,包括-3,nsubj快-5,速度-4,ccomp包括-3,快-5,nn程度-8,自动化-7,nsubj高-9,程度-8,conj快-5,高-9]—Attribute特点,计算机,“速度快、自动化程度高;[0211]需要强调的是,虽然本发明只提出了10个教材中常见的描述本体关系的句子模板,但在实际应用本发明时,可根据实际情况,按照本发明提出的句子模板结构与模板设计原则进行扩展。[0212]所述语义词典是指跨领域学科的、基于语义关系的可计算词典,如中科院的《知网》语义词典,哈工大的《同义词词林扩展版》。[0213]实施例4[0214]—种基于依存关系的教学领域本体自动生成方法中,本体描述句子的预处理,删除本体关系描述句子中的修饰性成分的实例。[0215]给定一个来自教材的本体关系描述句子,首先根据通用语言词典及领域词汇表对其进行分词,然后使用美国斯坦福大学设计的开源语法解析工具StanfordParser对该本体描述句子进行句法结构分析,得到其句法描述树,最后按以下步骤删除本体描述句子中的修饰性成分,[0216]1以广度优先算法遍历句法树;[0217]⑵如果句法树中的节点为CP,删除CP及其子节点;[0218]⑶如果句法树中的节点为DP,删除DP及其子节点;[0219]其中,CP为StanfordParser句法分析中由“的”构成的表示修饰性关系的短语,DP为句法分析中的限定词短语。[0220]具体为,使用StanfordParser对本体描述句子“计算机软件是指在计算机中运行的各种程序及其处理的数据和相关的文档”进行语法分析,得到其句法结构如图2所示,虽然图中的句子结构很复杂,但是为了满足本体的结构化和形式化,不需要这么繁琐的信息,只需要提取“计算机软件是指程序、数据和文档”。所以此句在预处理中,删除掉CP短语(由“的”构成的表示修饰性关系的短语)“在计算机中运行的”、“其处理的”、“相关的”和DP短语限定词短语)“各种”,使上述的复杂句子变成简单句子“计算机软件是指程序及数据和文档”,但是不影响本体构建的效果。[0221]实施例5[0222]—种基于依存关系的教学领域本体自动生成方法中,句子模板的自动匹配与本体关系信息的自动提取的实例。[0223]在进行句子模板的自动匹配时,对于任意两个可判定相容性模板,首先选择有更多前件条件的强约束模板进行匹配,仅当强约束的模板不能满足时,才选择弱约束的模板进行匹配,从而避免模板的错误匹配,[0224]针对描述本体关系的句子模板的相容性与条件约束强弱,模板匹配与本体关系信息提取的具体过程:[0225]设Stringl={“分为”,“有”,“组成”,…,“包括”}表示分类关系特征的动词集合;String2={“位于”,“放在”,“存放”,…,“放置”}表示位置关系特征的动词集合;String3=Γ包括”,“包含”,“有”,…,“具有”}表示属性关系特征的动词集合;String4={“内”,“里”,“之里”,…,“之内”}表示“in”位置关系的方向特征词集合;String5={“仅”,“仅仅”,…,“只”}表示全称量词的特征词集合;V表示所提取的关系名或属性名变量,C表示所提取的关系或属性的定义域词语集合变量,D表示所提取的关系或属性的值域词语集合变量,P表示所提取的信息性质是否为属性P=I表示是属性,P=O表示不是属性,设初始值P=〇,M表示所提取的关系或属性的约束量词M=I表示全称量词¥_,M=0表示存在量词落设初始值M=0,则对于任意的预处理之后的句子,其关系模板的自动匹配与本体关系信息的自动提取过程如下:[0226]SI.分别通过句子的依存关系root和nsubj,提取句子依存关系中的中心词H及H的主语n_nsubj,进一步,如果n_nsubj不属于当前领域本体中的概念,并且通过检索11_1181113」_的assmod与nn依存关系确定n_nsubj有关联修饰或名词组合修饰,则句子符合模板10的特征,转S2;如果n_nsubj属于当前领域本体中的概念,并且n_nsubj有名词组合修饰语n_nn,则将n_nn合并到n_nsubj中,转S3;如果n_nsubj无assmod和nn依存关系,则转S3;否则转S14;[0227]S2.如果中心词H与String3中的某一个词语的相似度大于0.85,并且通过检索中心词H的dobj依存关系确定H有宾语,则与模板10匹配成功,否则转S14,进一步,将主语11_nsubj赋给属性名变量V,主语的关联修饰语或名词组合修饰语赋给属性的定义域词语集合变量C,将中心词H之后的子句赋给关系的值域词语集合变量D,将信息性质变量P设置为1,转Sl3;[0228]S3.如果中心词H与Stringl中的某一个词语的相似度大于0.85,则符合模板1、模板2、模板4和模板5的特征,转S4进行下一步的匹配;如果中心词H与String2中的某一个词语的相似度大于0.85,则符合模板6的特征,转S8进行下一过程的匹配;如果句子的依存关系中出现系动词关系c〇P,则符合模板3的特征,转S7进行下一过程的匹配;否则转S10;[0229]S4.通过检索中心词H的dobj依存关系,确定H是否有宾语n_dobj,如果中心词H有宾语,则符合模板1和模板4的特征,转S5进一步匹配,如果中心词H没有宾语,则符合模板2和模板5的特征,转S6;[0230]S5.计算主语11_1181113」与宾语n_dobj的相似度,如果n_nsubj$n_dobj的相似度大于0.6,则与模板1匹配成功,将关系名变量V设置为“is-a”;否则与模板4匹配成功,将关系名变量¥设置为“1^8?竹”,进一步,转312;[0231]S6.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prep,如果无,则转S14,如果H有介词修饰语,则计算主语n_nsubj与介词修饰语n_prep的相似度,如果n_nsub的相似度大于0.6,则与模板2匹配成功,将关系名变量V设置为“is-a”;否贝IJ,与模板5匹配成功,将关系名变量V设置为“hasPart”,进一步,通过检索介词修饰语11_prep的conj依存关系,找出n_prep的所有并列词,将n_prep及其并列词集合赋给关系的值域词语集合变量D,并将主语n_nsubj赋给关系的定义域词语集合变量C,转S13;[0232]S7.通过检索中心词H的dobj依存关系,确定H是否有宾语n_dobj,如果无宾语,贝Ij转S14;如果有宾语,则与模板3匹配成功,将关系名变量V设置为“is-a”,转S12;[0233]S8.通过检索中心词H的Ioc依存关系,确定H是否有位置修饰词n_loc,如果无则转S9,如果有则与模板6匹配成功,进一步,通过检索位置修饰词11_1〇3的case依存关系,确定n_loc是否有方向修饰词n_dir,若有且n_dir属于方向特征集String4,则将关系名变量V设置为“in”,否则置为“on”,更进一步,将主语1!_1!81*j赋给定义域变量C,将位置修饰词n_loc赋给值域词语集合变量D,转SI3;[0234]S9.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prej,如果无则转S14,如果有,则与模板7匹配成功,进一步,通过检索介词修饰语11_?^」的case依存关系,确定n_prej是否有方向修饰词n_dir,若有且n_dir属于方向特征集String4,则将关系名变量V设置为“in”,否则置为“on”,更进一步,将主语1!_1!81*」赋给定义域变量C,将介词修饰语n_prej赋给值域词语集合变量D,转S13;[0235]SlO.通过检索中心词H的ccomp依存关系,确定中心词是否有补语从句谓词v_ccomp,如果无则转SI1;如果有,则进一步通过检索补语从句谓词v_ccomp的dobj依存关系,确定v_ccomp是否有宾语v_dobj,如果没有则转S14,如果有则与模板8匹配成功,更进一步,将主语n_nsubj赋给定义域变量C,将宾语v_dobj赋给值域词语集合变量D,将补语从句谓词、^〇111?赋给关系名变量¥,转513;[0236]Sll.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prej,如果无则转S14;如果有则与模板9匹配成功,进一步,将主语11_118111^赋给定义域变量C,将介词修饰语n_prej赋给值域词语集合变量D,将中心词H赋给关系名变量V,转S13;[0237]S12.通过检索宾语n_dobj的conj依存关系,找出宾语的所有并列词,将宾语11_dobj及其并列词集合赋给值域词语集合变量D,并将主语11_1181113」赋给定义域词语集合变量C,转S13;[0238]S13.通过检索中心词H的advmod依存关系,确定H是否有壮语修饰词n_adv,如果有,则进一步判断11_31¥是否属于全称量词的特征词集合String5,如果是则置关系或属性约束量词变量M为I,更进一步,返回所提取到的本体关系5元组信息V,C,D,P,M并转系统的本体关系的自动生成模块;[0239]S14.结束模板匹配,转预处理模块,处理下一个教材句子。[0240]具体为,[0241]例13.现有教材句子“软件系统由系统软件和应用软件组成”,其StanfordParser的依存关系为:[nsubj组成-6,软件系统-I,case应用软件-5,由-2,conj应用软件-5,系统软件-3,cc应用软件-5,和-4,pr印组成-6,应用软件-5,rootR00T-0,组成-6],则其关系模板的自动匹配与本体关系信息的自动提取过程为:[0242]SI.通过句子的依存关系rootR00T-0,组成-6和nsubj组成-6,软件系统-1,得到句子依存关系中的中心词H=“组成”及H的主语n_nsubj=“软件系统”。进一步,通过检索发现主语“软件系统”并无assmod和nn依存关系,因此转S3进行下一步的匹配;[0243]S3.中心词“组成”与Stringl中“组成”的相似度为1,大于0.85,因此符合模板1、模板2、模板4和模板5的特征,转S4进行下一步的匹配;[0244]S4.通过检索句子的依存关系发现,中心词“组成”无的dobj依存关系,即其无宾,因此则符合模板2和模板5的特征,转S6;[0245]S6.通过检索句子的依存关系发现,中心词“组成”有prej依存关系:prep组成-6,应用软件-5,因此确定其介词修饰语11_?作?=“应用软件”。进一步,通过计算主语“软件系统”与介词修饰语“应用软件”的基于同义词词林的相似度,得出二者的相似度大于0.6,因此与模板2匹配成功,将关系名变量V设置为“is-a”。进一步,通过检索介词修饰语“应用软件”的conj依存关系:conj应用软件-5,系统软件-3,找出n_prep的一个并列词“系统软件”,因此将介词修饰语“应用软件”及其并列词“系统软件”赋给关系的定义域词语集合变量C,并将主语“软件系统”赋给关系的值域词语集合变量D,转Sl3。[0246]S13.通过检索句子的依存关系,并没有发现中心词“组成”的advmod依存关系,即中心词无壮语修饰词n_adv,因此返回所提取到的本体关系5元组信息:(“组成”,{“应用软件”,“系统软件”},{“软件系统”},〇,〇并转系统的本体关系的自动生成模块。

权利要求:1.一种基于依存关系的教学领域本体自动生成方法,首先通过TF_IDF权重从教材中抽取并自动生成领域术语表,并将领域术语表中的术语转换为教学领域本体中的概念,生成只有单层结构的初始教学领域本体,然后提出基于依存关系的描述本体关系句子模板的结构与设计原则,并根据各类教学领域关系的特点,定义基于依存关系的描述本体关系的句子模板,形成描述本体关系的句子模板库,最后按照以下步骤进行本体关系信息的提取与领域本体关系的自动生成,包括以下步骤,步骤1进行本体描述句子的预处理;步骤2进行本体描述句子的依存关系分析;步骤3进行关系模板的自动匹配与本体关系信息的自动提取;步骤4进行本体关系的自动生成。2.根据权利要求1所述的基于依存关系的教学领域本体自动生成方法,其特征在于:所述自动生成领域术语表的方法为,基于TF_IDF权重的领域术语表的自动生成方法,来收集教材中的,通用语言词典所不包含的领域术语,为教材句子的正确分词及领域概念的正确划分提供依据,其步骤为:1收集不同学科的待处理教材电子文档,形成教材语料库;2使用通用语言词典及现有的分词软件,对教材语料库中的所有句子进行分词及词性标注,形成教材语料库的基本词汇表;3对分词后的教材句子中所有通过空格相连的名词、形容词与副词的基本词汇按从右向左的顺序逐个合并,形成教材语料库的扩展词汇表;⑷按以下公式,计算每一本教材中,每一个基本词汇与扩展词汇的基于词频TF和逆文档频率IDF的TF_IDF权重,TF_IDF=TFXIDF12:=〈谓词蕴含公式〉〈谓词蕴含公式:=〈条件〈—〈结论〉〈—:=“表示通过条件推导出结论的蕴含运算符”〈条件:=〈个体声明〉,〈连接符〉,〈依存关系谓词〉,〈关系表达式〈结论:=〈连接符〉,〈模板声名谓词〉,〈本体关系谓词〈个体声明:=〈量词X个体变量XeX个体域〉:=1〈e:=“表示个体属于某个域的集合算符”〈连接符:=〈合取符ΛI〈析取符V〈依存关系谓词:=“由依存关系名命名的谓词”〈模板声名谓词:=“由模板名命名的谓词”〈本体关系谓词:=“由本体关系名命名的谓词”〈关系表达式:=〈操作数〉,〈关系运算符〈操作数:=〈函数I〈个体变量〉〈关系运算符|”=”|”〈=”其中,符号“:表示定义,“〈”表示定义中的元素,“”表示元组,“I”表示逻辑“或”关系。4.根据权利要求1所述的基于依存关系的教学领域本体自动生成方法,其特征在于:所述句子模板的设计原则为:将模板规则中的前件都设计成蕴涵式的必要条件,而不是排他式的充分条件,同时采用可判定相容原则,以达到简化句子模板结构的目的,具体为包括,相容性句子模板和句子模板的可判定相容,所述相容性句子模板为,如果句子模板A的所有条件完全被句子模板B的条件集合所蕴涵,则称句子模板B为句子模板A的相容性模板,其定义规则为,^.4:l3^C=TH2,如果是则符合模板1,否则符合模板4;模板2.父类为主语、子类为介词修饰语的描述分类关系句子模板规则,其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板2中分类关系特征的动词集合。符合此模板的句子结构与符合模板2的完全相同,为区分二者,在模板规则中进一步判定主语与宾语的相似度是否大于或等于阈值TH2,即simm,n2彡TH2,如果是则符合模板2,否则符合模板5;模板3.通过系动词描述分类关系的句子模板规则,模板4.“整体”概念为主语、“部分”概念为宾语的描述“整体-部分”关系的句子模板规则,其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板4中整体-部分和部分-整体关系特征的动词集合。此模板可同时提取整体-部分和部分-整体关系,即整体-部分和部分-整体关系互为逆关系;模板5.“整体”概念为主语、“部分”概念为介词修饰语的描述“整体-部分”关系的句子模板规则,其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示模板5中分类关系特征的动词集合,此模板可同时提取整体-部分和部分-整体关系,即整体-部分和部分-整体关系互为逆关系;模板6.存放位置为方位修饰语的描述位置关系的句子模板规则,其中,String2={“位于”,“放在”,“存放”,…,“放置”}表示模板6中位置关系特征的动词集合;模板7.存放位置为介词修饰语的描述位置关系的句子模板规则,其中,String2={“位于”,“放在”,“存放”,…,“放置”}表示模板7中位置关系特征的动词集合;模板8.领域关系名为补语从句中的动词的描述领域关系的句子模板规则,其中,Stringl={“分为”,“有”,“组成”,…,“包括”}表示分类关系特征的动词集合;String2={“位于”,“放在”,“存放”,…,“放置”}表示位置关系特征的动词集合;String3={“包括”,“包含”,“有”,…,“具有”}表示属性关系特征的动词集合;谓词DomainV,n2,n3表示m与n2构成名为V领域关系;模板9.领域关系名为主句中心词、值域为介词修饰语的描述领域关系的句子模板规则,其中,31:1':[1^1、31:1';[1^2、31:1';[1^3、0〇1]^;[11,111,112的含义与模板8中的相同;模板10.属性名为主语、使用非系动词的描述字符属性的句子模板规则,其中,String3={“包括”,“包含”,“有”,…,“具有”}表示模板10中属性关系特征的动词集合,函数subStrlS1,V1返回字符串S1中V1之后(不包括vl的子字符串,谓词Attributem,n2,n3表示m与η3构成名为m的数据属性。所述语义词典是指跨领域学科的、基于语义关系的可计算词典。6.根据权利要求1所述的基于依存关系的教学领域本体自动生成方法,其特征在于:所述步骤1进行本体描述句子的预处理方法为,把对本体构建没有贡献的成分删除,以减少信息抽取时的误差,以及判定句子是否符合本体关系提取的基本条件,具体包括删除本体关系描述句子中的修饰性成分和基于依存关系的句子可满足性分析,所述删除本体关系描述句子中的修饰性成分的方法为,给定一个来自教材的本体关系描述句子,首先根据通用语言词典及领域词汇表对其进行分词,然后使用美国斯坦福大学设计的开源语法解析工具StanfordParser对该本体描述句子进行句法结构分析,得到其句法描述树,最后按以下步骤删除本体描述句子中的修饰性成分,1以广度优先算法遍历句法树;⑵如果句法树中的节点为CP,删除CP及其子节点;⑶如果句法树中的节点为DP,删除DP及其子节点;其中,CP为StanfordParser句法分析中由“的”构成的表示修饰性关系的短语,DP为句法分析中的限定词短语;所述基于依存关系的句子可满足性分析的方法为,通过美国斯坦福大学设计的开源语法解析工具StanfordParser,对句子进行依存关系分析,判定句子是否符合本体关系提取的基本条件,包括,1句子必须具有中心词,如果句子存在中心依存关系root,则满足,否则不满足;2句子的中心词必须要有主语,如果句子的中心词存在主语依存关系nsubj,则满足,否则不满足;3句子的语气必须是肯定而不能是否定,如果句子的中心词不存在否定修饰依存关系Neg,则满足,否则不满足;如果一个教材句子同时满足上述三个条件,表明该句子符合本体关系提取的先决条件,可转模板推理机,作进一步的处理,否则放弃对该句子进行本体关系提取,所述通用语言词典是指在现有分词软件中用于分词与词性标注的语言词典。7.根据权利要求1所述的基于依存关系的教学领域本体自动生成方法,其特征在于:所述句子步骤3进行模板的自动匹配与本体关系信息的自动提取方法为,在进行句子模板的自动匹配时,对于任意两个可判定相容性模板,首先选择有更多前件条件的强约束模板进行匹配,仅当强约束的模板不能满足时,才选择弱约束的模板进行匹配,从而避免模板的错误匹配,针对描述本体关系的句子模板的相容性与条件约束强弱,模板匹配与本体关系信息提取的具体过程:设Stringl={“分为”,“有”,“组成”,…,“包括”}表示分类关系特征的动词集合;String2={“位于”,“放在”,“存放”,…,“放置”}表示位置关系特征的动词集合;String3=Γ包括”,“包含”,“有”,…,“具有”}表示属性关系特征的动词集合;String4={“内”,“里”,“之里”,…,“之内”}表示“in”位置关系的方向特征词集合;String5={“仅”,“仅仅”,…,“只”}表示全称量词的特征词集合;V表示所提取的关系名或属性名变量,C表示所提取的关系或属性的定义域词语集合变量,D表示所提取的关系或属性的值域词语集合变量,P表示所提取的信息性质是否为属性P=I表示是属性,P=O表示不是属性,设初始值P=〇,M表示所提取的关系或属性的约束量词M=I表示全称量词#',M=0表示存在量词3,.设初始值M=0,则对于任意的预处理之后的句子,其关系模板的自动匹配与本体关系信息的自动提取过程如下:SI.分别通过句子的依存关系root和nsubj,提取句子依存关系中的中心词H及H的主语n_nsubj,进一步,如果n_nsubj不属于当前领域本体中的概念,并且通过检索11_1181113」_的assmod与nn依存关系确定n_nsubj有关联修饰或名词组合修饰,则句子符合模板10的特征,转S2;如果n_nsubj属于当前领域本体中的概念,并且n_nsubj有名词组合修饰语n_nn,则将n_nn合并到n_nsubj中,转S3;如果n_nsubj无assmod和nn依存关系,则转S3;否则转S14;S2.如果中心词H与String3中的某一个词语的相似度大于0.85,并且通过检索中心词H的dobj依存关系确定H有宾语,则与模板10匹配成功,否则转S14,进一步,将主语n_nsubj赋给属性名变量V,主语的关联修饰语或名词组合修饰语赋给属性的定义域词语集合变量C,将中心词H之后的子句赋给关系的值域词语集合变量D,将信息性质变量P设置为1,转S13;S3.如果中心词H与Stringl中的某一个词语的相似度大于0.85,则符合模板1、模板2、模板4和模板5的特征,转S4进行下一步的匹配;如果中心词H与String2中的某一个词语的相似度大于0.85,则符合模板6的特征,转S8进行下一过程的匹配;如果句子的依存关系中出现系动词关系cop,则符合模板3的特征,转S7进行下一过程的匹配;否则转S10;S4.通过检索中心词H的dobj依存关系,确定H是否有宾语n_dobj,如果中心词H有宾语,贝IJ符合模板1和模板4的特征,转S5进一步匹配,如果中心词H没有宾语,则符合模板2和模板5的特征,转S6;55.计算主语11_1181113」与宾语n_dobj的相似度,如果n_nsubj$n_dobj的相似度大于0.6,则与模板1匹配成功,将关系名变量V设置为“is-a”;否则与模板4匹配成功,将关系名变量¥设置为“118?竹”,进一步,转312;56.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prep,如果无,则转S14,如果H有介词修饰语,则计算主语n_nsubj与介词修饰语n_prep的相似度,如果n_nsubj与11_?^?的相似度大于0.6,则与模板2匹配成功,将关系名变量V设置为“is-a”;否则,与模板5匹配成功,将关系名变量V设置为“hasPart”,进一步,通过检索介词修饰语11_口代口的conj依存关系,找出n_prep的所有并列词,将n_prep及其并列词集合赋给关系的值域词语集合变量D,并将主语11_1^1*j赋给关系的定义域词语集合变量C,转S13;57.通过检索中心词H的dobj依存关系,确定H是否有宾语n_dobj,如果无宾语,则转S14;如果有宾语,则与模板3匹配成功,将关系名变量V设置为“is-a”,转S12;S8.通过检索中心词H的Ioc依存关系,确定H是否有位置修饰词n_loc,如果无则转S9,如果有则与模板6匹配成功,进一步,通过检索位置修饰词11_1oc的case依存关系,确定n_Ioc是否有方向修饰词n_dir,若有且n_dir属于方向特征集String4,则将关系名变量V设置为“in”,否则置为“on”,更进一步,将主语1!_1!81^赋给定义域变量C,将位置修饰词n_loc赋给值域词语集合变量D,转Sl3;S9.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prej,如果无则转S14,如果有,则与模板7匹配成功,进一步,通过检索介词修饰语11_?^」的case依存关系,确Sn_prej是否有方向修饰词n_dir,若有且n_dir属于方向特征集String4,则将关系名变量V设置为“in”,否则置为“on”,更进一步,将主语^^油j赋给定义域变量C,将介词修饰语n_prej赋给值域词语集合变量D,转SI3;SlO.通过检索中心词H的ccomp依存关系,确定中心词是否有补语从句谓词v_ccomp,如果无则转Sll;如果有,则进一步通过检索补语从句谓词v_ccomp的dobj依存关系,确定v_ccomp是否有宾语v_dobj,如果没有则转S14,如果有则与模板8匹配成功,更进一步,将主语n_nsubj赋给定义域变量C,将宾语v_dobj赋给值域词语集合变量D,将补语从句谓词¥_ccomp赋给关系名变量V,转Sl3;SI1.通过检索中心词H的prej依存关系,确定H是否有介词修饰语n_prej,如果无则转S14;如果有则与模板9匹配成功,进一步,将主语11_1181113」赋给定义域变量C,将介词修饰语n_prej赋给值域词语集合变量D,将中心词H赋给关系名变量V,转S13;S12.通过检索宾语n_dobj的Conj依存关系,找出宾语的所有并列词,将宾语11_1〇bj及其并列词集合赋给值域词语集合变量D,并将主语11_1^1!13」赋给定义域词语集合变量C,转S13;S13.通过检索中心词H的advmod依存关系,确定H是否有壮语修饰词n_adv,如果有,贝Ij进一步判断n_adv是否属于全称量词的特征词集合String5,如果是则置关系或属性约束量词变量M为1,更进一步,返回所提取到的本体关系5元组信息V,C,D,P,M并转系统的本体关系的自动生成模块;S14.结束模板匹配,转预处理模块,处理下一个教材句子。8.根据权利要求1所述的基于依存关系的教学领域本体自动生成方法,其特征在于:所述步骤4进行本体关系的自动生成的方法为,将模板推理机中提取的本体关系5元组信息V,C,D,P,M,按以下步骤自动生成本体关系:51.判定本体关系5元组信息中的信息性质变量P是否等于1,如果不等于1,则所提取的信息为本体关系,转S2;如果等于1,则所提取的信息为本体属性,进一步判定定义域词语集合变量C中的词语是否为当前领域本体中的概念,如果不是则转S5,否则若当前领域本体中不存在V中属性名的属性,则按V中属性名在当前领域本体中生成相应的字符型属性,更进一步,将值域词语集合变量D中的所有元素按顺序合并成一个字符串SD,如果约束量词变量M=1,则在当前领域本体中为概念C生成一个形如W.SD的属性约束,如果1,则在当前领域本体中为概念C生成一个形如iSV.SD的属性约束,转S5;52.判定本体关系5元组信息中的变量名变量V是否等于“is-a”,如果不等于“is-a”,则转S3;如果等于“is-a”,则进一步判定值域词语集合变量D中的词语是否为当前领域本体中的概念,如果不是则转S5,否则如果定义域词语集合变量C中的词语不为当前领域本体中的概念,则在本体中生成相应名称的概念,更进一步,为C中的每一个概念生成一个形如3el^s0f.D.的“is_a”关系约束,转S5;53.判定本体关系5元组信息中的变量名变量V是否等于“hasPart”,如果不等于“hasPart”,则转S4;如果等于“hasPart”,则进一步判定定义域词语集合变量C中的词语是否为当前领域本体中的概念,如果不是则转S5,否则去除值域词语集合变量D中不为当前领域本体中概念的词语,之后D若为空则转S5,否则如果约束量词变量M=1,则在当前领域本体中为概念C生成一个形如VhasPaftD的关系约束,如果1,则在当前领域本体中为概念C生成一个形如3mP:art.D的关系约束,更进一步,为D中的每一个概念生成一个形如3pastO£C的关系约束,转S5;54.判定本体关系5元组信息中的定义域词语集合变量C中的词语中的词语是否为当前领域本体中的概念,如果不是则转S5,否则去除值域词语集合变量D中不为当前领域本体中概念的词语,之后D若为空则转S5,否则若当前领域本体中不存在V中关系名的关系,则按V中关系名在本体中生成相应的关系,更进一步,如果约束量词变量M=1,则在当前领域本体中为概念C生成一个形如V¥.D的关系约束,如果1,则在当前领域本体中为概念C生成一个形如3V.D的关系约束,转S5;55.结束本体关系的生成,转预处理模块,处理下一个教材句子;所述本体中的关系是指本体概念间的二元关系,本体中的属性是指本体概念与数据对象之间的二元关系,它是本体关系的一种特例。9.根据权利要求1所述的基于依存关系的教学领域本体自动生成方法,其特征在于:还包括基于通用语义词典的术语相似度计算方法,将不被通用语义词典所收录的领域术语分解为多个语义词典所收录的词语元素,然后通过综合考虑领域术语之间的元素相似度与元素顺序得出基于通用语义词典的术语相似度,为统一相似度的计算,将通用语义词典所收录的常规词语处理为元素个数为1的领域术语,具体计算方法如下:1使用如下的公式⑷计算两个术语Tl和T2之间的术语相似度,其中,Sem_simTl,T2表示基于通用语义词典的语义相似度,OrderTl,T2表示术语Tl和Τ2之间的顺序相似度,ITI表示术语T中的元素个数;⑵使用如下的公式⑸计算两个术语TdPT2之间的顺序相似度,其中,AdjustT1,T2表示为使术语TdPT2*相同元素保持顺序一致而需调整的元素个数,如Adjust软件系统,系统软件)=1,|τI表示术语T中的元素个数,Max表示取最大值,T1门T21表示术语TjPT2中相同元素的个数;⑶使用如下的公式⑹计算两个术语TdPT2之间基于通用语义词典的语义相似度,其中,max_simt,T表示术语中的元素t与术语T的最大相似度,ν_ΐer表示术语T中的所有元素,|T|表示术语T中元素的个数;⑷使用如下的公式⑺计算术语中的元素t与术语T的最大相似度:7其中,Sem_simt,a表示术语中的元素i和j基于通用语义词典的语义相似度;⑸使用如下的公式⑻和9计算术语中的元素i和j基于通用语义词典的语义相似度:其中,Concept⑴表示语中的元素i在通用语义词典中的义项集合,Concept⑴XConceptj表示义项集合Concepti、Conceptj之间的所有二元组,LCPa,b表示义项a和b在通用语义词典中的最近公共父结点,DepthLCPa,b表示最近公共父结点LCPa,b在通用语义词典中的深度,Patha,b表示义项a和b在通用语义词典中的最短路径。10.—种基于依存关系的教学领域本体自动生成的装置,其特征在于包括:领域术语表、句子模板库、句子预处理模块、模板推理机与本体关系生成器,所述领域术语表,用于存储从教材中提取的本领域所特有的概念名、关系名与属性名;所述句子模板库,用于存储通过依存句法关系描述本体关系的句子模板;所述句子预处理模块,连接领域术语表,用于根据通用语言词典及领域词汇表对来自教材的句子进行分词、句法与依存关系分析,删除本体关系描述句子中的修饰性成分,判定句子是否符合本体关系提取的基本条件,得到句子的依存关系;所述模板推理机,连接句子模板库,按照句子模板规则中的前提条件,对通过预处理的教材句子进行模板匹配与本体关系信息,得到从教材句子中提取出的本体关系信息;所述本体关系生成器,根据模板推理机从教材句子中提取出的本体关系信息,在当前领域本体中生成相应的本体关系或本体属性。

百度查询: 广西师范大学 一种基于依存关系的教学领域本体自动生成方法与装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。