买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于实体连通图的事件模版构造方法_哈尔滨工业大学_201711071987.6 

申请/专利权人:哈尔滨工业大学

申请日:2017-11-03

公开(公告)日:2021-07-16

公开(公告)号:CN107862037B

主分类号:G06F16/35(20190101)

分类号:G06F16/35(20190101);G06F16/36(20190101)

优先权:

专利状态码:有效-授权

法律状态:2021.07.16#授权;2018.04.24#实质审查的生效;2018.03.30#公开

摘要:一种基于实体连通图的事件模版构造方法,本发明涉及事件模板的构造方法。本发明的目的是为了解决现有技术在针对特定事件的“检索”、“问答”等人工智能应用中识别结果及提取特定信息不准确;基于事件的篇章相似度难以定量计算以及篇章关键信息难以提取的问题。过程为:一、对每一句抽取三元组;二、视三元组中的三个元素为三个结点;三、将从文本中抽取到的结点均放入到集合S1中;四、利用词向量计算S1中任两个结点的相似度并依此生成连通图;五、计算各结点的PageRank值;六、确定两篇文本陈述的事件间的关系度量值;七、形成多个文本簇;八、构建粗粒度事件模板和细粒度事件模版。本发明用于篇章关键信息提取及相关度计算领域。

主权项:1.一种基于实体连通图的事件模版构造方法,其特征在于:所述方法具体过程为:步骤一、利用LTP平台上的依存句法关系分析功能得到文本d中每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中三元组z1,z2,z3;所述LTP平台为哈工大社会计算与信息检索研究中心研发的语言技术平台;步骤二、视三元组z1,z2,z3中的三个元素为三个结点,并构建三条边用于连接z1,z2、z1,z3和z2,z3;所述z1,z2,z3为主谓宾、主动补或定定中;所述定定中为定语、定语、中心词;步骤三、将从文本d中抽取到的所有三元组中包含的结点均放入到集合S1中;利用LTP平台上的分词功能对文本d进行分词,利用word2vec模型将每一个分词转换成词向量;步骤四、利用词向量计算S1中任两个结点的相似度,如果相似度超过预先定义的阈值,则在两个结点间建立一条边;如果相似度没有超过预先定义的阈值,则不在两个结点间建立一条边;步骤五、计算由S1中所有结点组成的图中各结点的PageRank值;步骤六、通过计算任两篇文本对应的图的重合度来确定两篇文本陈述的事件间的关系的度量值,即为关联度;当计算完文本中陈述的事件间的关联度后,即可形成事件关联分析矩阵,该矩阵的行和列均为文本,矩阵的值代表了文本中陈述的事件间的关联度;用矩阵的行向量表示对应行代表的文本,将文本表示为文本向量的形式;步骤七、使用聚类算法K-means对步骤六得到的文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;步骤八、构建粗粒度事件模板和细粒度事件模版;一、构建粗粒度事件模板:从文本簇内将事件的核心要素识别出来;核心要素为触发词、参与者和时间;二、构建细粒度事件模版:识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值;所述步骤八中构建粗粒度事件模板中触发词、参与者和时间的确定过程为:a对于触发词的选取:将步骤三得到的每一个向量化的三元组标记为Arg1,relation,Arg2,其中relation代表Arg1和Arg2之间的关系;relation是动词,视为事件的触发词,而Arg1和Arg2为名词,代表了参与事件的元素;假设输入的某一文本簇为C,则由C内的所有文本构成的三元组集合为S2,计算S2中的三元组任意两个relation对应的词语的相似度;相似度计算过程为:将relation用词向量表示,通过余弦相似度计算S2中的三元组任意两个relation对应的词语的相似度;计算完毕相似度后,形成一个relation-relation的矩阵,矩阵的行列均为relation对应的词语,矩阵的值为relation间的相似度;将矩阵的行取和,将和的最大值对应的词语作为事件触发词;b对于参与者的选取:判断与事件触发词处于同一个三元组内的词语是否为名实体,如果词语为名实体则为参与者,如果词语不为名实体则不为参与者;c对于时间的选取:用正则式来表示文本中时间的书写规则,根据正则式将时间提取出来,然后通过判断时间与事件触发词和参与者在文本中的距离来判断此时间是否可插入到粗粒度事件模板中时间对应的单元格内;判断过程为:时间是否和触发词以及参与者在同一句内同时出现,如果同时出现,则确定该时间能插入到粗粒度事件模板中,否则过滤掉;所述步骤八中构建细粒度事件模版中识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值;具体过程为:条件1、根据《大词林》判断步骤七形成的某一个文本簇中某词语是否为概括性或抽象性的词语,如果词语是概括性词语且抽象程度未达到抽象阈值,则该概括性词语保留,进行2;否则将词语过滤掉;条件2、计算满足条件1的每个概括性词语的权值: 式中,d代表输入的与某类型事件相关的文本簇中的某一篇文本;g代表文本簇中文本的数量;wde和wdf均代表文本d中的某个概括性词语;h代表整个词表的长度;g、h取值为正整数;所述词表为文本簇中所有文章所包含词语组成的集合,若一个词语在文章中出现多次只取一次放入集合中;词表的长度为集合中词语的个数;simwde,wdf代表两个概括性词语之间的相似度;过程为:采用将wde和wdf先用词向量表示,然后计算余弦相似度;fwdf代表某个概括性词语在某篇文本中出现的频度;fwde代表某个概括性词语在某篇文本中出现的频度;通过计算公式2,得到根据条件1过滤得到的每个概括性词语的权值;设定阈值,将概括性词语的权值小于阈值的概括性词语过滤掉,将概括性词语的权值大于等于阈值的概括性词语保留,进行3;条件3、将文本中满足条件2的第一个概括性词语所在句子提出,组成集合S3,利用LTP平台上的依存句法关系分析功能得到每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中三元组,从S3中抽取包含第一个概括性词语在内的三元组,三元组按照Arg1,relation,Arg2形式构建,计算包含第一个概括性词语的三元组集合中两两relation的相似度,若两两relation相似度的均方差大于等于阈值,则第一个概括性词语过滤掉;若两两relation相似度的均方差小于阈值,则第一个概括性词语为细粒度事件模板的元素;将文本中满足2的第二个概括性词语所在句子提出,判断第二个概括性词语是否为细粒度事件模板的元素;直至将文本中满足2的所有概括性词语判断完;将细粒度事件模板的元素所在的三元组中的名实体或时间提出,作为细粒度事件模板的元素值填充到细粒度事件模板中。

全文数据:一种基于实体连通图的事件模版构造方法技术领域[0001]本发明涉及事件模板的构造方法,涉及信息处理技术领域。背景技术[0002]随着互联网技术的飞速发展,网络上充斥着大量的事件,这些事件大多以无结构化的文本形式存在,比如“XX发现了XX”、“XX并购了XX”等,这种无结构化的文本信息很难被应用于类似于“检索”、“问答”、“对话”等人工智能技术中。因此,如何能够从网络文本中自动获取文本中陈述的事件的关联性以将文本划分为多个事件簇进而构造出事件模板是非常有意义的工作。[0003]虽然很多的评测组织(例如ACE已经定义了事件的类型和事件的结构化表示,比如ACE定义了8大类事件、33个小类事件,但是这种封闭的类型定义本身过于狭隘,已经不适用于当前多种多样的事件类型。并且由于当前多数的事件识别系统均是着眼于从一条语句中识别事件元素,因此每个事件的事件元素的定义也过于简单。比如,在ACE中的“LifeMarry”事件中仅有“人”、“地点”、“时间”这三个事件元素。但是,在很多情况中,这三个元素不足以完整的描述“LifeMarry”事件,比如“出席婚礼的人数”、“主宾”等等也是应该引入的必要的事件元素,但是由于当前的事件识别系统以触发词(针对“LifeMarry”事件,像“结婚”、“举办婚礼”等词或短语均可视为该事件的触发词识别事件,并仅从触发词所在的句子中抽取事件元素,因此上述这些类似于“出席婚礼的人数”、“主宾”等事件元素是不会被识别出来的,并且“LifeMarry”事件中“人”这个元素应该细分为“丈夫”和“妻子”两个角色,而在ACE中也没有去做。[0004]事实上,以句子级为基准的事件对于信息的覆盖程度非常少的。随着网络上信息的丰富,从篇章一级分析事件将会更有意义。比如,对于“汉川地震”事件,关于地震的等级、造成的影响、救援的程度、后续的援助等等,这些信息是不可能用一句话表述完的。再者,文本陈述的事件之间是存在关联性的。同样以“汶川地震”为例,会有多篇新闻追踪介绍“汶川地震的震况”,另外,也会有新闻或博客分析“汶川地震带来的影响”。这些文本都是围绕着“汶川地震”展开,因此必然存在多种多样的关联性。当对文本中涉及的事件进行分析时,能够发现这种事件间的关联性是非常有意义的。[0005]综上所述现有技术存在针对特定事件的“检索”、“问答”、“对话”等人工智能的应用中识别结果及提取特定信息不准确,事件的篇章相似度难以定量计算以及篇章关键信息难以提取。发明内容[0006]本发明的目的是为了解决现有技术在针对特定事件的“检索”、“问答”、“对话”等人工智能的应用中识别结果及提取特定信息不准确;基于事件的篇章相似度难以定量计算以及篇章关键信息难以提取的问题,而提出一种基于实体连通图的事件模版构造方法。[0007]—种基于实体连通图的事件模版构造方法具体过程为:[0008]步骤一、利用LTP平台上的依存句法关系分析功能得到文本d中每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中(定语、定语、中心词三元组zl,z2,z3;[0009]所述LTP平台为哈工大社会计算与信息检索研究中心研发的语言技术平台;[0010]步骤二、视三元组(Zl,z2,z3中的三个元素为三个结点,并构建三条边用于连接zl,z2、(zl,z3和z2,z3;[0011]所述zl,z2,z3为主谓宾、主动补或定定中;[0012]步骤三、将从文本d中抽取到的所有三元组中包含的结点均放入到集合51中;[0013]利用LTP平台上的分词功能对文本d进行分词,利用word2vec模型将每一个分词转换成词向量;[00M]步骤四、利用词向量计算S1*任两个结点的相似度,如果相似度超过预先定义的阈值,则在两个结点间建立一条边;如果相似度没有超过预先定义的阈值,则不在两个结点间建立一条边;[0015]步骤五、计算由Si中所有结点组成的图中各结点的PageRank值;[0016]步骤六、通过计算任两篇文本对应的图的重合度来确定两篇文本陈述的事件间的关系的度量值,即为关联度;[0017]当计算完文本中陈述的事件间的关联度后,即可形成事件关联分析矩阵,该矩阵的行和列均为文本,矩阵的值代表了文本中陈述的事件间的关联度;[0018]用矩阵的行向量表示对应行代表的文本,将文本表示为文本向量的形式;[0019]步骤七、使用聚类算法κ-means对步骤六得到的文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;[0020]步骤八、构建粗粒度事件模板和细粒度事件模版;[0021]—、构建粗粒度事件模板:[0022]从文本簇内将事件的核心要素识别出来;核心要素为触发词、参与者和时间;[0023]二)、构建细粒度事件模版:[0024]识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值。[0025]本发明的有益效果为:[0026]本发明通过完成新闻语料的三元组提取,从新闻中提取主谓宾、定定中、主动补三元组。完成新闻连通图的构建,在提取出三元组的基础上,根据三元组相似性超过阀值就将两个三元组节点相连的原则,将新闻抽象为一个连通图;完成连通图各节点PR值的计算。在完成PR值计算的基础上计算得到任意两篇新闻的新闻相似度。使用聚类算法K-means对文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;构建粗粒度事件模板和细粒度事件模版;解决了现有技术在针对特定事件的“检索”、“问答”、“对话”等人工智能的应用中识别结果及提取特定信息不准确的问题;通过定义篇章相似度计算公式,解决了基于事件的篇章相似度难于定量计算的问题;通过构建事件模板解决了篇章关键信息难于提取的问题。从实施例可以看到,排名在前4的新闻都是与A国战争相关的新闻。与A国战争相关的新闻排名最低的是第23名,第3750篇文章,本发明方案满足了按照新闻事件提取新闻内容的要求。附图说明[0027]图1为本发明流程图。具体实施方式[0028]具体实施方式一:结合图1说明本实施方式,本实施方式的一种基于实体连通图的事件模版构造方法具体过程为:[0029]目标有两点:1确定输入文本之间陈述的事件的关联性,并依此将输入文本集划分为多个簇,簇内的文本均陈述了同一事件;2根据簇内文本描述的信息,获取事件模板,事件模板分为粗粒度和细粒度两种类型,粗粒度事件模板只需识别出事件的触发词,事件涉及的人物、时间即可(即识别出事件要素),细粒度的事件模板则根据簇内文本描述的信息自动抽取事件元素,并获取事件元素对应的值。[0030]现分别叙述每个目标的解决方案:[0031]1、事件关系分析及事件聚类[0032]本项目的目的在于能够根据输入文本中陈述的事件的不同将输入文本划分为多个簇,每个簇内的文本陈述了同一事件。例如,可按事件将输入文本划分为“XX球队比赛”、“XX基金上涨”、“XX电影上映”等一系列的陈述不同事件的文本簇。由于我们没法预先知道输入文本中究竟会有什么样的文本簇,因此只能采用无监督的聚类方法去划分输入文本。以下即为具体实现方案:[0033]1事件关联分析[0034]为实现按事件聚类文本,需要首先获取输入文本陈述的事件之间的关联性的度量,即需要一种方法来表示文本中陈述的事件以及该事件涉及到的各个元素。传统的聚类算法以词语作为特征描述文本,并通过文本特征向量的余弦相似度确定文本之间的关联进而进行聚类。此种方法对于“将主题相似性的文档聚为一类”这种目标是有效的,因为主题是可以通过主题词来描述的。但是对于本项目涉及的“事件聚类”来说,事件是很难通过一个或多个特征词来描述的。按照ACE中对事件的定义,事件是由触发词引起,并包含了参与者、时间、地点等多个因素,因此应该使用更复杂的形式作为特征来表示文本陈述的事件。[0035]按照ACE中对事件的定义,事件是句子级别的,即文本中的一个句子可视为一个事件。本项目扩展了事件的定义,从篇章的角度宏观的定义事件,即认为一篇文本应该是围绕一个核心事件展开的。虽然本项目是从篇章角度分析事件及事件的关联关系,但是对单篇文本分析时,还是应该从句子一级入手去挖掘事件及事件涉及的各个元素。由于此部分的目的仅在于挖掘作为事件的代表的特征以确定事件之间的关系,需要从细粒度的角度分析事件。基于此,本项目并不打算按照ACE给定的步骤先识别触发词确定事件类型,再根据事件类型识别事件元素去做,因为ACE给定的事件类型和事件模板太过粗粒度,显然会影响到事件关联计算的准确度。本项目拟三元组作为句子级的事件表示或称之为事件特征),然后通过边将各个句子级的三元组串联起来作为整个篇章的表示。[0036]步骤一、利用LTP平台上的依存句法关系分析功能得到文本d中每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中(定语、定语、中心词三元组z1,ζ2,ζ3抽取三元组目的在于涵盖事件中涉及到的具体元素,以及获得元素之间的关系。因此,所采用的句法关系类型以定中关系三元组、主谓动补关系三元组为主);[0037]所述LTP平台为哈工大社会计算与信息检索研究中心研发的语言技术平台,语言技术平台(LanguageTechnologyPlatform,LTP;[0038]步骤二、视三元组(z1,ζ2,ζ3中的三个元素为三个结点,并构建三条边用于连接zI,z2、(zI,z3和z2,z3;[0039]所述z1,ζ2,ζ3为主谓宾、主动补或定中;[0040]步骤三、将从文本d中抽取到的所有三元组中包含的结点(每个三元组包含三个结点均放入到集合S1中;[0041]利用LTP平台上的分词功能对文本d进行分词,利用word2vec模型将每一个分词转换成词向量;[0042]步骤四、利用词向量计算S1*任两个结点的相似度,如果相似度超过预先定义的阈值,则在两个结点间建立一条边;如果相似度没有超过预先定义的阈值,则不在两个结点间建立一条边;[0043]步骤五、计算由Si中所有结点组成的图中各结点的PageRank值作为文本陈述的事件中侧重的要点;PageRank值越高越重要;[0044]经过步骤一〜步骤五,将每篇文本均表示为一个连通图,图中的结点是从句子中抽取得到的三元组,代表句子级的事件元素,结点间的边从整个篇章的角度考虑了全文中各元素之间的联系,而通过计算图中结点的PageRank值可以从篇章级别上揭示出文本陈述的事件的侧重点在于哪。[0045]步骤六、当获得文本对应的三元组关系图和图中结点的PageRank值后,即可通过计算任两篇文本对应的图的重合度来确定两篇文本陈述的事件间的关系的度量值,即为关联度;[0046]当计算完文本中陈述的事件间的关联度后,即可形成事件关联分析矩阵,该矩阵的行和列均为文本,矩阵的值代表了文本中陈述的事件间的关联度,矩阵的值由关联度的计算公式计算得到;[0047]用矩阵的行向量表示对应行代表的文本,将文本表示为文本向量的形式;[0048]步骤七、⑵事件聚类[0049]在获取了事件之间的关联度后,即可使用聚类算法K-means对步骤六得到的文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;[0050]以形成陈述同一事件的文本簇。本项目拟采用k-means聚类算法作为基准的事件聚类算法。对于聚类算法的选择有两点需要说明:1选择κ-means的原因是K-means是当前聚类算法中从时间和准确性的角度来说较为有效的一种算法,虽然K-means对于文本聚类的效果不佳,其原因主要是由于文本特征向量的稀疏性使得大部分文本的相似度为0。而本文则使用三元组作为文本中陈述的事件的代表特征,通过将三元组组成网络并依赖网络之间的重合度计算不同文本陈述的事件间的关联度这种方法会很好的解决大部分相似度为〇的问题。基于此,选择K-means作为聚类算法。2本项目目前假设每篇文本只陈述一个核心事件,但是某些情况下,一篇文本可能会陈述多个核心事件,这时在进行聚类时,要考虑将该文本映射到多个簇中。此时,可以使用模糊K-means算法完成对文本的模糊聚类,即将文本按照相关度划分到多个簇中。[0051]步骤八、事件模板提取[0052]在方案1中按照事件将输入文本划分为多个簇。理想状态下,一个簇内的文本都陈述的是同一个事件。当然,这种划分是最理想的,通常很难获得准确的簇划分结果,因此在构建事件模板时,[0053]本发明构建两种类型的事件模型;[0054]—、构建粗粒度事件模板:[0055]表1粗粒度的事件模板[0056][0057]~从文本簇内将事件的核心要素识别出来;核心要素为触发词、参与者和时间;[0058]二)、构建细粒度事件模版:[0059]表2细粒度的事件模板[0060][0061]需要首先识别出模板事件元素,即表中的第一行,然后再从文本簇中针对模板事件元素识别出事件元素对应的值。[0062]具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤四中利用词向量计算S1中任两个结点的相似度,相似度计算公式为:[0063[0064]式中,Θ为向量Ai与Bj的夹角,Ai为词向量A^A2,...,An的第i个数一篇文章的任一个节点)A为词向量B1J2,...,Bn的第j个数一篇文章的任一个节点),n取值为正整数;(Ai,A2,...,An为一个节点。[0065]其它步骤及参数与具体实施方式一相同。[0066]具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤四中阈值取值范围为0.4-0.8。[0067]其它步骤及参数与具体实施方式一或二相同。[0068]具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤六中关联度的计算公式如下:[0069]?.................1[0070]式中,k代表由文本di和dj分别创建的图中结点交集中的一个结点,八?代表该结点在文本cU中的PageRank值,代表该结点在文本dj中的PageRank值,朽^和;的差代表了两个结点在各自图中的重要性的差距;SCU为文本Cl1的节点集合,S山为文本山的节点集合。[0071]显然,如果两个图中重合的结点数越多,并且结点的权值越相近,代表这两篇文本陈述的事件越相近。基于此,即形成了公式(1。[0072]其它步骤及参数与具体实施方式一至三之一相同。[0073]具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述步骤八中的构建粗粒度事件模板:确定过程为:[0074]表1粗粒度的事件模板「00751[0076]需从代表某一事件的文本簇内将事件的核心要素,即触发词(或事件的代表词)、参与者和时间识别出来,并填入表内;[0077]其中触发词、参与者和时间的确定过程为:[0078]此部分涉及的事件模板填充是在已知事件元素的前提下进行的,即已知事件模板中仅包含三种类型的事件元素:事件触发词、参与者和时间。此时,需要做的就是根据这三个事件元素从文本簇中抽取相应的值填入到表格内;[0079]首先针对事件触发词的识别,其在表格1和表格2中均出现,因此仅在此部分中介绍;[0080]a对于触发词的选取,将步骤三得到的每一个向量化的三元组标记为(Argl,relation,Arg2,其中relation代表Argl和Arg2之间的关系;通常来说,relation是动词,视为事件的触发词,而Argl和Arg2为名词,代表了参与事件的元素;[0081]假设输入的某一文本簇为C,则由C内的所有文本构成的三元组集合为S2,计算S2中的三元组任意两个relation对应的词语的相似度;相似度计算过程为:[0082]将relation用词向量表示,通过余弦相似度计算S2中的三元组任意两个reIation对应的词语的相似度;[0083]计算完毕后,形成一个relation-relation的矩阵,矩阵的行列均为relation对应的词语可能的事件触发词),矩阵的值为relation间的相似度;将矩阵的行取和,将和的最大值对应的词语作为事件触发词得到每个relation对应的词语在文本簇中的重要性,选择重要性最大矩阵的行取和的最大值的relation对应的词语作为事件触发词填入到表1中);[0084]b对于参与者的选取,由于事件的参与者作为事件触发词的主语和宾语出现,在选定事件触发词的前提下,判断与事件触发词处于同一个三元组内的词语是否为名实体可以采用已训练好的LSTM-CRF算法判定),如果词语为名实体则为参与者,将其加入到表1中参与者对应的表格内,如果词语不为名实体则不为参与者;[0085]c对于时间的选取,由于时间通常在句子中以多种形式出现状语、定语等等),因此很难通过语法规则将时间包含在三元组内。然而,由于时间是有固定的表达形式,例如文字形式或数字形式XX年XX月XX时,XX为文字或数字),因此用正则式来表示文本中时间的书写规则,根据正则式将时间提取出来,然后通过判断时间与事件触发词和参与者这两者通过前述方法已经识别出)在文本中的距离来判断此时间是否可插入到粗粒度事件模板表格1中时间对应的单元格内;判断过程为:[0086]判断的方式目前拟采用最简单的方法,即看时间是否和触发词以及参与者在同一句内同时出现,如果同时出现,则确定该时间能插入到粗粒度事件模板表格1中,否则过滤掉。[0087]其它步骤及参数与具体实施方式一至四之一相同。[0088]具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:所述步骤八中的构建细粒度事件模版;具体过程为:[0089]表2细粒度的事件模板[0090][0091]需要首先识别出模板事件元素,即表中的第一行,然后再从文本簇中针对模板事件元素识别出事件元素对应的值填入表内;[0092]此部分“事件模板提取”的输入即为步骤七形成的某一个文本簇,输出为表格2,表格2中无论是事件元素还是事件元素对应的值都是需要从文本簇中自动抽取得到的。[0093]2细粒度的事件模板自动构建[0094]由于表格2中的事件元素是自动识别的,因此表格2中的事件元素要比表格1中的更加具体细粒度)。[0095]针对事件元素的识别,认为事件元素应该满足以下三个条件:[0096]1、细粒度的事件模板中的元素应该是概括性的词语即概念词),因为只有概括性或抽象性的词语才能够作为模板元素用于指导从文本中抽取与模板元素相对应的具体的值。例如,当构建“结婚”事件的模板时,只有类似于“丈夫”、“妻子”、“证婚人”等概括性的词语可以作为模板元素。[0097]2、在描述同类型事件的文本中,模板元素或与模板元素相关的词应该不仅在单篇文本中占据较大的比重(多次出现),在全部文本中的分布也应该相对均匀,即在全部文本中出现的频次也不应有太大的差距。[0098]3、作为一个事件模板中的元素,其在文本中应该有对应该元素的具体值出现,例如在有关“结婚”事件的文本中,事件元素“丈夫”和其具体的值会在上下文中同现。[0099]本发明拟基于以上三个条件去抽取文本中的概念词以构建某类型事件的事件模板。具体来说:[0100]条件1、[0101]根据《大词林》判断步骤七形成的某一个文本簇中某词语是否为概括性或抽象性的词语,如果词语是概括性词语且抽象程度未达到抽象阈值,则该概括性词语保留,进行2;否则将词语过滤掉;[0102]抽象阈值为《大词林》中的卜3层;[0103]针对第一个条件,需要有一个词典能够确定某词语是否为概括性或抽象性的词语。这可以应用本中心所研发的《大词林》来完成该项工作。《大词林》是以上下位关系构建的知识图谱。《大词林》将其中的数据分为两部分,一部分为底层具体实体,例如“人名”、“地名”、“机构名”等等,而上层是抽象的概念词,例如“员工”、“公司”、“地点”等等。由于《大词林》是自动构建的,并且自动从网络中爬取数据进行扩充,因此其包含的数据非常丰富。目前《大词林》中上层的概念词超过14万个。基于此,可以通过《大词林》来判断某个词是否为概念词,即当某个词出现在《大词林》的概念词集合中,我们才去考虑其可能作为事件元素被包含在事件模板中的可能性。当然,事件模板中的元素的含义也不能过于宽泛,比如不能是“人物”、“地点”等宽泛的概念词,否则也无从谈起开放域的模板构建了。基于此,也可以考虑到概念词在《大词林》中的位置,如果词位置特别靠《大词林》上层抽象程度较高),也不会考虑将此词语作为事件模板中的元素;[0104]条件2、[0105]针对第二个条件,本发明拟使用下式计算满足条件1的每个概括性词语的权值:[0106][0107]式中,d代表输入的与某类型事件相关的文本簇中的某一篇文本;g代表文本簇步骤七得到的)中文本的数量;Wde和Wdf均代表文本d中的某个概括性词语(即该词是《大词林》的上位词);h代表整个词表的长度;g、h取值为正整数;[0108]所述词表为本簇中所有文章所包含词语组成的集合,若一个词语在文章中出现多次只取一次放入集合中;[0109]词表的长度为集合中词语的个数;[0110]Simwde,Wdf代表两个概括性词语之间的相似度;过程为:[0111]采用将Wcb和Wdf先用词向量表示,然后计算余弦相似度;[0112]fWdf代表某个概括性词语,例如W1,在某篇文本,例如d,中出现的频度;fWde3代表某个概括性词语,例如Wi,在某篇文本,例如d,中出现的频度;[0113]公式2考虑了两种情况:1该公式不仅考虑了某个概念词,例如W1在文本中的分m布,也考虑了与化具有语义相似性的词语在文中的分布,即小*〜,%2该公式不产:1;仅考虑了概念词在单篇文本中的分布公式中的分子),同时也考虑了概念词在全部文本集中的分布差异公式中的分母)。[01Μ]通过计算公式(2,得到根据条件1过滤得到的每个概括性词语的权值;设定阈值,将概括性词语的权值小于阈值的概括性词语过滤掉,将概括性词语的权值大于等于阈值的概括性词语保留,进行3;[0115]通过设定阈值人为设定过滤掉权值较低的概念词,然后将超过阈值的概念词保留以待条件3的检测。[0116]条件3、[0117]将文本中满足条件2的第一个概括性词语所在句子提出,组成集合S3,利用LTP平台上的依存句法关系分析功能得到每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定中三元组,从S3中抽取包含第一个概括性词语在内的三元组,三元组按照Argl,relation,Arg2形式构建,计算包含第一个概括性词语的三元组集合中两两relation的相似度,若两两relation相似度的均方差大于等于阈值(人为设定),则第一个概括性词语过滤掉;若两两relation相似度的均方差小于阈值,则第一个概括性词语为细粒度事件模板的元素;[0118]将文本中满足2的第二个概括性词语所在句子提出,判断第二个概括性词语是否为细粒度事件模板的元素;直至将文本中满足2的所有概括性词语判断完;[0119]将细粒度事件模板的元素所在的三元组中的名实体或时间提出,作为细粒度事件模板的元素值填充到细粒度事件模板中(作为同三元组细粒度事件模板的元素值)。[0120]针对第三个条件,对于事件模板中的事件元素应该和该元素对应的值是同现的,并且在文本中相距的位置不会太远。由于事件元素是概念词,而事件元素对应的值应该是该概念词的一个具体值,因此对于一对事件元素和其值在文本中应该符合一定的语法规则。例如“XX是证婚人”、“XX作为证婚人”等,“XX”和“证婚人”在文本中同现时会有类似的语法结构。基于此想法,可以针对满足条件2的每个概念词,以Wi作为例子,将文本中包含Wi的所有句子提出,组成集合S3,利用LTP平台上的依存句法关系分析功能得到每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定中三元组三元组的抽取模板可以根据输入语料的不同而分别构建,比较典型的有定中关系三元组、主谓动补关系三元组等)。从S3中抽取包含Wi在内的三元组。由于三元组是按照Argl,relation,Arg2的形式构建的,所以对于由同一个概念词,例如Wi,构建的三元组集合,其之中的reIation应该是一致的或者有很大的相关性。基于此想法,可以计算包含Wi的三元组集合中两两relation的相似度计算方式可以采用公式(1中的方法,对relation用词向量表示,然后计算词向量之间的余弦相似度得到两个relation之间的相似度),如果两两relation相似度的均方差小于一定值,则说明由^构建的三元组基本满足同种类型的语法规则,因此将^作为事件元素的可信度是很大的。[0121]将满足上述三个条件的概念词抽取出来作为事件模板中的元素,将所有元素组合在一起即形成了事件模板;[0122]当获取了事件元素后,即表格2中的第一行后,由于事件元素和其对应的值通常共现于同一个句子内(这也是第三个条件成立的依据),将与事件元素同现于三元组中的另一个词抽取出来作为该事件元素对应的值。即对于三元组Argl,relation,Arg2,如果Argl为事件元素,那么则认定Arg2为事件元素Argl对应的可能的值;之后按照如下两条规则对Arg2进行过滤:[0123]1由于Arg2为事件元素对应的值,因此其不应是含义宽泛的概念词。这里可以使用《大词林》作为过滤器,如果Arg2被大词林的上层概念词所包含,则去除Arg2;[0124]2由于事件元素的值多为名实体人名、地名、机构名)、时间或数字金额等),因此如果当Argl事件元素在大词林中位于人物、机构、空间类别下时,则使用名实体识别工具识别Arg2,如果Arg2不为名实体,则过滤掉Arg2;如果Argl位于时间、数字类别下时,Arg2如果不为数字也过滤掉。[0125]其它步骤及参数与具体实施方式一至五之一相同。[0126]采用以下实施例验证本发明的有益效果:[0127]实施例一:[0128]本实施例一种基于实体连通图的事件模版构造方法具体是按照以下步骤制备的:[0129]完成新闻语料的三元组提取,从新闻中提取主谓宾、定中、主动补三元组。[0130]完成新闻连通图的构建,在提取出三元组的基础上,根据三元组相似性超过阀值就将两个三元组节点相连的原则,将新闻抽象为一个连通图[0131]完成连通图各节点PR值的计算。[0132]在完成PR值计算的基础上计算得到任意两篇新闻的新闻相似度。[0133]首次参与计算的新闻语料有4000条,以第一篇新闻为基准,计算其他新闻与这篇新闻的相似度。[0134]新闻语料来自百度;[0135]第一篇新闻主要介绍了A国战争对B的影响,可以将新闻事件归类为A国战争。[0136]计算后相似度得到的结果如下表所示,其中篇章编号为4000条新闻语料中与A国战争相关的新闻的编号,1号文章就是上述的第一篇文章;相关度为程序计算得到的对应新闻与第一篇新闻的相关度结果;排位为将4000条新闻按照相关度从大到小的方式排列,对应新闻在排序后所处的位置:[0137][0139]可以看到,排名在前4的新闻都是与A国战争相关的新闻。与A国战争相关的新闻排名最低的是第23名,第3750篇文章,本发明方案满足了按照新闻事件提取新闻内容的要求。[0140]本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

权利要求:1.一种基于实体连通图的事件模版构造方法,其特征在于:所述方法具体过程为:步骤一、利用LTP平台上的依存句法关系分析功能得到文本d中每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中三元组zl,z2,z3;所述LTP平台为哈工大社会计算与信息检索研究中心研发的语言技术平台;步骤二、视三元组(zl,z2,z3中的三个元素为三个结点,并构建三条边用于连接(zl,z2、(zl,z3和z2,z3;所述21,22,23为主谓宾、主动补或定定中;步骤三、将从文本d中抽取到的所有三元组中包含的结点均放入到集合51中;利用LTP平台上的分词功能对文本d进行分词,利用W〇rd2vec模型将每一个分词转换成词向量;步骤四、利用词向量计算S1*任两个结点的相似度,如果相似度超过预先定义的阈值,则在两个结点间建立一条边;如果相似度没有超过预先定义的阈值,则不在两个结点间建立一条边;步骤五、计算由Si中所有结点组成的图中各结点的PageRank值;步骤六、通过计算任两篇文本对应的图的重合度来确定两篇文本陈述的事件间的关系的度量值,即为关联度;当计算完文本中陈述的事件间的关联度后,即可形成事件关联分析矩阵,该矩阵的行和列均为文本,矩阵的值代表了文本中陈述的事件间的关联度;用矩阵的行向量表示对应行代表的文本,将文本表示为文本向量的形式;步骤七、使用聚类算法K-means对步骤六得到的文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;步骤八、构建粗粒度事件模板和细粒度事件模版;一)、构建粗粒度事件模板:从文本簇内将事件的核心要素识别出来;核心要素为触发词、参与者和时间;二)、构建细粒度事件模版:识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值。2.根据权利要求1所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤四中利用词向量计算中任两个结点的相似度,相似度计算公式为:式中,θ为向量Ai与Bj的夹角,Ai为词向量Al,A2,...,An的第i个数,Bj为词向量Bi,B2,...,Bn的第j个数,η取值为正整数。3.根据权利要求2所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤四中阈值取值范围为〇.4-0.8。4.根据权利要求3所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤六中关联度的计算公式如下:式中,k代表由文本di和dj分别创建的图中结点交集中的一个结点M代表该结点在文本Cli中的PageRank值,代表该结点在文本dj中的PageRank值,和的差代表了两个结点在各自图中的重要性的差距;ScU为文本cU的节点集合,S山为文本dj的节点集合。5.根据权利要求4所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤八中构建粗粒度事件模板中触发词、参与者和时间的确定过程为:a对于触发词的选取:将步骤三得到的每一个向量化的三元组标记为Argl,relation,Arg2,其中relation代表Argl和Arg2之间的关系;relation是动词,视为事件的触发词,而Argl和Arg2为名词,代表了参与事件的元素;假设输入的某一文本簇为C,则由C内的所有文本构成的三元组集合为S2,计算S2中的三元组任意两个reIation对应的词语的相似度;相似度计算过程为:将relation用词向量表示,通过余弦相似度计算S2中的三元组任意两个reIation对应的词语的相似度;计算完毕相似度后,形成一个reIation-relation的矩阵,矩阵的行列均为reIation对应的词语,矩阵的值为relation间的相似度;将矩阵的行取和,将和的最大值对应的词语作为事件触发词;b对于参与者的选取:判断与事件触发词处于同一个三元组内的词语是否为名实体,如果词语为名实体则为参与者,如果词语不为名实体则不为参与者;c对于时间的选取:用正则式来表示文本中时间的书写规则,根据正则式将时间提取出来,然后通过判断时间与事件触发词和参与者在文本中的距离来判断此时间是否可插入到粗粒度事件模板中时间对应的单元格内;判断过程为:时间是否和触发词以及参与者在同一句内同时出现,如果同时出现,则确定该时间能插入到粗粒度事件模板中,否则过滤掉。6.根据权利要求5所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤八中构建细粒度事件模版中识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值;具体过程为:条件1、根据《大词林》判断步骤七形成的某一个文本簇中某词语是否为概括性或抽象性的词语,如果词语是概括性词语且抽象程度未达到抽象阈值,则该概括性词语保留,进行2;否则将词语过滤掉;条件2、计算满足条件1的每个概括性词语的权值:式中,d代表输入的与某类型事件相关的文本簇中的某一篇文本;g代表文本簇中文本的数量;Wde和Wdf均代表文本d中的某个概括性词语;h代表整个词表的长度;g、h取值为正整数;所述词表为文本簇中所有文章所包含词语组成的集合,若一个词语在文章中出现多次只取一次放入集合中;词表的长度为集合中词语的个数;simWde3,wdf代表两个概括性词语之间的相似度;过程为:采用将Wcb和Wdf先用词向量表示,然后计算余弦相似度;fWdf代表某个概括性词语在某篇文本中出现的频度;fWde代表某个概括性词语在某篇文本中出现的频度;通过计算公式2,得到根据条件1过滤得到的每个概括性词语的权值;设定阈值,将概括性词语的权值小于阈值的概括性词语过滤掉,将概括性词语的权值大于等于阈值的概括性词语保留,进行3;条件3、将文本中满足条件2的第一个概括性词语所在句子提出,组成集合S3,利用LTP平台上的依存句法关系分析功能得到每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中三元组,从S3中抽取包含第一个概括性词语在内的三元组,三元组按照Argl,relation,Arg2形式构建,计算包含第一个概括性词语的三元组集合中两两relation的相似度,若两两relation相似度的均方差大于等于阈值,则第一个概括性词语过滤掉;若两两relation相似度的均方差小于阈值,则第一个概括性词语为细粒度事件模板的元素;将文本中满足2的第二个概括性词语所在句子提出,判断第二个概括性词语是否为细粒度事件模板的元素;直至将文本中满足2的所有概括性词语判断完;将细粒度事件模板的元素所在的三元组中的名实体或时间提出,作为细粒度事件模板的元素值填充到细粒度事件模板中。

百度查询: 哈尔滨工业大学 一种基于实体连通图的事件模版构造方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。