买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种地理学科领域命名实体识别方法_东南大学_201710422919.3 

申请/专利权人:东南大学

申请日:2017-06-07

公开(公告)日:2020-11-24

公开(公告)号:CN107133220B

主分类号:G06F40/295(20200101)

分类号:G06F40/295(20200101);G06F40/242(20200101);G06F40/284(20200101);G06F40/30(20200101);G06F40/211(20200101)

优先权:

专利状态码:有效-授权

法律状态:2020.11.24#授权;2017.09.29#实质审查的生效;2017.09.05#公开

摘要:本发明公开了一种地理学科领域命名实体识别方法,识别出地理学科核心术语类和地理区域位置类实体,主要包括三个步骤:1地理学科领域词典构建,采用新词发现算法无监督地识别出地理学科领域新词。2基于条件随机场CRF模型和多通道卷积神经网络MCCNN模型进行训练与测试。3基于规则的方法,纠错和融合模型识别出的实体。本发明采用新词发现算法无监督识别领域新词作为词典,以提高分词效果。从大规模未标注数据中无监督地学习词的语义向量,并综合词的基础特征,作为MCCNN模型的输入特征,避免了手动选取和构建特征。自定义规则融合两种模型的预测结果,纠正识别过程中的错误标记问题。

主权项:1.一种地理学科领域命名实体识别方法,其特征在于,包括如下步骤:1先标注语料,然后采用新词发现算法构建地理学科领域词典;2通过无标注的文本和步骤1)中构建的地理学科领域词典,进行学习单词的特征表示;3通过多通道卷积神经网络模型训练和预测,多通道中其中一个通道的输入是句子中每个单词wi的上下文特征φwi,倾向于捕捉词的句法和语义信息;另一个通道的输入是单词wi的基础特征,选取词性、词长和词频,关于词的基础特征,倾向于捕捉词的表层特征;4首先对无标注的文本和地理学科领域词典构成的数据集进行预处理,然后进行分词、词性标注,并采用BIO标注方式对数据集进行标注;针对地理学科领域特点,进行特征选取,选取出常用特征和地理学科领域特征,最后根据条件随机场模型进行训练和预测;5采用基于规则的方法对步骤3)和步骤4)预测结果进行纠错和融合,得到最后的预测结果;步骤4中常用特征包括单词特征,词性特征,形态特征,上下文特征和词频信息。

全文数据:一种地理学科领域命名实体识别方法技术领域[0001]本发明属于信息抽取技术领域,特别涉及一种地理学科领域命名实体识别方法。背景技术[0002]命名实体识别NamedEntityRecognition,NER是信息抽取的基础环节,应用于后续任务,比如关系抽取、实体链接,广泛应用于自动问答、机器翻译等自然语言处理领域。[0003]对于地理学科高考问答系统,构建面向基础教育的地理学科知识图谱,显得尤为重要。为了从地理学科资源中获取知识,构建地理学科知识图谱,命名实体识别通常是首要任务。本专利首次尝试面向地理学科领域进行命名实体识别,抽取的命名实体类别包括地理学科核心术语和地理区域位置。地理学科领域命名实体识别不仅具有汉语命名实体识别固有的难点,而且还面临领域分词困难以及缺乏大规模人工标注训练语料等诸多问题。发明内容[0004]发明目的:针对现有技术中存在的问题,本发明提供一种能够有效融合序列标注模型和神经网络模型优点的框架,来实现命名实体识别,以及便于一系列后续应用开展的地理学科领域命名实体识别方法。[0005]技术方案:为解决上述技术问题,本发明提供一种地理学科领域命名实体识别方法,包括如下步骤:[0006]1先标注语料,然后采用新词发现算法构建地理学科领域词典;[0007]2通过无标注的文本和步骤1中构建的地理学科领域词典,进行学习单词的特征表不;[0008]3通过多通道卷积神经网络模型训练和预测,多通道中其中一个通道的输入是句子中每个单词W1的上下文特征φW1,倾向于捕捉词的句法和语义信息;另一个通道的输入是单词W1的基础特征,选取词性、词长和词频,关于词的基本特征,倾向于捕捉词的表层特征;[0009]4首先对无标注的文本和地理学科领域词典构成的数据集进行预处理,然后进行分词、词性标注,并采用BIO标注方式对数据集进行标注;针对地理学科领域特点,进行特征选取,选取出常用特征和地理学科领域特征,最后根据条件随机场模型进行训练和预测;[0010]5采用基于规则的方法对步骤3和步骤4预测结果进行纠错和融合,得到最后的预测结果。[0011]进一步的,所述步骤1中采用新词发现算法构建地理学科领域词典的具体步骤如下,通过计算单词w的左侧和右侧的上下文熵,单词w在语料X中出现的次数是η,出现在左侧的词语的集合为a={ai,a2,"_,as},出现在它右侧的词语的集合为β={bi,b2,"_,bt},单词w的左侧上下文熵和右侧上下文熵定义如下所示:[0014]其中,Countai,w是ai和w共同出现的次数,Countbj,w是bj和w共同出现的次数;当一个词项的左右侧上下文熵都较大,则说明与该词项左右相邻的不同词项个数较多,那么这个词项与左右侧相邻的词项构成新词的概率就较低。[0015]进一步的,所述步骤2中学习单词特征表示的具体步骤如下:在无标注语料库Q中获取一个窗口大小为d的单词序列P=W1,W2,…,Wd;该模型的目标就是能够区别正确的单词序列P以及一个随机单词序列少,其中Plr表示把单词序列P的中间单词替换为后的单词序列,r表示中间单词替换词,该模型的目标函数就是最小化与参数Θ相关的排序损失:[0017]其中,p是无标记语料库训练样本Q中所有的长度为d的单词序列,災是单词词典,feP是P的得分,无标记语料库训练样本Q中所有的单词序列用于学习该语言模型;正例是语料库U中的单词序列,负例是把这些单词序列的中心词替换为随机词的结果。[0018]进一步的,所述步骤3中通过多通道卷积神经网络模型训练和预测的整个模型训练过程如下:[0019]使用每个单词《4及其对应的标记twi,MCCNN模型对每个单词Wi输出向量OWi。这时定义交叉熵作为训练集上的损失函数:[0021]其中Θ为参数权重,λ为正则化参数,权重参数Θ通过后向传播算法计算,模型采用AdaGrad算法计算最小化损失函数。[0022]进一步的,所述步骤4中常用特征包括单词特征,词性特征,形态特征,上下文特征和词频信息。[0023]进一步的,所述步骤4中地理学科领域特征包括前后缀特征和指示词特征。[0024]进一步的,所述步骤4中根据条件随机场模型进行训练和预测的具体步骤如下:在观测序列X取值为X的条件下,标记序列Y取值为y的条件概率具有如下形式:[0026]其中tk和si是特征函数,人^卩说是对应的权值。ZX是规范化因子,在所有可能的输出序列上进行求和。[0027]进一步的,步骤5中采用基于规则的方法对预测结果进行纠错和融合得到最后的预测结果的评判规则如下:[0028]A、如果CRF模型预测的实体的开始单词不是实体首部标注B,而是实体内部标注I,那么通过MCCNN模型的预测结果查看该单词的预测分值,若满足阈值e则将该单词改为实体首部标注B;[0029]B、如果MCCNN模型预测的实体内部的多个单词出现多种实体类别,即该实体的类别不确定,此时选择CRF模型预测的实体类别作为该实体的类别。[0030]与现有技术相比,本发明的优点在于:[0031]本发明针对地理学科领域实体识别问题,采用MCCNN和CRF模型对地理学科核心术语和地理区域位置两类实体进行识别。基于规则融合两种模型的预测结果,纠正了识别过程中的错误标记问题;从大规模未标注数据中无监督地学习词的语义向量,并综合词的基础特征,作为MCCNN模型的输入特征,避免了手动选取和构建特征。因此本发明能够融合模型优点,弥补模型的不足,来实现地理学科领域实体识别,以及便于一系列后续应用(如实体链接、关系抽取的开展。[0032]当将命名实体识别作为一个序列标注任务,可以采用条件随机场模型。其中,条件随机场模型综合隐马尔可夫模型和最大熵马尔可夫模型的优点,克服了隐马尔可夫模型严格的独立性假设,并通过全局归一化解决了最大熵马尔可夫模型所固有的标记偏置问题。同时,条件随机场模型可以重叠使用非独立的特征,易于融合地理学科领域的新特征。因此,针对地理学科领域进行特征选取并利用条件随机场模型进行命名实体识别。[0033]词向量是将最小语义单元映射为一组低维、连续的实值向量,向量中每一维表示某种隐含的句法和语义信息。因此采用多通道卷积神经网络模型,组合词向量特征和基础特征,作为模型的输入特征,进行地理学科领域命名实体识别。附图说明[0034]图1为本发明的总体流程图。具体实施方式[0035]下面结合附图和具体实施方式,进一步阐明本发明。[0036]一种基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法,如图1所示,该方法包含基于新词发现算法构建领域词典、基于CRF和MCCNN模型进行训练与预测以及基于规则融合CRF和MCCNN模型预测结果三个步骤。[0037]问题可以描述如下:用U表示中文维基百科语料,用G无标注地理学科领域语料G,地理学科领域命名实体识别的任务就是基于CRF模型和MCCNN模型对地理学科核心术语和地理区域位置两类实体进行识别,最后基于规则融合两种模型的预测结果,纠正识别过程中的错误标记。在下面的叙述中标记和实体会交替使用,具有相同的含义。[0038]一、基于新词发现算法构建领域词典[0039]步骤1,采用新词发现算法,无监督地从无标注语料中,抽取领域新词,构建词典。对于一个词W,通过计算W的互信息用来定义词W的内部凝固程度;计算W的左侧上下文熵和右侧上下文熵用来定义词W的自由程度。综合W的内部凝固程度和自由程度,可以挖掘无标注语料中的领域新词。[0040]二、基于CRF和MCCNN模型进行训练与预测[0041]步骤2,基于神经语言模型学习单词的特征表示,将无标记的语料库U中的每个单词Wi通过基于神经语言模型转化为一个低维、连续的实值向量,其中,i=1···]!,η为语料库U单词的个数。[0042]步骤3,基于多通道卷积神经网络MCCNN模型训练和测试。模型输入采用多通道,其中一个通道的输入是句子中每个单词Wi的上下文特征ΦWi,倾向于捕捉词的句法、语义信息;另一个通道的输入是单词W1的基础特征,选取词性、词长和词频,关于词的基本特征,倾向于捕捉词的表层特征。[0043]对于句子中每个词的标签分类,综合使用基础特征和词向量特征,进行地理学科领域命名实体识别。具体地,对于一个句子{wi,W2,…,WS},选取句子中的当前词Wi,上文两个词Wi-I,Wi-2和下文两个词Wi+1,Wi+2,并将每个词转换成对应词向量V,其中'm表示单词的个数,模型中取值为5,k表示词向量的维度。然后采用卷积操作,得到特征Cl=fWt^V+b*3,其中i=l,2,…,η,η为卷积核的个数,权值矩阵,偏置向量沪e%.f·是非线性函数。在池化层,采用2=maxc,得到特征图谱向量P。对于词的基础特征,采样同样方式得到特征图谱r1,当前词的特征向量表示为其中®表示连接符号。模型的输出层对当前词Wi的特征向量r,采用Softmax回归,得到预测标记为:twi=Softmaxr。模型训练过程,模型采用AdaGrad算法一种动态调整学习率的随机梯度下降算法最小化损失函数。[0044]步骤4,基于条件随机场CRF模型训练和测试。首先对数据集进行预处理,包括过滤清洗、特殊符号处理等操作,然后进行分词、词性标注,并采用BIO标注方式对数据集进行标注;针对地理学科领域特点,进行特征选取:常用特征和地理学科领域特征。常用特征包括单词特征、词性特征、形态特征、上下文特征和词频信息;地理学科领域特征包括前后缀特征和指示词特征。在观测序列X取值为X的条件下,标记序列Y取值为y的条件概率具有如下形式:[0046]其中,tk和si是特征函数,人^卩说是对应的权值。ZX是规范化因子,在所有可能的输出序列上进行求和。[0047]三、基于规则融合CRF和MCCNN模型预测结果[0048]步骤5,基于规则纠错融合MCCNN模型和CRF模型的预测结果。采用MCCNN模型是对单词进行标签分类,而通常命名实体会包含多个单词,因此分类预测后的结果可能会出现矛盾。采用基于规则的方法对预测结果进行纠错和融合。[0049]基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别算法流程如下:[0052]本发明在实验过程中,使用W〇rd2VeC开源工具训练词向量,参数设置如下:上下文窗口选取为5,词向量的维度选取为100;使用开源工具CRF++0.58训练CRF模型。本发明提出的基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法,在自建的地理学科数据集上,精确率达到92.59%,Fl值到达92.77%,性能达到项目应用效果。[0053]本发明提出的基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法,可以实现对地理学科核心术语和地理区域位置两类实体进行识别,有利于一系列自然语言处理相关应用(如实体链接、关系抽取)的展开。从大规模未标注数据中无监督地学习词的语义向量,并综合词的基础特征,作为MCCNN模型的输入特征,避免了手动选取和构建特征。此外,本发明提出的基于规则融合两种模型的预测结果,纠正了识别过程中的错误标记问题。[0054]以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

权利要求:1.一种地理学科领域命名实体识别方法,其特征在于,包括如下步骤:1先标注语料,然后采用新词发现算法构建地理学科领域词典;2通过无标注的文本和步骤1中构建的地理学科领域词典,进行学习单词的特征表示;3通过多通道卷积神经网络模型训练和预测,多通道中其中一个通道的输入是句子中每个单词^的上下文特征ΦW1,倾向于捕捉词的句法和语义信息;另一个通道的输入是单词^的基础特征,选取词性、词长和词频,关于词的基本特征,倾向于捕捉词的表层特征;4首先对无标注的文本和地理学科领域词典构成的数据集进行预处理,然后进行分词、词性标注,并采用BIO标注方式对数据集进行标注;针对地理学科领域特点,进行特征选取,选取出常用特征和地理学科领域特征,最后根据条件随机场模型进行训练和预测;5采用基于规则的方法对步骤3和步骤4预测结果进行纠错和融合,得到最后的预测结果。2.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤1中采用新词发现算法构建地理学科领域词典的具体步骤如下,通过计算单词w的左侧和右侧的上下文熵,单词w在语料X中出现的次数是η,出现在左侧的词语的集合为a={ai,a2,…,as},出现在它右侧的词语的集合为β=Ib1J2,…,bt},单词w的左侧上下文熵和右侧上下文熵定义如下所示:其中,Countai,w是ai和w共同出现的次数,countbj,w是bj和w共同出现的次数;当一个词项的左右侧上下文熵都较大,则说明与该词项左右相邻的不同词项个数较多,那么这个词项与左右侧相邻的词项构成新词的概率就较低。3.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤2中学习单词特征表示的具体步骤如下:在无标注语料库Q中获取一个窗口大小为d的单词序列P=W1,W2,…,Wd;该模型的目标就是能够区别正确的单词序列p以及一个随机单词序列少,其中Plr表示把单词序列P的中间单词替换为后的单词序列,r表示中间单词替换词,该模型的目标函数就是最小化与参数Θ相关的排序损失:其中,P是无标记语料库训练样本Q中所有的长度为d的单词序列,识是单词词典,fep是P的得分,无标记语料库训练样本Q中所有的单词序列用于学习该语言模型;正例是语料库U中的单词序列,负例是把这些单词序列的中心词替换为随机词的结果。4.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤3中通过多通道卷积神经网络模型训练和预测的整个模型训练过程如下:使用每个单词Wi及其对应的标记tWi,MCCNN模型对每个单词Wi输出向量OWi。这时定义交叉熵作为训练集上的损失函数:其中Θ为参数权重,λ为正则化参数,权重参数Θ通过后向传播算法计算,模型采用AdaGrad算法计算最小化损失函数。5.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤4中常用特征包括单词特征,词性特征,形态特征,上下文特征和词频信息。6.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤4中地理学科领域特征包括前后缀特征和指示词特征。7.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,所述步骤4中根据条件随机场模型进行训练和预测的具体步骤如下:在观测序列X取值为X的条件下,标记序列Y取值为y的条件概率具有如下形式:其中,tk和si是特征函数,Ak和m是对应的权值。Zx是规范化因子,在所有可能的输出序列上进行求和。8.根据权利要求1所述的一种地理学科领域命名实体识别方法,其特征在于,步骤5中采用基于规则的方法对预测结果进行纠错和融合得到最后的预测结果的评判规则如下:A、如果CRF模型预测的实体的开始单词不是实体首部标注B,而是实体内部标注I,那么通过MCCNN模型的预测结果查看该单词的预测分值,若满足阈值e则将该单词改为实体首部标注B;B、如果MCCNN模型预测的实体内部的多个单词出现多种实体类别,即该实体的类别不确定,此时选择CRF模型预测的实体类别作为该实体的类别。

百度查询: 东南大学 一种地理学科领域命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。