【发明授权】一种地理学科领域命名实体识别方法_东南大学_201710422919.3

导航：龙图腾网> 最新专利技术> 一种地理学科领域命名实体识别方法_东南大学_201710422919.3

申请/专利权人：东南大学

申请日：2017-06-07

公开（公告）日：2020-11-24

公开（公告）号：CN107133220B

主分类号：G06F40/295(20200101)

分类号：G06F40/295(20200101);G06F40/242(20200101);G06F40/284(20200101);G06F40/30(20200101);G06F40/211(20200101)

优先权：

专利状态码：有效-授权

法律状态：2020.11.24#授权;2017.09.29#实质审查的生效;2017.09.05#公开

摘要：本发明公开了一种地理学科领域命名实体识别方法，识别出地理学科核心术语类和地理区域位置类实体,主要包括三个步骤：1地理学科领域词典构建，采用新词发现算法无监督地识别出地理学科领域新词。2基于条件随机场CRF模型和多通道卷积神经网络MCCNN模型进行训练与测试。3基于规则的方法,纠错和融合模型识别出的实体。本发明采用新词发现算法无监督识别领域新词作为词典,以提高分词效果。从大规模未标注数据中无监督地学习词的语义向量，并综合词的基础特征，作为MCCNN模型的输入特征，避免了手动选取和构建特征。自定义规则融合两种模型的预测结果，纠正识别过程中的错误标记问题。

主权项：1.一种地理学科领域命名实体识别方法，其特征在于，包括如下步骤：1先标注语料，然后采用新词发现算法构建地理学科领域词典；2通过无标注的文本和步骤1）中构建的地理学科领域词典，进行学习单词的特征表示；3通过多通道卷积神经网络模型训练和预测，多通道中其中一个通道的输入是句子中每个单词wi的上下文特征φwi，倾向于捕捉词的句法和语义信息；另一个通道的输入是单词wi的基础特征，选取词性、词长和词频，关于词的基础特征，倾向于捕捉词的表层特征；4首先对无标注的文本和地理学科领域词典构成的数据集进行预处理，然后进行分词、词性标注，并采用BIO标注方式对数据集进行标注；针对地理学科领域特点，进行特征选取，选取出常用特征和地理学科领域特征，最后根据条件随机场模型进行训练和预测；5采用基于规则的方法对步骤3）和步骤4）预测结果进行纠错和融合，得到最后的预测结果；步骤4中常用特征包括单词特征，词性特征，形态特征，上下文特征和词频信息。

全文数据：一种地理学科领域命名实体识别方法技术领域[0001]本发明属于信息抽取技术领域，特别涉及一种地理学科领域命名实体识别方法。背景技术[0002]命名实体识别NamedEntityRecognition，NER是信息抽取的基础环节，应用于后续任务，比如关系抽取、实体链接，广泛应用于自动问答、机器翻译等自然语言处理领域。[0003]对于地理学科高考问答系统，构建面向基础教育的地理学科知识图谱，显得尤为重要。为了从地理学科资源中获取知识，构建地理学科知识图谱，命名实体识别通常是首要任务。本专利首次尝试面向地理学科领域进行命名实体识别，抽取的命名实体类别包括地理学科核心术语和地理区域位置。地理学科领域命名实体识别不仅具有汉语命名实体识别固有的难点，而且还面临领域分词困难以及缺乏大规模人工标注训练语料等诸多问题。发明内容[0004]发明目的：针对现有技术中存在的问题，本发明提供一种能够有效融合序列标注模型和神经网络模型优点的框架，来实现命名实体识别，以及便于一系列后续应用开展的地理学科领域命名实体识别方法。[0005]技术方案:为解决上述技术问题，本发明提供一种地理学科领域命名实体识别方法，包括如下步骤：[0006]1先标注语料，然后采用新词发现算法构建地理学科领域词典；[0007]2通过无标注的文本和步骤1中构建的地理学科领域词典，进行学习单词的特征表不；[0008]3通过多通道卷积神经网络模型训练和预测，多通道中其中一个通道的输入是句子中每个单词W1的上下文特征φW1，倾向于捕捉词的句法和语义信息；另一个通道的输入是单词W1的基础特征，选取词性、词长和词频，关于词的基本特征，倾向于捕捉词的表层特征；[0009]4首先对无标注的文本和地理学科领域词典构成的数据集进行预处理，然后进行分词、词性标注，并采用BIO标注方式对数据集进行标注;针对地理学科领域特点，进行特征选取，选取出常用特征和地理学科领域特征，最后根据条件随机场模型进行训练和预测；[0010]5采用基于规则的方法对步骤3和步骤4预测结果进行纠错和融合，得到最后的预测结果。[0011]进一步的，所述步骤1中采用新词发现算法构建地理学科领域词典的具体步骤如下，通过计算单词w的左侧和右侧的上下文熵，单词w在语料X中出现的次数是η,出现在左侧的词语的集合为a={ai，a2，"_，as}，出现在它右侧的词语的集合为β={bi，b2，"_，bt}，单词w的左侧上下文熵和右侧上下文熵定义如下所示：[0014]其中，Countai，w是ai和w共同出现的次数，Countbj，w是bj和w共同出现的次数;当一个词项的左右侧上下文熵都较大，则说明与该词项左右相邻的不同词项个数较多，那么这个词项与左右侧相邻的词项构成新词的概率就较低。[0015]进一步的，所述步骤2中学习单词特征表示的具体步骤如下：在无标注语料库Q中获取一个窗口大小为d的单词序列P=W1，W2，…，Wd;该模型的目标就是能够区别正确的单词序列P以及一个随机单词序列少，其中Plr表示把单词序列P的中间单词替换为后的单词序列，r表示中间单词替换词，该模型的目标函数就是最小化与参数Θ相关的排序损失：[0017]其中，p是无标记语料库训练样本Q中所有的长度为d的单词序列，災是单词词典，feP是P的得分，无标记语料库训练样本Q中所有的单词序列用于学习该语言模型;正例是语料库U中的单词序列，负例是把这些单词序列的中心词替换为随机词的结果。[0018]进一步的，所述步骤3中通过多通道卷积神经网络模型训练和预测的整个模型训练过程如下：[0019]使用每个单词《4及其对应的标记twi，MCCNN模型对每个单词Wi输出向量OWi。这时定义交叉熵作为训练集上的损失函数：[0021]其中Θ为参数权重，λ为正则化参数，权重参数Θ通过后向传播算法计算，模型采用AdaGrad算法计算最小化损失函数。[0022]进一步的，所述步骤4中常用特征包括单词特征，词性特征，形态特征，上下文特征和词频信息。[0023]进一步的，所述步骤4中地理学科领域特征包括前后缀特征和指示词特征。[0024]进一步的，所述步骤4中根据条件随机场模型进行训练和预测的具体步骤如下:在观测序列X取值为X的条件下，标记序列Y取值为y的条件概率具有如下形式：[0026]其中tk和si是特征函数，人^卩说是对应的权值。ZX是规范化因子，在所有可能的输出序列上进行求和。[0027]进一步的，步骤5中采用基于规则的方法对预测结果进行纠错和融合得到最后的预测结果的评判规则如下：[0028]A、如果CRF模型预测的实体的开始单词不是实体首部标注B，而是实体内部标注I，那么通过MCCNN模型的预测结果查看该单词的预测分值，若满足阈值e则将该单词改为实体首部标注B;[0029]B、如果MCCNN模型预测的实体内部的多个单词出现多种实体类别，即该实体的类别不确定，此时选择CRF模型预测的实体类别作为该实体的类别。[0030]与现有技术相比，本发明的优点在于：[0031]本发明针对地理学科领域实体识别问题，采用MCCNN和CRF模型对地理学科核心术语和地理区域位置两类实体进行识别。基于规则融合两种模型的预测结果，纠正了识别过程中的错误标记问题;从大规模未标注数据中无监督地学习词的语义向量，并综合词的基础特征，作为MCCNN模型的输入特征，避免了手动选取和构建特征。因此本发明能够融合模型优点，弥补模型的不足，来实现地理学科领域实体识别，以及便于一系列后续应用（如实体链接、关系抽取的开展。[0032]当将命名实体识别作为一个序列标注任务，可以采用条件随机场模型。其中，条件随机场模型综合隐马尔可夫模型和最大熵马尔可夫模型的优点，克服了隐马尔可夫模型严格的独立性假设，并通过全局归一化解决了最大熵马尔可夫模型所固有的标记偏置问题。同时，条件随机场模型可以重叠使用非独立的特征，易于融合地理学科领域的新特征。因此，针对地理学科领域进行特征选取并利用条件随机场模型进行命名实体识别。[0033]词向量是将最小语义单元映射为一组低维、连续的实值向量，向量中每一维表示某种隐含的句法和语义信息。因此采用多通道卷积神经网络模型，组合词向量特征和基础特征，作为模型的输入特征，进行地理学科领域命名实体识别。附图说明[0034]图1为本发明的总体流程图。具体实施方式[0035]下面结合附图和具体实施方式，进一步阐明本发明。[0036]一种基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法，如图1所示，该方法包含基于新词发现算法构建领域词典、基于CRF和MCCNN模型进行训练与预测以及基于规则融合CRF和MCCNN模型预测结果三个步骤。[0037]问题可以描述如下：用U表示中文维基百科语料，用G无标注地理学科领域语料G，地理学科领域命名实体识别的任务就是基于CRF模型和MCCNN模型对地理学科核心术语和地理区域位置两类实体进行识别，最后基于规则融合两种模型的预测结果，纠正识别过程中的错误标记。在下面的叙述中标记和实体会交替使用，具有相同的含义。[0038]一、基于新词发现算法构建领域词典[0039]步骤1，采用新词发现算法，无监督地从无标注语料中，抽取领域新词，构建词典。对于一个词W，通过计算W的互信息用来定义词W的内部凝固程度;计算W的左侧上下文熵和右侧上下文熵用来定义词W的自由程度。综合W的内部凝固程度和自由程度，可以挖掘无标注语料中的领域新词。[0040]二、基于CRF和MCCNN模型进行训练与预测[0041]步骤2,基于神经语言模型学习单词的特征表示，将无标记的语料库U中的每个单词Wi通过基于神经语言模型转化为一个低维、连续的实值向量，其中，i=1···]!，η为语料库U单词的个数。[0042]步骤3,基于多通道卷积神经网络MCCNN模型训练和测试。模型输入采用多通道，其中一个通道的输入是句子中每个单词Wi的上下文特征ΦWi，倾向于捕捉词的句法、语义信息；另一个通道的输入是单词W1的基础特征，选取词性、词长和词频，关于词的基本特征，倾向于捕捉词的表层特征。[0043]对于句子中每个词的标签分类，综合使用基础特征和词向量特征，进行地理学科领域命名实体识别。具体地，对于一个句子{wi，W2，…，WS}，选取句子中的当前词Wi，上文两个词Wi-I，Wi-2和下文两个词Wi+1，Wi+2，并将每个词转换成对应词向量V，其中'm表示单词的个数，模型中取值为5，k表示词向量的维度。然后采用卷积操作，得到特征Cl=fWt^V+b*3，其中i=l，2,…，η，η为卷积核的个数，权值矩阵，偏置向量沪e%.f·是非线性函数。在池化层，采用2=maxc，得到特征图谱向量P。对于词的基础特征，采样同样方式得到特征图谱r1，当前词的特征向量表示为其中®表示连接符号。模型的输出层对当前词Wi的特征向量r，采用Softmax回归，得到预测标记为：twi=Softmaxr。模型训练过程，模型采用AdaGrad算法一种动态调整学习率的随机梯度下降算法最小化损失函数。[0044]步骤4,基于条件随机场CRF模型训练和测试。首先对数据集进行预处理，包括过滤清洗、特殊符号处理等操作，然后进行分词、词性标注，并采用BIO标注方式对数据集进行标注;针对地理学科领域特点，进行特征选取:常用特征和地理学科领域特征。常用特征包括单词特征、词性特征、形态特征、上下文特征和词频信息;地理学科领域特征包括前后缀特征和指示词特征。在观测序列X取值为X的条件下，标记序列Y取值为y的条件概率具有如下形式：[0046]其中，tk和si是特征函数，人^卩说是对应的权值。ZX是规范化因子，在所有可能的输出序列上进行求和。[0047]三、基于规则融合CRF和MCCNN模型预测结果[0048]步骤5,基于规则纠错融合MCCNN模型和CRF模型的预测结果。采用MCCNN模型是对单词进行标签分类，而通常命名实体会包含多个单词，因此分类预测后的结果可能会出现矛盾。采用基于规则的方法对预测结果进行纠错和融合。[0049]基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别算法流程如下：[0052]本发明在实验过程中，使用W〇rd2VeC开源工具训练词向量，参数设置如下：上下文窗口选取为5，词向量的维度选取为100;使用开源工具CRF++0.58训练CRF模型。本发明提出的基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法，在自建的地理学科数据集上，精确率达到92.59%，Fl值到达92.77%，性能达到项目应用效果。[0053]本发明提出的基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法，可以实现对地理学科核心术语和地理区域位置两类实体进行识别，有利于一系列自然语言处理相关应用（如实体链接、关系抽取）的展开。从大规模未标注数据中无监督地学习词的语义向量，并综合词的基础特征，作为MCCNN模型的输入特征，避免了手动选取和构建特征。此外，本发明提出的基于规则融合两种模型的预测结果，纠正了识别过程中的错误标记问题。[0054]以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

权利要求：1.一种地理学科领域命名实体识别方法，其特征在于，包括如下步骤：1先标注语料，然后采用新词发现算法构建地理学科领域词典；2通过无标注的文本和步骤1中构建的地理学科领域词典，进行学习单词的特征表示；3通过多通道卷积神经网络模型训练和预测，多通道中其中一个通道的输入是句子中每个单词^的上下文特征ΦW1，倾向于捕捉词的句法和语义信息;另一个通道的输入是单词^的基础特征，选取词性、词长和词频，关于词的基本特征，倾向于捕捉词的表层特征；4首先对无标注的文本和地理学科领域词典构成的数据集进行预处理，然后进行分词、词性标注，并采用BIO标注方式对数据集进行标注;针对地理学科领域特点，进行特征选取，选取出常用特征和地理学科领域特征，最后根据条件随机场模型进行训练和预测；5采用基于规则的方法对步骤3和步骤4预测结果进行纠错和融合，得到最后的预测结果。2.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤1中采用新词发现算法构建地理学科领域词典的具体步骤如下，通过计算单词w的左侧和右侧的上下文熵，单词w在语料X中出现的次数是η,出现在左侧的词语的集合为a={ai，a2,…，as}，出现在它右侧的词语的集合为β=Ib1J2，…，bt}，单词w的左侧上下文熵和右侧上下文熵定义如下所示：其中，Countai，w是ai和w共同出现的次数，countbj，w是bj和w共同出现的次数；当一个词项的左右侧上下文熵都较大，则说明与该词项左右相邻的不同词项个数较多，那么这个词项与左右侧相邻的词项构成新词的概率就较低。3.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤2中学习单词特征表示的具体步骤如下:在无标注语料库Q中获取一个窗口大小为d的单词序列P=W1，W2，…，Wd;该模型的目标就是能够区别正确的单词序列p以及一个随机单词序列少，其中Plr表示把单词序列P的中间单词替换为后的单词序列，r表示中间单词替换词，该模型的目标函数就是最小化与参数Θ相关的排序损失：其中，P是无标记语料库训练样本Q中所有的长度为d的单词序列，识是单词词典，fep是P的得分，无标记语料库训练样本Q中所有的单词序列用于学习该语言模型；正例是语料库U中的单词序列，负例是把这些单词序列的中心词替换为随机词的结果。4.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤3中通过多通道卷积神经网络模型训练和预测的整个模型训练过程如下：使用每个单词Wi及其对应的标记tWi，MCCNN模型对每个单词Wi输出向量OWi。这时定义交叉熵作为训练集上的损失函数：其中Θ为参数权重，λ为正则化参数，权重参数Θ通过后向传播算法计算，模型采用AdaGrad算法计算最小化损失函数。5.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤4中常用特征包括单词特征，词性特征，形态特征，上下文特征和词频信息。6.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤4中地理学科领域特征包括前后缀特征和指示词特征。7.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤4中根据条件随机场模型进行训练和预测的具体步骤如下:在观测序列X取值为X的条件下，标记序列Y取值为y的条件概率具有如下形式：其中，tk和si是特征函数，Ak和m是对应的权值。Zx是规范化因子，在所有可能的输出序列上进行求和。8.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，步骤5中采用基于规则的方法对预测结果进行纠错和融合得到最后的预测结果的评判规则如下：A、如果CRF模型预测的实体的开始单词不是实体首部标注B，而是实体内部标注I，那么通过MCCNN模型的预测结果查看该单词的预测分值，若满足阈值e则将该单词改为实体首部标注B;B、如果MCCNN模型预测的实体内部的多个单词出现多种实体类别，即该实体的类别不确定，此时选择CRF模型预测的实体类别作为该实体的类别。

百度查询：东南大学一种地理学科领域命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于聚乳酸的增塑剂及其制备方法和应用_杭州聚丰新材料有限公司_202311818361.2

下一篇：一种降低液态六氟磷酸盐溶液中游离酸的方法及装置_许昌意盛新型材料有限公司_202311837833.9

相关技术

一种用于聚乳酸的增塑剂及其制备方法和应用_杭州聚丰新材料有限公司_202311818361.2

一种降低液态六氟磷酸盐溶液中游离酸的方法及装置_许昌意盛新型材料有限公司_202311837833.9

空调消音器、空调器_青岛海尔空调器有限总公司_202410008033.4

一种金属粉末涂料用的聚酯树脂及其应用_擎天材料科技有限公司_202311682600.6

一种可完全生物降解的PLA/PPC复合材料及其制备方法_沈阳化工大学_202311723856.7

一种降损耗的混合永磁记忆电机_苏州市职业大学_202410017029.4

一种星式交流电弧加热器混合室_中国航天空气动力技术研究院_202311790124.X

一种应用于遥感载荷的深低温模拟前端集成电路_北京空间机电研究所_202311723307.X

一种聚焦式脉冲波治疗仪_浙江思智科技有限公司_202311643640.X

端口配置方法、装置、电子设备及存储介质_南京邮电大学_202311815379.7

一种高低压无火花过渡电路、系统及用于车身电泳方法_保定市宏诚变流器制造有限公司_202410021536.5

一种紫外光发光二极管及发光装置、芯片_泉州三安半导体科技有限公司_202311827154.3

命名相关技术

一种文本中命名实体的识别方法、装置和存储介质_上海大学_202410112121.9

用于设备的命名空间标识的系统、方法和装置_三星电子株式会社_202311308073.2

命名实体识别数据增强的方法、装置、电子设备和介质_云知声智能科技股份有限公司_202110820558.4

一种基于区块链智能合约的命名数据网络公钥管理方法_中通服创发科技有限责任公司_202210729050.8

融合领域知识和深度学习的领域短文本命名实体识别方法_中国电子科技集团公司第五十四研究所_202311685756.X

存储器装置的分区命名空间中的部分区存储器单元处置_美光科技公司_202110806082.9

多特征嵌入长短时记忆网络的水环境命名实体识别方法_北京工业大学_202410049211.8

多模态命名实体识别方法、装置、存储介质及电子装置_本源量子计算科技(合肥)股份有限公司_202311867171.X

一种融合局部上下文信息并利用标签语义进行命名实体识别的方法_重庆邮电大学_202311826871.4

一种基于深度学习的区块链专利命名实体识别方法及系统_上海计算机软件技术开发中心_202410022399.7

实体相关技术

对话引导的增强现实体验_斯纳普公司_202280058651.9

实体挂载的方法、装置、设备以及存储介质_北京百度网讯科技有限公司_202011550086.7

一种实体关系联合抽取方法_国网湖北省电力有限公司宜昌供电公司_202311827366.1

一种实体护坡混凝土浇筑振捣工具_中交建筑集团有限公司_202322472136.X

一种基于词汇增强的司法命名实体识别方法_电子科技大学_202410052509.4

一种文本中命名实体的识别方法、装置和存储介质_上海大学_202410112121.9

一种安全实体的知识图谱构建方法、装置、设备和介质_奇安信科技集团股份有限公司_202011233266.2

一种从文本中进行产品实体识别并链接的方法_财咨道信息技术有限公司_202410040918.2

一种带实体旋钮的车载中控屏幕_无锡凡特物联技术有限公司_202410096360.X

一种文本数据的实体提取方法、系统、设备和介质_国网浙江省电力有限公司杭州供电公司_202311594498.4

领域相关技术

一种工程机械领域智能保养系统_雷沃重工集团有限公司_202210046468.9

一种物流领域用转运车_中铝物流集团东南亚国际陆港有限公司_202322022466.9

一种基于全局-局部对比学习的领域自适应目标检测方法_合肥工业大学_202410063203.9

一种BIM领域三维设计路线的实现方法_北京市市政工程设计研究总院有限公司_202410071412.8

一种应用于低压直流领域的直流插座_中国电力科学研究院有限公司_202210302921.8

生物样本的临床测试领域中的计算机实现的方法_贝克曼库尔特有限公司_202280055814.8

一种大齿轮测量仪器领域用渐开线样板_北京工业大学_202111007908.1

融合目标领域知识的模型构造及应用方法、装置、设备_智慧眼科技股份有限公司_202311653303.9

应用于政务领域的舆情监测系统及方法_浪潮软件股份有限公司_202311126389.X

一种地铁领域用语料库构建方法、系统及存储介质_西安西维迈创科技有限公司_202410043265.3

龙图腾网&IPTOP

【发明授权】一种地理学科领域命名实体识别方法_东南大学_201710422919.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务