买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于多层标注策略的跨境民族文化实体关系抽取方法及装置_昆明理工大学_202210733201.7 

申请/专利权人:昆明理工大学

申请日:2022-06-27

公开(公告)日:2024-04-23

公开(公告)号:CN114970537B

主分类号:G06F40/295

分类号:G06F40/295;G06F40/242;G06F40/30;G06F16/33;G06F16/35;G06F16/36;G06F18/24;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2022.09.16#实质审查的生效;2022.08.30#公开

摘要:本发明涉及基于多层标注策略的跨境民族文化实体关系抽取方法及装置,属于自然语言处理技术领域。跨境民族文化领域文本中实体关系特征主要体现在单个实体重叠关系、实体对重叠关系以及多个实体对关系,在文本中还存在大量的领域词语问题,本发明提出了一种多层标注策略的跨境民族文化实体关系抽取方法,包括跨境民族文化实体关系数据标注和处理、基于多层标注的实体关系标注策略方法、基于多层标注策略的跨境民族文化实体关系抽取模型构成。根据这三个功能模块化制成基于多层标注策略的跨境民族文化实体关系抽取装置,对输入的句子进行实体关系联合抽取,本发明解决了跨境民族文化中重叠实体关系的问题。

主权项:1.基于多层标注策略的跨境民族文化实体关系抽取方法,其特征在于:所述基于多层标注策略的跨境民族文化实体关系抽取方法的具体步骤如下:Step1、结合跨境民族文化领域特点定义了若干种关系类型,设计标注格式标注句子中的实体对及对应的关系;Step2、采用融入领域词信息的方法增强预训练模型表征后的字符向量,通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量,设计了卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中;Step3、跨境民族文化实体关系抽取需要先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别,利用双层标注方式分别对头实体的开始位置和结束位置进行标注;Step4、利用多层标注策略提取实体关系三元组,多层标注方式针对每一种预定义的关系类型下实体进行标注预测,预测每一种关系下对应尾实体的开始位置与终止位置,最终缓解跨境民族文化实体关系抽取中存在的实体关系重叠问题;所述Step1的具体步骤为:Step1.1、通过百科词条和跨境民族相关网站获取跨境民族文化数据,数据进行预处理操作;然后标注了包含实体关系三元组的跨境民族文化句子,关系类型包含若干种关系类型;Step1.2、采用{头实体,关系,尾实体}的标注格式标注句子中的实体对及对应的关系;Step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征,将字符进行处理,然后输入到预训练语言模型中得到输入文本的每个字符的向量表示;跨境民族文化句子被视为字符序列S={c1,c2,…,cn}∈Vc,其中Vc是字符级的词汇表,ci表示在长度为n的句子S中第i个字符,预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表示:Q=ci×WQ,K=ci×WK,V=ci×WV, 其中,WQ,WK,WV表示权重参数,dk为输入特征向量的维度,Softmax为归一化操作,gi表示跨境民族文化字符文本向量表征;所述Step2的具体步骤为:Step2.1、通过融合领域词典信息的方式对文本中字符向量领域知识信息增强,利用领域词典对文本进行分词,分词后匹配预训练的词向量得到领域词向量矩阵E;Step2.2、设计了多层卷积编码器提取领域词典信息特征编码表示,其目的是提取领域词典中词语信息的语义知识;通过卷积编码器对词向量进行卷积操作提取领域词典信息特征编码,其中卷积操作是利用滑动窗口对词向量进行局部特征的编码,通过设置卷积核大小来提取文本的h-gram特征,最终得到了领域信息的表示:ci=fWc.E[i:i+h]+bc,C=[c1,c2,...,cn-h+1], 其中,为偏置向量,为训练参数矩阵,E为词向量矩阵;Step2.3、在字符向量表示中融入领域词典信息保留文本中的领域信息,将每个字符向量与Step2.2中的领域信息表示融合成一个特征向量,共同构成最终表示:xi=[gi;zi].其中,zi为Step2.2中得到的领域信息表示,gi为字符向量;所述Step3的具体步骤为:Step3.1、通过双层标注方法对头实体的位置进行标注,标注文本中所有头实体片段以确保后续在所有关系条件下的尾实体标注质量;预测跨境民族文化文本中所有头实体的开始位置概率和结束位置概率,计算公式如下: 其中hi表示Bi-LSTM输出的特征向量,表示输入序列第i个字符为头实体开始位置概率,表示输入序列第i个字符为头实体结尾位置概率,Wstart,bstart,Wend,bend为训练参数矩阵和偏置向量,σ.为sigmoid激活函数;Step3.2、如果句子中存在多个头实体,只有满足开始位置和结束位置自然连续性,才能被正确检测为给定的句子中实体跨度,从输入文本中标注头实体的概率如公式所示: 其中L是句子的长度,θ为训练参数;当时,则文本中第i个字符标注为1,否则为0;当时,则表示句子中第i个字符标注为头实体开始位置标签;当时,则表示句子中第i个字符标注为头实体结束位置标签;所述Step4的具体步骤为:Step4.1、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题,通过多层标注方法将头实体对应的特征向量融入到Bi-LSTM输出的特征向量中以增强模型整体的依赖性,更好地标注关系对应的尾实体位置;输入向量融合了已标注出的头实体向量,预测所有头实体对应关系下的尾实体开始位置概率和结束位置概率: 其中hi表示Bi-LSTM输出的特征向量,表示所有头实体向量表征,表示输入文本中第i个字符为尾实体开始位置的概率,表示输入文本中第i个字符为尾实体结尾位置的概率,为训练参数矩阵和偏置向量,σ.为sigmoid激活函数。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于多层标注策略的跨境民族文化实体关系抽取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。