【发明授权】基于多层标注策略的跨境民族文化实体关系抽取方法及装置_昆明理工大学_202210733201.7

申请/专利权人：昆明理工大学

申请日：2022-06-27

公开（公告）日：2024-04-23

公开（公告）号：CN114970537B

主分类号：G06F40/295

分类号：G06F40/295;G06F40/242;G06F40/30;G06F16/33;G06F16/35;G06F16/36;G06F18/24;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.04.23#授权;2022.09.16#实质审查的生效;2022.08.30#公开

摘要：本发明涉及基于多层标注策略的跨境民族文化实体关系抽取方法及装置，属于自然语言处理技术领域。跨境民族文化领域文本中实体关系特征主要体现在单个实体重叠关系、实体对重叠关系以及多个实体对关系，在文本中还存在大量的领域词语问题，本发明提出了一种多层标注策略的跨境民族文化实体关系抽取方法，包括跨境民族文化实体关系数据标注和处理、基于多层标注的实体关系标注策略方法、基于多层标注策略的跨境民族文化实体关系抽取模型构成。根据这三个功能模块化制成基于多层标注策略的跨境民族文化实体关系抽取装置，对输入的句子进行实体关系联合抽取，本发明解决了跨境民族文化中重叠实体关系的问题。

主权项：1.基于多层标注策略的跨境民族文化实体关系抽取方法，其特征在于：所述基于多层标注策略的跨境民族文化实体关系抽取方法的具体步骤如下：Step1、结合跨境民族文化领域特点定义了若干种关系类型，设计标注格式标注句子中的实体对及对应的关系；Step2、采用融入领域词信息的方法增强预训练模型表征后的字符向量，通过领域词典对跨境民族文化语料进行分词并训练得到领域词向量，设计了卷积神经网络编码提取输入文本中的领域信息并将其融入到预训练模型输出的字符向量中；Step3、跨境民族文化实体关系抽取需要先识别出文本中所有的头实体确保后续在所有关系条件下的尾实体识别，利用双层标注方式分别对头实体的开始位置和结束位置进行标注；Step4、利用多层标注策略提取实体关系三元组，多层标注方式针对每一种预定义的关系类型下实体进行标注预测，预测每一种关系下对应尾实体的开始位置与终止位置，最终缓解跨境民族文化实体关系抽取中存在的实体关系重叠问题；所述Step1的具体步骤为：Step1.1、通过百科词条和跨境民族相关网站获取跨境民族文化数据，数据进行预处理操作；然后标注了包含实体关系三元组的跨境民族文化句子，关系类型包含若干种关系类型；Step1.2、采用{头实体，关系，尾实体}的标注格式标注句子中的实体对及对应的关系；Step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征，将字符进行处理，然后输入到预训练语言模型中得到输入文本的每个字符的向量表示；跨境民族文化句子被视为字符序列S＝{c1,c2，…,cn}∈Vc，其中Vc是字符级的词汇表，ci表示在长度为n的句子S中第i个字符，预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表示：Q＝ci×WQ,K＝ci×WK,V＝ci×WV, 其中，WQ,WK,WV表示权重参数，dk为输入特征向量的维度，Softmax为归一化操作，gi表示跨境民族文化字符文本向量表征；所述Step2的具体步骤为：Step2.1、通过融合领域词典信息的方式对文本中字符向量领域知识信息增强，利用领域词典对文本进行分词，分词后匹配预训练的词向量得到领域词向量矩阵E；Step2.2、设计了多层卷积编码器提取领域词典信息特征编码表示，其目的是提取领域词典中词语信息的语义知识；通过卷积编码器对词向量进行卷积操作提取领域词典信息特征编码，其中卷积操作是利用滑动窗口对词向量进行局部特征的编码，通过设置卷积核大小来提取文本的h-gram特征，最终得到了领域信息的表示：ci＝fWc.E[i:i+h]+bc，C＝[c1,c2,...,cn-h+1]，其中，为偏置向量，为训练参数矩阵，E为词向量矩阵；Step2.3、在字符向量表示中融入领域词典信息保留文本中的领域信息，将每个字符向量与Step2.2中的领域信息表示融合成一个特征向量，共同构成最终表示：xi＝[gi；zi].其中，zi为Step2.2中得到的领域信息表示，gi为字符向量；所述Step3的具体步骤为：Step3.1、通过双层标注方法对头实体的位置进行标注，标注文本中所有头实体片段以确保后续在所有关系条件下的尾实体标注质量；预测跨境民族文化文本中所有头实体的开始位置概率和结束位置概率，计算公式如下：其中hi表示Bi-LSTM输出的特征向量，表示输入序列第i个字符为头实体开始位置概率，表示输入序列第i个字符为头实体结尾位置概率，Wstart,bstart,Wend,bend为训练参数矩阵和偏置向量，σ.为sigmoid激活函数；Step3.2、如果句子中存在多个头实体，只有满足开始位置和结束位置自然连续性，才能被正确检测为给定的句子中实体跨度，从输入文本中标注头实体的概率如公式所示：其中L是句子的长度，θ为训练参数；当时，则文本中第i个字符标注为1，否则为0；当时，则表示句子中第i个字符标注为头实体开始位置标签；当时，则表示句子中第i个字符标注为头实体结束位置标签；所述Step4的具体步骤为：Step4.1、针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题，通过多层标注方法将头实体对应的特征向量融入到Bi-LSTM输出的特征向量中以增强模型整体的依赖性，更好地标注关系对应的尾实体位置；输入向量融合了已标注出的头实体向量，预测所有头实体对应关系下的尾实体开始位置概率和结束位置概率：其中hi表示Bi-LSTM输出的特征向量，表示所有头实体向量表征，表示输入文本中第i个字符为尾实体开始位置的概率，表示输入文本中第i个字符为尾实体结尾位置的概率，为训练参数矩阵和偏置向量，σ.为sigmoid激活函数。

全文数据：

权利要求：

百度查询：昆明理工大学基于多层标注策略的跨境民族文化实体关系抽取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种耐泥沙高密封性水泵控制阀_国电龙达电力设备(天津)有限责任公司_202322437322.X

下一篇：一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

相关技术

一种耐泥沙高密封性水泵控制阀_国电龙达电力设备(天津)有限责任公司_202322437322.X

一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种塑粉加工压制成型一体化生产设备_常州伟冠塑粉制造有限公司_202322584095.3

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种水泥砼搅拌机用振动下料装置_巢湖市恒峰建设工程有限公司_202322581391.8

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

文化相关技术

一种文化推广宣传装置_青岛创革文化传播有限公司_202321104617.9

一种集成式多功能文化墙_深圳市联想空间艺术工程有限公司_202322452733.6

一种移动式文化展览展板装置_武汉展艺文化科技发展有限公司_202322592305.3

一种嵌入式可推拉的文化建设墙_湖南工商大学_202410105867.7

一种文化展板用吊装固定装置_武汉展艺文化科技发展有限公司_202322750770.5

语义文化机器人系统_中国科学院自动化研究所_202011100729.8

一种文化传播展示牌_襄阳清颜文化传媒有限责任公司_202322517619.7

一种拼接式文化长廊_合肥原野标识工程有限公司_202322105001.X

一种基于人工智能的文化遗产旅游导览系统_山东管理学院_202311752289.8

一种民族文化作品悬挂式装订框_海南师范大学_202322433226.8

实体相关技术

渲染实体的局部信息拾取方法、装置、设备及存储介质_深圳市万翼数字技术有限公司_202310202850.9

一种基于文本的实体识别方法及相关装置_广东工业大学_202010844442.X

边缘物联代理实体的配网方法、系统及设备_成都汉度科技有限公司_202311205649.2

实体消歧方法、装置、电子设备及计算机可读存储介质_广州视源电子科技股份有限公司_202011280340.6

线状基础地理实体与专题地理实体边界融合方法及系统_湖南省第一测绘院_202410291864.7

同义实体对的确定方法及装置_阿里巴巴集团控股有限公司_201910299911.1

与IOT设备构建增强现实体验_斯纳普公司_202280058737.1

一种实体关系的抽取方法和装置_北京捷通华声科技股份有限公司_202010519899.3

一种基于文本图像的多模态命名实体识别方法_福建理工大学_202410080441.0

多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2

民族相关技术

一种民族传统体育用押加训练设备_铜仁幼儿师范高等专科学校_202410113938.8

一种民族文化作品悬挂式装订框_海南师范大学_202322433226.8

一种民族文创产品展示装置_湖北经济学院法商学院_202321679807.3

一种民族乐器数字智能化收纳展示架_黑龙江民族职业学院_202321387885.6

一种民族文化艺术展示装置_云南建设装饰集团有限公司_202321469835.2

一种民族民间作品的虚拟展示系统_中云文化大数据科技有限公司_202311797641.X

一种民族医药健康产业数据的分析方法_云南中医药大学_202311852101.7

用于民族乐器竹板材的生产加工设备_南京讯辰机械科技有限公司_202110713985.2

一种具有抗癌作用的纳西民族药组合物及其应用_中国科学院昆明植物研究所_202311701872.6

一种多色民族服装修饰带编织机的导轨装置_徐州恒辉编织机械有限公司_201910279646.0

龙图腾网&IPTOP

【发明授权】基于多层标注策略的跨境民族文化实体关系抽取方法及装置_昆明理工大学_202210733201.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务