【发明授权】一种事件抽取方法和系统_合肥中科类脑智能技术有限公司_202010551486.3

导航：龙图腾网> 最新专利技术> 一种事件抽取方法和系统_合肥中科类脑智能技术有限公司_202010551486.3

申请/专利权人：合肥中科类脑智能技术有限公司

申请日：2020-06-17

公开（公告）日：2023-05-26

公开（公告）号：CN111694924B

主分类号：G06F16/31

分类号：G06F16/31;G06N3/0455;G06N3/047;G06N3/048;G06N3/09

优先权：

专利状态码：有效-授权

法律状态：2023.05.26#授权;2020.10.20#实质审查的生效;2020.09.22#公开

摘要：本发明提出一种事件抽取方法，包括获取原始语料，对句子中的要素以[标签‑要素]的形式来进行标注，将标注的语料划分为训练集和测试集，预训练语言模型将训练集映射成向量，得到词嵌入向量，将词嵌入向量输入神经网络模型，神经网络模型输出序列标签信息，基于序列标签信息建立损失函数，利用测试集对事件抽取模型评估，最终得到事件抽取模型，多次调整训练集和测试集结构，选取评估结果最好的事件抽取模型作为最佳模型，将新的原始语料输入至最佳模型，得到事件抽取的结果；本发明提出的事件抽取方法属于监督的神经网络抽取方法，结合本领域的细粒度语境化词向量，更符合专业领域事件抽取的场景。

主权项：1.一种事件抽取方法，其特征在于，包括：获取原始语料：以待抽取内容作为原始语料；数据标注：筛选包含事件的句子，对句子中的要素以[标签-要素]的形式来进行标注；数据集分配：将标注的语料划分为训练集和测试集；预训练：预训练语言模型将训练集映射成向量，得到词嵌入向量；构建事件抽取模型：将词嵌入向量输入神经网络模型，神经网络模型输出序列标签信息，基于序列标签信息建立损失函数；评估：利用测试集对事件抽取模型评估，若评估成绩低于预定目标，重复所述构建事件抽取模型步骤，若评估成绩达到预定目标，终止所述构建事件抽取模型步骤，得到事件抽取模型；多次调整训练集和测试集结构，重复所述预训练、所述构建事件抽取模型、所述评估步骤，得到多个事件抽取模型，选取评估结果最好的事件抽取模型作为最佳模型；事件抽取：将新的原始语料输入至最佳模型，最佳模型输出新的原始语料对应的标签，基于标签抽取出格式化的事件数据，得到事件抽取的结果；所述神经网络模型包括具有超长记忆的变压器网络+条件随机场；所述将词嵌入向量输入神经网络模型，神经网络模型输出序列标签信息，基于序列标签信息建立损失函数，具体包括：将词嵌入向量输入具有超长记忆的变压器网络，具有超长记忆的变压器网络输出特征向量，基于特征向量获取状态特征概率，选取状态特征概率最大值对应的标签；将状态特征概率最大值对应的标签输入条件随机场，条件随机场输出转移概率矩阵，基于转移概率矩阵获取序列标签信息，基于序列标签信息建立损失函数；所述具有超长记忆的变压器网络包括：hnτ＝RL*d为第τ段分段产生的第n层隐层，其中，h0τ为初始化的词嵌入向量，L为分段的长度，d为隐层的维度，τ为分段的索引，定义如下具有N层的具有超长记忆的变压器网络的单个AttentionHeadn＝1，...，N，最后将所有AttentionHead得到的结果进行拼接：MultiHead＝Concathead1，…headi…headhW0Concat是矩阵拼接函数；headi是第i个head的输出结果，h是head的个数；W0是输出的映射参数矩阵；head计算过程：式中SG表示停止计算梯度，表示将和在长度维度上进行连接，代表上一分段的隐藏状态，代表当前分段的隐藏状态，代表的就是扩展的上下文表示，对两个隐向量沿着长度方向进行拼接，拼接之后的维度为2Lxd；式中对应W计算注意力所需的q，k，v的转化矩阵，q用于查询当前位置，k用于提供相关标签，v用于提供相关位置的值，k，v计算使用扩展上下文的表示，长度为2L，k和v使用了包括上个序列信息的隐藏层，查询q只与当前序列相关；为生成的基于内容的键向量，分别为q，v的映射矩阵，T指的是矩阵的转置；式中是计算qτ，i和Kτ，j在第τ段分段的注意力得分，其中四个部分的作用依次分别为j的内容相对于i的影响，i与j的距离对于i的影响，j的内容相对于整体的影响，i与j的距离对于整体的影响，为生成的基于位置的键向量；其中Ri-j的计算方式如下：其中，k∈[0，1，…，d]，i-j∈[0，1，…，M+L-1]，a∈[0，d2]，Ri-j仅在隐层传递中进行计算，初始化的时候并不进行计算；L为分段序列的长度，M为上述的长度，u，v为可训练的参数；上式是对注意力得分进行mask操作，将先通过softmax函数对注意力得分进行归一化，softmax函数如下：其中，mask操作是将补全的部分标记出来，防止影响注意力的计算；式中进行归一化操作，先对注意力分数进行残差层的计算，再加上n-1层隐层的结果，再进行LayerNorm计算得到结果；其中， u为x的均值，σ为方差，g和b为需要拟合的参数；表示经历过两次线性变换和ReLU激活，公式为：FFNx＝max0，xW1+b1W2+b2式中W1、W2、b1、b2为可训练参数，最后经历一次线性变换和softmax操作，变换为每个汉字映射到标签的状态特征概率；所述条件随机场输出转移概率矩阵，基于转移概率矩阵获取序列标签信息，基于序列标签信息建立损失函数包括：设定标注的语料为：xi表示原始语料中的汉字，yi表示标签；为具有超长记忆的变压器网络的输出，为状态特征概率，为转移概率矩阵；对于目标：学习出一组条件概率分布模型：找到θ，使得 -∑ilog[Pxi|yi，θ]为损失函数。

全文数据：

权利要求：

百度查询：合肥中科类脑智能技术有限公司一种事件抽取方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种装配式桥梁用避震结构_浙江天晟建材股份有限公司_202322593564.8

下一篇：电池包和用电装置_蔚来电池科技(安徽)有限公司_202322200695.5

相关技术

一种装配式桥梁用避震结构_浙江天晟建材股份有限公司_202322593564.8

电池包和用电装置_蔚来电池科技(安徽)有限公司_202322200695.5

一种塑粉加工压制成型一体化生产设备_常州伟冠塑粉制造有限公司_202322584095.3

一种LED线性地埋灯_上海科铃纳光电科技有限公司_202322244017.9

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种组合式高低压配电柜_靖江市靖开电力电器有限公司_202322564432.2

一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

一种矿热炉扎眼机自动卸杆装置_乌海三美国际矿业有限公司_202322492884.4

事件相关技术

一种事件预测的方法及装置_杭州海康威视数字技术股份有限公司_201810778702.0

一种针对城市聚集事件的应急疏散方法与系统_中国科学院深圳先进技术研究院_201911289214.4

基于AOE网络和事件驱动的低代码工业控制方法_杭州极简物控科技有限公司_202110979891.X

使用基于事件的视觉传感器的环境模型保持_索尼高级视觉传感股份公司_202080009520.2

一种用于判定事件威胁度的方法、装置及电子设备_北京天融信网络安全技术有限公司_202210625050.3

基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质_公安部第三研究所_202111528511.7

事件证明系统_株式会社野村综合研究所_202311182402.3

一种基于事件特征的事件处置管理方法及系统_重庆中信科信息技术有限公司_202311765750.3

活动事件处理方法及相关设备_荣耀终端有限公司_202311569296.4

用于感测排便事件的系统和方法_伊莱利利公司_202280059512.8

抽取相关技术

基于ES的医疗主索引抽取合并方法及系统_成都医星科技有限公司_202311044701.0

一种从油脂水解输液管道上抽取液体的取样装置_青岛金牛油脂科技有限公司_202321481728.1

一种金属带卷芯轴抽取装置_涿州北方重工设备设计有限公司_202322404436.4

一种水质量管理抽取设备_凯乐检测认证集团(甘肃)有限公司_202322299998.7

一种知识联合抽取模型训练方法_广东工业大学_202110466416.2

基于远程监督关系抽取的肝癌信息标注系统_杭州电子科技大学_202311787038.3

一种实体关系的抽取方法和装置_北京捷通华声科技股份有限公司_202010519899.3

基于人工智能的文本课件的内容抽取方法及相关设备_平安国际智慧城市科技股份有限公司_202110839260.8

一种细粒度情感元素抽取方法及系统_广东工业大学_202410062045.5

多任务序列标注的药物实体和相互作用联合抽取方法_电子科技大学_202210628078.2

方法相关技术

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

通信方法及装置_华为技术有限公司_202010617172.9

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

信息处理方法_丰田自动车株式会社_202311358127.6

通信方法及装置_华为技术有限公司_202311024020.8

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

冰箱及其控制方法_LG电子株式会社_202080061858.2

龙图腾网&IPTOP

【发明授权】一种事件抽取方法和系统_合肥中科类脑智能技术有限公司_202010551486.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务