申请/专利权人:云南电网有限责任公司电力科学研究院
申请日:2020-12-14
公开(公告)日:2024-03-22
公开(公告)号:CN112446215B
主分类号:G06F40/289
分类号:G06F40/289;G06F16/28;G06N3/0464;G06N3/049;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.03.22#授权;2021.03.23#实质审查的生效;2021.03.05#公开
摘要:本申请提供的一种实体关系联合抽取方法包括:利用BERT学习单字符向量,通过BiLSTM输出指定维度字符向量;字符向量拼接每个字符的位置信息向量,词表向量拼接词的位置信息向量,将所有字符向量和词表向量相连;Transformer编码器学习字符特征;进行实体分类;实体关系分类特征学习;实体关系分类。本申请通过底层共享网络参数的方式,进行联合抽取,解决抽取时间和误差累计的问题;通过引入分词与词表向量,解决实体边界的问题;通过引入实体边界信息和Sigmoid的方法解决实体重叠问题;通过Sigmoid的方法解决实体关系重叠的问题,克服了现有技术的不足。
主权项:1.一种实体关系联合抽取方法,其特征在于,包括:输入段落内容P,通过预训练模型BERT,得到连接上下文信息的字符相量矩阵I,将得到的字符向量矩阵I输入BiLSTM,设置BiLSTM输出维度为dd,输出指定维度字符向量;段落分词,将分词长度大于2的组成集合D;将集合D通过词表库,表示为词向量矩阵Iw;字符向量拼接每个字符的位置信息向量,词表向量拼接词的位置信息向量,将所有字符向量和词表向量相连,得到字符向量矩阵;将字符向量矩阵输入实体识别Transformer编码器中,得到实体识别Transformer编码器输出的字符嵌入矩阵Ge;以及将字符向量矩阵输入关系抽取Transformer编码器中,得到关系抽取Transformer编码器输出的字符嵌入矩阵Gr;将字符嵌入矩阵Ge中的每个字符向量通过两层线性变换,输入Sigmoid进行实体分类;将字符嵌入矩阵Ge、字符嵌入矩阵Gr、Lentity1、Lentity2进行拼接得到融合后的特征表示Gentity;将Gentity输入Transformer解码器,得到关系分类特征向量Rentity;其中Lentity为某一实体在段落文档中的位置信息;将Rentity通过两层线性变换,输入Sigmoid进行分类。
全文数据:
权利要求:
百度查询: 云南电网有限责任公司电力科学研究院 一种实体关系联合抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。