买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于反事实生成的命名实体识别增强方法_浙江大学_202010967301.7 

申请/专利权人:浙江大学

申请日:2020-09-15

公开(公告)日:2024-04-05

公开(公告)号:CN112257441B

主分类号:G06F40/295

分类号:G06F40/295;G06F16/35;G06N3/0455;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2021.02.09#实质审查的生效;2021.01.22#公开

摘要:本发明公开了一种基于反事实生成的命名实体识别增强方法,所述方法包含如下步骤:1从已有标注数据中获取本地实体集合,并按照实体类型进行分类;2针对已有标注数据中的每一个样本,用实体集合中的实体随机替换样本中的任一个实体,替换后的样本为反事实样本;3利用判别器对反事实样本进行判别,如果是合理的则用于增强原有的标注数据。与现有的方法相比,本发明有如下益处:1无需额外的标注资源,如相似领域的数据集或者实体字典;2无需大量的未标注数据,可解决某些领域缺乏数据的难题;3能够打破输出特征与输出标签之间部分的伪相关,从而提高模型的泛化能力。

主权项:1.一种基于反事实生成的命名实体识别增强方法,其特征在于,包括如下步骤:S1:依次遍历已有标注数据的训练集中的所有数据样本x,抽取数据样本x中的所有实体e,并按照实体类别进行分类,实体类别为t的所有数据样本构成本地实体集合所有的本地实体集合为S2:以训练集中已有标注数据的数据样本x,y作为观测样本,按照S21~S24生成反事实样本:S21:逐一遍历训练集中的所有观测样本x,y,针对每一个单独的观测样本x,y,执行S22~S24:S22:随机从该观测样本的所有实体中选择一个实体类别为t的实体e,用于实体替换;S23:根据选中实体e对应的实体类型t,确定其对应的本地实体集合S24:遍历该本地实体集合针对本地实体集合中的每一个候选实体如果候选实体e′与用于替换的实体e不相同,则用候选实体e′替换掉观测样本x,y中的实体e,每一次替换都会产生一个新的反事实样本xc,yc;针对每一个观测样本x,y,一共产生n-1个新的反事实样本xc,yc,其中n为本地实体集合中的候选实体数量;S3:使用判别器对S2中生成的反事实样本进行判别,如果一个反事实样本xc,yc中被替换后的实体e′能够被判别器准确的识别出来,则将该反事实样本判别为合理的;所述判别器是一个由编码器和序列标注器两部分组成的命名实体识别模型;所述编码器用于对观测样本的输入句子x和反事实样本的输入句子xc进行编码,编码后句子中的每个语义单元将会获得一个d维的表示向量;所述序列标注器由多层感知机组成,用于对每个输入的语义单元进行分类;所述判别器预先在已有标注数据的训练集上进行训练,从而获得反事实样本判别所需要的先验知识;S4:将S3中所有被判别为合理的反事实样本和训练集中的观测样本进行组合,形成一个增强的训练数据集用于最终的命名实体识别模型的训练。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于反事实生成的命名实体识别增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。