买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于分布校准的小样本实体关系抽取方法_湖南大学_202111613756.X 

申请/专利权人:湖南大学

申请日:2021-12-27

公开(公告)日:2024-04-09

公开(公告)号:CN114328921B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/216;G06F40/289;G06F18/241;G06F18/22;G06N3/0464;G06N3/0455;G06N3/0442

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要:本发明公开了一种基于分布校准的小样本实体关系抽取方法,其假设特征向量中的每个维度都遵循高斯分布,并观察到相似类通常具有相似的特征表示均值和方差。因此,高斯分布的平均值和方差可以在类似的类别之间传递。同时,当有足够的样本时,可以更准确地估计统计数据。因此,重用来自多个类的分布统计量,并根据它们的类相似性可以更好地校准少数类的分布统计量,根据校准后的分布统计量可以生成更多的样本。本发明的有益效果:使提取的特征更丰富;可以减少分散偏度,能够让特征向量分布更接近高斯分布;大大减少了由于数据过少引起的过拟合问题,通过数据增强实现了关系抽取准确度的提高;能够极大地提高模型的泛化能力。

主权项:1.一种基于分布校准的小样本实体关系抽取方法,其特征在于,应用于提取文本信息,该方法包括如下步骤:步骤一、提供一包含多个关系类别的数据集,并将该数据集按类别划分出训练集和测试集,其中,训练集包含的类别多于测试集包含的类别,每个类别包含多个样本,所述数据集为包含80个关系类别的大规模人工标注数据集FewRel;步骤二、将训练集作为基类,测试集作为新类,使用BERT模型将基类和新类中各类别所包含的样本进行向量化,提取样本的特征向量,从而将训练集转化为基类特征向量集,将测试集转化为新类特征向量集;步骤三、通过公式(1)和(2)分别计算来自基类中的类别i的特征平均值和特征协方差矩阵,从而得出基类特征向量集的分布统计量; (1) (2)其中,是基类中的类别i的第j个样本的特征向量,j为大于0的自然数;是类别i中的样本总数;步骤四、使用基于Episode的元任务训练策略训练分类器,每轮从新类特征向量集选取N个类别,从每个类别中分别抽取K个样本作为支持集,抽取Q个样本作为查询集,其中,N、K、Q均为大于0的自然数;步骤五、通过Tukey幂阶变换将步骤四获得的支持集和查询集的特征向量通过公式(3)进行映射,得到特征向量; (3)其中,是一个超参数,用于调整如何校准统计分布量;步骤六、通过公式(4)和(5)判断基类中所有类别包含的特征平均值和新类的支持集包含的特征向量的相似度,基于该相似度选择出基类中所有类别包含的特征平均值和新类的支持集包含的特征向量最相似的前k个类别; (4) (5)其中,为特征向量与基类中所有类别包含的特征平均值计算距离的输入距离集,·为从输入距离集中选择最近的k个元素的运算符;为存储距离特征向量的前k个最近的基类的类别;为支持集中的一个特征向量;为基类特征向量集;步骤七、基于步骤六中选择的前k个类别的特征平均值和特征协方差矩阵,通过公式(6)和(7)校准支持集包含的特征向量的分布统计量; (6) 7其中,是一个超参数,决定从分布统计量中采样的特征向量的分散程度;步骤八、通过公式(8)和(9)从支持集中的类别y的一组通过步骤七校准后的分布统计量中采样θ个带有标签y的特征向量扩充训练数据; (8) (9)其中,,分别是类别y中第K个特征向量校准后的特征平均值和特征协方差矩阵;K为支持集中每个类别的样本数量;步骤九、将步骤八采样得到的特征向量与新类支持集中的特征向量共同作为分类器的训练数据,通过最小化采样得到的样本和支持集的样本的交叉熵损失来训练分类器;步骤十、使用通过步骤九训练后的分类器对新类查询集的样本进行预测。

全文数据:

权利要求:

百度查询: 湖南大学 一种基于分布校准的小样本实体关系抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。