买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向教育考试的跨域图匹配实体识别方法_华南理工大学;广州启辰电子科技有限公司_202210180038.6 

申请/专利权人:华南理工大学;广州启辰电子科技有限公司

申请日:2022-02-25

公开(公告)日:2024-03-22

公开(公告)号:CN114580415B

主分类号:G06F40/295

分类号:G06F40/295;G06F40/30;G06F18/241;G06N3/0455;G06N3/096;G06Q50/20

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.06.21#实质审查的生效;2022.06.03#公开

摘要:本发明公开了一种面向教育考试的跨域图匹配实体识别方法,步骤如下:获取源域命名实体识别数据集,使用源域命名实体识别数据集训练深度神经网络模型得到源域模型;获取带有实体类别标注的教育考试文本数据;利用训练好的源域模型构建目标域模型;把教育考试文本数据输入源域模型和目标域模型分别计算得到源域图和目标域图;利用教育考试文本数据、源域图和目标域图训练目标域模型,训练完成的目标域模型可用于教育考试文本实体识别。该方法利用迁移学习的优势,把模型在数据充足的任务下学习到的知识有效地迁移到带实体类别标注数据较为稀缺的教育考试文本实体识别任务中,提升了对教育考试文本实体识别的准确率。

主权项:1.一种面向教育考试的跨域图匹配实体识别方法,其特征在于,所述跨域图匹配实体识别方法包括以下步骤:S1、获取一个包含语句及每个词实体标签的数据集作为源域命名实体识别数据集,并去除其中包含缺失值的语句;S2、利用步骤S1源域命名实体识别数据集训练深度神经网络模型得到源域模型;S3、获取带有实体标签的教育考试文本数据,并去除其中包含缺失值的语句;S4、利用步骤S2中获得的源域模型构建目标域模型;其中,S5、把步骤S3中获得的教育考试文本数据输入步骤S2中获得的源域模型和步骤S4中获得的目标域模型分别计算得到源域图和目标域图,源域图和目标域图生成过程如下:S501、给定教育考试文本数据利用步骤S2中获得的源域模型,计算类别之间的后验概率psys|yt: 其中,ys和yt分别表示源域命名实体识别数据集和教育考试文本数据的类别,为中所有实体类别为y的样本,xi和yi表示中第i个样本的单词和实体标签,表示中样本的个数,f’0为调整输出平滑度后的源域模型,f’0的定义如下: 其中T为控制平滑度的超参数,e表示自然常数;表示源域模型对第i个样本第Ks个类别的预测分数,Ks=1,2,…,Cs,表示源域模型对第i个样本第Cs个类别的预测分数;通过得到的后验概率psys|yt,构建源域图其中和εs分别代表源域图的图节点和边集合,源域图中图节点定义为: 其中和分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合,分别表示中的第n个类别,和分别表示和中包含类别的个数,表示归一化前源域图类别yt的图节点,y1和y2是教育考试文本数据的任意两个类别,和表示归一化前源域图类别y1和y2的图节点,表示源域图类别yt的图节点,源域图中边定义为: 其中表示源域图类别为y1和y2的图节点之间的边长,和分别表示源域图类别y1和y2的图节点,表示源域图图节点和的欧氏距离,δ为边长设定的阈值,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;S502、利用步骤S4中获得的目标域模型,计算类别之间的后验概率ptyt1|yt2: 其中,yt1和yt2为教育考试文本数据的类别,为中所有实体类别为yt1的样本,xj和yj表示中第j个样本的单词和实体标签,表示中样本的个数,f′为调整输出平滑度后的目标域模型,f′的定义如下: 其中,表示目标域模型对第j个样本第Kt个类别的预测分数,表示目标域模型对第j个样本第Ct个类别的预测分数;通过得到的后验概率ptyt1|yt2,构建目标域图其中和εt分别代表目标域图的图节点和边集合,目标域图中图节点定义为: 其中yt2m表示中的第m个类别,表示归一化前目标域图类别yt1的图节点,y3和y4是教育考试文本数据的任意两个类别,和表示归一化前目标域图类别y3和y4的图节点,表示目标域图类别yt1的图节点,目标域图中边定义为: 其中,表示目标域图类别为y3和y4的图节点之间的边长,和分别表示目标域图类别y3和y4的图节点,表示目标域图图节点和的欧氏距离,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;S6、利用步骤S3中获得的教育考试文本数据和步骤S5中获得的源域图和目标域图来训练目标域模型,将经过训练的目标域模型用于教育考试实体识别,其中,训练目标域模型的过程如下:S601、计算源域图和目标域图的相似度 其中u和v分别表示源域图和目标域图对应的离散分布,每个图节点被分配相同的质量,而且所有质量之和为1,∏u,v表示分布u和v的联合概率分布;i1和i2分别表示源域命名实体识别数据集中的任意两个类别;j1和j2分别表示教育考试文本数据中的任意两个类别;和分别表示源域图类别为i1和i2的图节点;和分别表示目标域图类别为j1和j2的图节点;表示估计的最优传输计划矩阵,和分别表示中的第i1行第j1列和第i2行第j2列的值;L表示计算边之间相似度的函数,定义为: 其中表示源域图图节点和的欧氏距离,表示目标域图图节点和的欧氏距离;S602、计算目标域模型的分类损失 其中,Nt为教育考试文本数据中训练样本的个数,表示教育考试文本数据中第it个训练样本的单词,表示目标域模型对单词的第ic个类别的预测分数,为表示单词是否属于第ic个类别的零一变量,ln表示自然对数函数;S603、计算总损失其中λ为Dgw的权重参数;S604、通过梯度下降的方式最小化当总损失不再下降时结束训练;S7、输入步骤S3中获得的教育考试文本数据到经过训练的目标域模型,得到目标域模型对教育考试文本数据实体识别的结果。

全文数据:

权利要求:

百度查询: 华南理工大学;广州启辰电子科技有限公司 一种面向教育考试的跨域图匹配实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。