【发明授权】一种面向教育考试的跨域图匹配实体识别方法_华南理工大学;广州启辰电子科技有限公司_202210180038.6

申请/专利权人：华南理工大学;广州启辰电子科技有限公司

申请日：2022-02-25

公开（公告）日：2024-03-22

公开（公告）号：CN114580415B

主分类号：G06F40/295

分类号：G06F40/295;G06F40/30;G06F18/241;G06N3/0455;G06N3/096;G06Q50/20

优先权：

专利状态码：有效-授权

法律状态：2024.03.22#授权;2022.06.21#实质审查的生效;2022.06.03#公开

摘要：本发明公开了一种面向教育考试的跨域图匹配实体识别方法，步骤如下：获取源域命名实体识别数据集，使用源域命名实体识别数据集训练深度神经网络模型得到源域模型；获取带有实体类别标注的教育考试文本数据；利用训练好的源域模型构建目标域模型；把教育考试文本数据输入源域模型和目标域模型分别计算得到源域图和目标域图；利用教育考试文本数据、源域图和目标域图训练目标域模型，训练完成的目标域模型可用于教育考试文本实体识别。该方法利用迁移学习的优势，把模型在数据充足的任务下学习到的知识有效地迁移到带实体类别标注数据较为稀缺的教育考试文本实体识别任务中，提升了对教育考试文本实体识别的准确率。

主权项：1.一种面向教育考试的跨域图匹配实体识别方法，其特征在于，所述跨域图匹配实体识别方法包括以下步骤：S1、获取一个包含语句及每个词实体标签的数据集作为源域命名实体识别数据集，并去除其中包含缺失值的语句；S2、利用步骤S1源域命名实体识别数据集训练深度神经网络模型得到源域模型；S3、获取带有实体标签的教育考试文本数据，并去除其中包含缺失值的语句；S4、利用步骤S2中获得的源域模型构建目标域模型；其中，S5、把步骤S3中获得的教育考试文本数据输入步骤S2中获得的源域模型和步骤S4中获得的目标域模型分别计算得到源域图和目标域图，源域图和目标域图生成过程如下：S501、给定教育考试文本数据利用步骤S2中获得的源域模型，计算类别之间的后验概率psys|yt：其中，ys和yt分别表示源域命名实体识别数据集和教育考试文本数据的类别，为中所有实体类别为y的样本，xi和yi表示中第i个样本的单词和实体标签，表示中样本的个数，f’0为调整输出平滑度后的源域模型，f’0的定义如下：其中T为控制平滑度的超参数，e表示自然常数；表示源域模型对第i个样本第Ks个类别的预测分数，Ks＝1,2,…,Cs，表示源域模型对第i个样本第Cs个类别的预测分数；通过得到的后验概率psys|yt，构建源域图其中和εs分别代表源域图的图节点和边集合，源域图中图节点定义为：其中和分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合，分别表示中的第n个类别，和分别表示和中包含类别的个数，表示归一化前源域图类别yt的图节点，y1和y2是教育考试文本数据的任意两个类别，和表示归一化前源域图类别y1和y2的图节点，表示源域图类别yt的图节点，源域图中边定义为：其中表示源域图类别为y1和y2的图节点之间的边长，和分别表示源域图类别y1和y2的图节点，表示源域图图节点和的欧氏距离，δ为边长设定的阈值，边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边；S502、利用步骤S4中获得的目标域模型，计算类别之间的后验概率ptyt1|yt2：其中，yt1和yt2为教育考试文本数据的类别，为中所有实体类别为yt1的样本，xj和yj表示中第j个样本的单词和实体标签，表示中样本的个数，f′为调整输出平滑度后的目标域模型，f′的定义如下：其中，表示目标域模型对第j个样本第Kt个类别的预测分数，表示目标域模型对第j个样本第Ct个类别的预测分数；通过得到的后验概率ptyt1|yt2，构建目标域图其中和εt分别代表目标域图的图节点和边集合，目标域图中图节点定义为：其中yt2m表示中的第m个类别，表示归一化前目标域图类别yt1的图节点，y3和y4是教育考试文本数据的任意两个类别，和表示归一化前目标域图类别y3和y4的图节点，表示目标域图类别yt1的图节点，目标域图中边定义为：其中，表示目标域图类别为y3和y4的图节点之间的边长，和分别表示目标域图类别y3和y4的图节点，表示目标域图图节点和的欧氏距离，边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边；S6、利用步骤S3中获得的教育考试文本数据和步骤S5中获得的源域图和目标域图来训练目标域模型，将经过训练的目标域模型用于教育考试实体识别，其中，训练目标域模型的过程如下：S601、计算源域图和目标域图的相似度其中u和v分别表示源域图和目标域图对应的离散分布，每个图节点被分配相同的质量，而且所有质量之和为1，∏u,v表示分布u和v的联合概率分布；i1和i2分别表示源域命名实体识别数据集中的任意两个类别；j1和j2分别表示教育考试文本数据中的任意两个类别；和分别表示源域图类别为i1和i2的图节点；和分别表示目标域图类别为j1和j2的图节点；表示估计的最优传输计划矩阵，和分别表示中的第i1行第j1列和第i2行第j2列的值；L表示计算边之间相似度的函数，定义为：其中表示源域图图节点和的欧氏距离，表示目标域图图节点和的欧氏距离；S602、计算目标域模型的分类损失其中，Nt为教育考试文本数据中训练样本的个数，表示教育考试文本数据中第it个训练样本的单词，表示目标域模型对单词的第ic个类别的预测分数，为表示单词是否属于第ic个类别的零一变量，ln表示自然对数函数；S603、计算总损失其中λ为Dgw的权重参数；S604、通过梯度下降的方式最小化当总损失不再下降时结束训练；S7、输入步骤S3中获得的教育考试文本数据到经过训练的目标域模型，得到目标域模型对教育考试文本数据实体识别的结果。

全文数据：

权利要求：

百度查询：华南理工大学;广州启辰电子科技有限公司一种面向教育考试的跨域图匹配实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

下一篇：用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

相关技术

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

一种对氟甲苯制备用精馏设备_湖北联昌新材料有限公司_202322580010.4

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

一种园林绿化便携铲_马丽丽_202322375183.2

一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

图相关技术

基于图神经网络的汉越跨语言观点对象识别分析方法_昆明理工大学_202210532418.1

图计算方法、装置、计算机集群及计算机存储介质_华为技术有限公司_202211273798.8

家具布局图生成方法、装置、设备及存储介质_深圳须弥云图空间科技有限公司_202111074456.9

一种基于深度学习的柔性压力传感阵列图的识别方法_中国科学院宁波材料技术与工程研究所_202210314179.2

一种基于图划分卷积神经网络的行人轨迹预测方法_武汉大学_202111105740.8

核电站DCS系统应用软件逻辑图连线数据处理方法_中国核动力研究设计院_202111246992.2

用于紧凑型平视显示器的全息图计算_恩维世科斯有限公司_202311285242.5

建图方法、图像采集和处理系统和定位方法_上海快仓智能科技有限公司_201811475564.5

电路图生成方法、计算机设备及存储介质_芯行纪科技有限公司_202410156710.7

基于图神经网络的智能合约漏洞检测方法、系统和设备_烟台大学_202311579362.6

域相关技术

一种新型聚多巴胺限域氧化沉积方法与应用_中国人民解放军陆军军医大学第二附属医院_202311078553.4

一种限域氨分解催化剂的制备方法和应用_乌镇实验室_202311724206.4

基于多域融合深度学习的毫米波雷达头部动作识别方法_电子科技大学_202210666094.0

基于通道和空间调制的Raw域图像及视频去摩尔纹方法_天津大学_202311405552.6

一种多域联合的抗干扰智能决策方法及系统_中国电子科技集团公司第十研究所_202410146363.X

一种基于跨时钟域的异步时钟选择电路及其切换方法_中国电子科技集团公司第四十七研究所_202011515673.2

一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法_大连理工大学_202111362020.X

基于聚类与多域分类的开放集域自适应方法_西安理工大学_202410250038.8

市域治理事件信息推荐方法及装置_海南乾唐视联信息技术有限公司_202311684965.2

一种尿素肥域的划分方法_中国农业科学院农业资源与农业区划研究所_202410047008.7

跨相关技术

用于跨载波HARQ管理的方法及用户设备_联发科技股份有限公司_202110760310.3

一种跨时钟域处理电路_华为技术有限公司_201880098603.6

架桥机跨铁路架梁施工方法_中铁六局集团石家庄铁路建设有限公司_202111626767.1

晶圆跨厂流片方法及装置_深圳市昇维旭技术有限公司_202410317611.2

一种基于跨时钟域的异步时钟选择电路及其切换方法_中国电子科技集团公司第四十七研究所_202011515673.2

训练样本处理方法、跨模态匹配方法、装置、设备和介质_北京百度网讯科技有限公司_202211668247.1

一种预应力无缝多跨弯桥临时支撑结构_中铁二局集团有限公司_202322632609.8

基于图神经网络的汉越跨语言观点对象识别分析方法_昆明理工大学_202210532418.1

深井移动轨道式巡检机器人及其跨绳越障方法_中国矿业大学_202110990495.7

基于Hyperledger Fabric的内部桥接跨链方法、装置、设备和介质_普洛斯科技(重庆)有限公司_202111192928.0

龙图腾网&IPTOP

【发明授权】一种面向教育考试的跨域图匹配实体识别方法_华南理工大学;广州启辰电子科技有限公司_202210180038.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务