买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于自适应半监督的语义相似度计算方法_西北工业大学_202111382117.7 

申请/专利权人:西北工业大学

申请日:2021-11-22

公开(公告)日:2024-04-12

公开(公告)号:CN114202013B

主分类号:G06F18/22

分类号:G06F18/22;G06F40/30;G06F40/289;G06N3/0442;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.04.05#实质审查的生效;2022.03.18#公开

摘要:本发明公开了一种基于自适应半监督的语义相似度计算方法,首先使用无标记数据集对无监督的语义相似度计算模型doc2vec进行训练,并使用该模型对无标记数据集进行伪标签的标记,得到伪标签标记数据集,将其整合至标记数据集,该数据集将用于监督模型SiameseLSTM模型的训练;随后将SiameseLSTM模型与doc2vec模型进行加权融合,使用自适应训练数据集对加权模型的进行训练,实现自适应权重的动态优化,从而构建出用于语义相似度计算的自适应半监督模型;最后使用该模型对数据对之间的语义相似度进行计算。本发明方法提升了文本相似度计算的准确率,保证了数据的可靠性。

主权项:1.一种基于自适应半监督的语义相似度计算方法,其特征在于,包括如下步骤:步骤1:使用大规模语料库的非标记数据训练无监督模型doc2vecx,y,用于对非标记数据的相似度进行检测;使用训练完成的无监督模型doc2vecx,y对非标记数据集中的非标记数据对x,y进行相似度检测:当doc2vecx,y相似度值大于相似度计算阈值α时,给该数据对打上语义重复数据伪标签并归入伪标签语义重复数据集,否则打上语义非重复数据伪标签,归入伪标签语义非重复数据集;最终将伪标签语义重复数据集和伪标签语义非重复数据集合并,得到标记数据集;步骤2:构建自适应半监督模型;步骤2-1:定义SiameseLSTM模型的基本参数;对标记数据集的数据进行分词处理;步骤2-2:使用分词后的标记数据集,对SiameseLSTM模型进行训练,训练完成得到用于相似度计算的SiameseLSTM模型;步骤2-3:再将训练完成的无监督模型doc2vecx,y与训练完成的SiameseLSTM模型进行加权融合,从大规模语义相似度数据集中随机抽取Num条数据整理为自适应数据训练集,使用该数据集对两个模型加权融合的权重参数进行自适应调节,构建出自适应半监督模型,用于语义相似度计算;步骤2-3-1:采用自适应目标函数学习权重,目标函数表示为式1: 其中,Stotal表示相似度计算目标函数,θi表示平衡因子即权重值,Si表示语义相似度计算子任务,i表示第i个子任务;步骤2-3-2:通过自适应的动态调节对权重值θi进行调节,定义fwx,y为样本对x,y经过SiameseLSTM模型的输出,定义概率向量为:Pz|fwx,y=softmaxfwx,y2其中,z表示输入至SiameseLSTM模型的样本对x,y的输出概率,softmax.表示归一化函数;概率向量的多目标似然定义如下:Pz1,...,zn|fwx,y=Pz1|fwx,y...Pzn|fwx,y3其中,z1,...,zn表示多目标的输出,n表示输入的子任务数;步骤2-3-3:使用同方差不确定性作为在多任务学习问题中加权损失的基础,将同方差不确定性作为任务判别的不确定性指标,推导得到基于具有同方差不确定性的高斯似然最大化的多任务损失函数,作为多目标最小化的优化函数,该函数如式4所示: 其中,l1w=||z1-fwx,y||2表示第一个输出变量的损失函数,l2w=||z2-fwx,y||2表示第二个输出变量的损失函数;和分别为损失函数权重因子,能够通过学习得到;步骤2-3-4:使用ContrastiveLoss函数,处理数据对匹配问题;设数据输入格式为x,y,z,ContrastiveLoss函数分为x和y语义相似z=1,L+与x和y语义不相似z=0,L-两种情况,ContrastiveLoss函数如下所示:LW=zL+x,y+1-zL-x,y5其中: Sim表示语义相似度值;通过将ContrastiveLoss函数最小化,实现自适应数据训练集的权重调节,最终得到自适应半监督模型,用于语义相似度的计算;步骤3:使用自适应半监督模型对数据对的语义相似度进行检测;对于数据对x,y,SiameseLSTM模型的表征向量分别是Siax和Siay,再使用曼哈顿距离计算两个表征向量之间的相似度,因此SiameseLSTM模型计算得到x和y的相似度计算公式为: xi和yi表示第i个待计算数据对;对于数据对x,y,无监督模型doc2vecx,y表征向量分别为Dvx和Dvy,无监督模型doc2vecx,y对x和y使用余弦距离计算相似度,公式如下所示: 将SimSiax,y和SimDocx,y代入式1,最终计算得数据语义相似度检测结果。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于自适应半监督的语义相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。