【发明授权】一种基于自适应半监督的语义相似度计算方法_西北工业大学_202111382117.7

导航：龙图腾网> 最新专利技术> 一种基于自适应半监督的语义相似度计算方法_西北工业大学_202111382117.7

申请/专利权人：西北工业大学

申请日：2021-11-22

公开（公告）日：2024-04-12

公开（公告）号：CN114202013B

主分类号：G06F18/22

分类号：G06F18/22;G06F40/30;G06F40/289;G06N3/0442;G06N3/0895

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2022.04.05#实质审查的生效;2022.03.18#公开

摘要：本发明公开了一种基于自适应半监督的语义相似度计算方法，首先使用无标记数据集对无监督的语义相似度计算模型doc2vec进行训练，并使用该模型对无标记数据集进行伪标签的标记，得到伪标签标记数据集，将其整合至标记数据集，该数据集将用于监督模型SiameseLSTM模型的训练；随后将SiameseLSTM模型与doc2vec模型进行加权融合，使用自适应训练数据集对加权模型的进行训练，实现自适应权重的动态优化，从而构建出用于语义相似度计算的自适应半监督模型；最后使用该模型对数据对之间的语义相似度进行计算。本发明方法提升了文本相似度计算的准确率，保证了数据的可靠性。

主权项：1.一种基于自适应半监督的语义相似度计算方法，其特征在于，包括如下步骤：步骤1：使用大规模语料库的非标记数据训练无监督模型doc2vecx,y，用于对非标记数据的相似度进行检测；使用训练完成的无监督模型doc2vecx,y对非标记数据集中的非标记数据对x,y进行相似度检测：当doc2vecx,y相似度值大于相似度计算阈值α时，给该数据对打上语义重复数据伪标签并归入伪标签语义重复数据集，否则打上语义非重复数据伪标签，归入伪标签语义非重复数据集；最终将伪标签语义重复数据集和伪标签语义非重复数据集合并，得到标记数据集；步骤2：构建自适应半监督模型；步骤2-1：定义SiameseLSTM模型的基本参数；对标记数据集的数据进行分词处理；步骤2-2：使用分词后的标记数据集，对SiameseLSTM模型进行训练，训练完成得到用于相似度计算的SiameseLSTM模型；步骤2-3：再将训练完成的无监督模型doc2vecx,y与训练完成的SiameseLSTM模型进行加权融合，从大规模语义相似度数据集中随机抽取Num条数据整理为自适应数据训练集，使用该数据集对两个模型加权融合的权重参数进行自适应调节，构建出自适应半监督模型，用于语义相似度计算；步骤2-3-1：采用自适应目标函数学习权重，目标函数表示为式1：其中，Stotal表示相似度计算目标函数，θi表示平衡因子即权重值，Si表示语义相似度计算子任务，i表示第i个子任务；步骤2-3-2：通过自适应的动态调节对权重值θi进行调节，定义fwx,y为样本对x,y经过SiameseLSTM模型的输出，定义概率向量为：Pz|fwx,y＝softmaxfwx,y2其中，z表示输入至SiameseLSTM模型的样本对x,y的输出概率，softmax.表示归一化函数；概率向量的多目标似然定义如下：Pz1,...,zn|fwx,y＝Pz1|fwx,y...Pzn|fwx,y3其中，z1,...,zn表示多目标的输出，n表示输入的子任务数；步骤2-3-3：使用同方差不确定性作为在多任务学习问题中加权损失的基础，将同方差不确定性作为任务判别的不确定性指标，推导得到基于具有同方差不确定性的高斯似然最大化的多任务损失函数，作为多目标最小化的优化函数，该函数如式4所示：其中，l1w＝||z1-fwx,y||2表示第一个输出变量的损失函数，l2w＝||z2-fwx,y||2表示第二个输出变量的损失函数；和分别为损失函数权重因子，能够通过学习得到；步骤2-3-4：使用ContrastiveLoss函数，处理数据对匹配问题；设数据输入格式为x,y,z，ContrastiveLoss函数分为x和y语义相似z＝1,L+与x和y语义不相似z＝0,L-两种情况，ContrastiveLoss函数如下所示：LW＝zL+x,y+1-zL-x,y5其中： Sim表示语义相似度值；通过将ContrastiveLoss函数最小化，实现自适应数据训练集的权重调节，最终得到自适应半监督模型，用于语义相似度的计算；步骤3：使用自适应半监督模型对数据对的语义相似度进行检测；对于数据对x,y，SiameseLSTM模型的表征向量分别是Siax和Siay，再使用曼哈顿距离计算两个表征向量之间的相似度，因此SiameseLSTM模型计算得到x和y的相似度计算公式为： xi和yi表示第i个待计算数据对；对于数据对x,y，无监督模型doc2vecx,y表征向量分别为Dvx和Dvy，无监督模型doc2vecx,y对x和y使用余弦距离计算相似度，公式如下所示：将SimSiax,y和SimDocx,y代入式1，最终计算得数据语义相似度检测结果。

全文数据：

权利要求：

百度查询：西北工业大学一种基于自适应半监督的语义相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

下一篇：一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

相关技术

一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

交通工具用座椅倾斜装置_丰田纺织株式会社_202080082271.X

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

计算相关技术

计算处理器和计算方法_AMS有限公司_201980005600.8

热负荷计算装置_矢崎能源系统公司_202011292615.8

一种计算设备_超聚变数字技术有限公司_202211288997.6

一种计算板卡_深圳云朵数据科技有限公司_201910492846.4

计算设备的运行方法、装置、计算设备及存储介质_华为技术有限公司_202211289805.3

一种基于机器学习的计算方法和计算单元_阿里巴巴集团控股有限公司_201910816995.1

多计算机切换装置_锋厚科技股份有限公司_202321845368.9

温度估计装置、温度估计方法、计算机可读存储介质和计算机程序产品_索尼集团公司_201980071606.5

颜色映射方法、系统、计算机设备及计算机可读存储介质_佛山市青松科技股份有限公司_202211362820.6

将规范变换为计算机程序的方法、计算机系统和存储设备_起元技术有限责任公司_201880070092.7

监督相关技术

一种执法监督管理巡查设备_武汉铂亚晨科技有限公司_202322808118.4

基于主题信息增强的弱监督方面类别检测方法_昆明理工大学_202210652339.4

一种基于对偶学习和辅助信息的无监督气象降尺度方法_成都信息工程大学_202410189155.8

基于文字辅助的半监督3D医学图像分割方法_中国海洋大学_202410096489.0

基于无监督迁移学习的泵类机械设备轴承故障诊断方法_中国人民解放军92578部队_202111182225.X

一种面向铁轨图像的半监督异物检测方法_东南大学_202110785139.1

一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法_大连理工大学_202111362020.X

一种基于监督沉浸式智能监督学习系统用可调节环境式墙体_赛文(北京)教育科技有限公司_202322143259.9

基于远程监督关系抽取的肝癌信息标注系统_杭州电子科技大学_202311787038.3

对话式大语言模型监督训练评价系统_南京大经中医药信息技术有限公司_202410121885.4

相似相关技术

一种相似文本内容的识别方法、装置及存储介质_广州腾讯科技有限公司_201810595368.5

一种基于直方图相似度的扰动变形汉字图片匹配的方法_杭州电子科技大学_202011420541.1

一种锚杆相似材料的非线性力学性质测量方法_中国科学院武汉岩土力学研究所_202410081814.6

多相似目标的检测方法、系统、电子设备及介质_江苏一影医疗设备有限公司_202211254473.5

一种基于相似性度量的道路巡查结果去重方法_同济大学_202410071145.4

推送相似文章判定方法和装置、及存储介质和电子设备_盐城天眼察微科技有限公司_202210840564.0

基于大数据语义的相似事件检索方法、系统、设备和介质_中国电子科技集团公司第十五研究所_202410013690.8

一种个性化联邦场景下基于数据分布相似性的聚类方法_东北大学_202410292307.7

一种基于多特征相似度融合的红外和可见光图像匹配方法_安徽工业大学_202111074441.2

一种基于最小哈希和数据流的大规模相似文本聚类方法_电子科技大学长三角研究院(湖州)_202311646148.8

龙图腾网&IPTOP

【发明授权】一种基于自适应半监督的语义相似度计算方法_西北工业大学_202111382117.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务