买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于加权融合的Loc2vec模型的重复数据检测方法_西北工业大学_202110824753.4 

申请/专利权人:西北工业大学

申请日:2021-07-21

公开(公告)日:2024-04-05

公开(公告)号:CN113591474B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/30;G06F18/22;G06N3/04;G06N3/088

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2021.11.19#实质审查的生效;2021.11.02#公开

摘要:本发明公开了一种基于加权融合的Loc2vec模型的重复数据检测方法,首先,在数据处理层,将语料文件进行分词处理,将其用于Doc2vec模型的训练,同时对待检测的源数据进行分词处理,用于下一阶段的重复数据检测;随后在编码分析层,构建出训练后的Doc2vec模型,将该模型与LCS算法加权融合,得到用于核心字段重复性检测的加权相似度计算模型Loc2vec模型,使用Loc2vec模型对分词后的待检测数据进行相似度计算;最后,对数据相似度计算结果进行分析,相似度大于80%认定为重复数据,从而实现重复性数据项的检测。本发明使用大规模语料库对深度神经网络模型doc2vec进行无监督训练,可以充分使用语料库内的语义信息,大大减少了人工标记的工作量,提升了重复数据检测的效率与准确率。

主权项:1.一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,包括以下步骤:步骤1:数据处理阶段:对于待检测的源数据项和语料库,使用分词工具,进行分词处理,将处理后的语料库用于doc2vec基础模型训练,处理后的待检测源数据项用于下一阶段模型编码处理分析,同时对doc2vec基础模型进行参数设定,设定结果如表1所示;表1doc2vec基础模型参数 步骤2:编码分析阶段;将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析,处理的过程如下所示:步骤2-1:定义源数据集为d{d1,d2...dn};步骤2-2:使用doc2vec模型对源数据集进行训练,得到文本向量集为v{vd1,vd2...vdn};步骤2-3:采用余弦相似度计算公式,计算两个文本向量之间的语义相似度simDoc,计算公式如式2: 步骤2-4:使用LCS算法对源数据集内数据项之间的最长公共子序列算法相似度进行检测,如式2: 其中,simLCS表示LSC算法计算出的文本相似度,lend1表示待检测字符串的长度,LCSd1,d2表示两个字符串的最长公共子序列长度;步骤2-4:将式1和式2进行加权融合,得到加权相似度计算模型,如式3,根据式3来计算数据项之间的相似度值的大小;simLoc2vecX,Y=α·simLCS+1-α·simDoc3其中α∈[0,1],X、Y分别为待检测的两条数据;步骤3:重复数据判别阶段:使用Loc2vec模型对待检测源数据项的相似度进行计算,对于数据项之间相似度大于F%的数据项认定其为重复数据,最终获取得到重复数据集合。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。