【发明授权】一种基于加权融合的Loc2vec模型的重复数据检测方法_西北工业大学_202110824753.4

导航：龙图腾网> 最新专利技术> 一种基于加权融合的Loc2vec模型的重复数据检测方法_西北工业大学_202110824753.4

申请/专利权人：西北工业大学

申请日：2021-07-21

公开（公告）日：2024-04-05

公开（公告）号：CN113591474B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/30;G06F18/22;G06N3/04;G06N3/088

优先权：

专利状态码：有效-授权

法律状态：2024.04.05#授权;2021.11.19#实质审查的生效;2021.11.02#公开

摘要：本发明公开了一种基于加权融合的Loc2vec模型的重复数据检测方法，首先，在数据处理层，将语料文件进行分词处理，将其用于Doc2vec模型的训练，同时对待检测的源数据进行分词处理，用于下一阶段的重复数据检测；随后在编码分析层，构建出训练后的Doc2vec模型，将该模型与LCS算法加权融合，得到用于核心字段重复性检测的加权相似度计算模型Loc2vec模型，使用Loc2vec模型对分词后的待检测数据进行相似度计算；最后，对数据相似度计算结果进行分析，相似度大于80％认定为重复数据，从而实现重复性数据项的检测。本发明使用大规模语料库对深度神经网络模型doc2vec进行无监督训练，可以充分使用语料库内的语义信息，大大减少了人工标记的工作量，提升了重复数据检测的效率与准确率。

主权项：1.一种基于加权融合的Loc2vec模型的重复数据检测方法，其特征在于，包括以下步骤：步骤1：数据处理阶段：对于待检测的源数据项和语料库，使用分词工具，进行分词处理，将处理后的语料库用于doc2vec基础模型训练，处理后的待检测源数据项用于下一阶段模型编码处理分析，同时对doc2vec基础模型进行参数设定，设定结果如表1所示；表1doc2vec基础模型参数步骤2：编码分析阶段；将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析，处理的过程如下所示：步骤2-1：定义源数据集为d{d1，d2...dn}；步骤2-2：使用doc2vec模型对源数据集进行训练，得到文本向量集为v{vd1，vd2...vdn}；步骤2-3：采用余弦相似度计算公式，计算两个文本向量之间的语义相似度simDoc，计算公式如式2：步骤2-4：使用LCS算法对源数据集内数据项之间的最长公共子序列算法相似度进行检测，如式2：其中，simLCS表示LSC算法计算出的文本相似度，lend1表示待检测字符串的长度，LCSd1，d2表示两个字符串的最长公共子序列长度；步骤2-4：将式1和式2进行加权融合，得到加权相似度计算模型，如式3，根据式3来计算数据项之间的相似度值的大小；simLoc2vecX，Y＝α·simLCS+1-α·simDoc3其中α∈[0，1]，X、Y分别为待检测的两条数据；步骤3：重复数据判别阶段：使用Loc2vec模型对待检测源数据项的相似度进行计算，对于数据项之间相似度大于F％的数据项认定其为重复数据，最终获取得到重复数据集合。

全文数据：

权利要求：

百度查询：西北工业大学一种基于加权融合的Loc2vec模型的重复数据检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：消息的发送方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202210060996.X

下一篇：移动式组合盐水分离系统_大连盐化集团有限公司_202111204431.6

相关技术

消息的发送方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202210060996.X

移动式组合盐水分离系统_大连盐化集团有限公司_202111204431.6

一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

泌尿道菌群检测在女性泌尿道结石诊断中的应用_广东省科学院微生物研究所(广东省微生物分析检测中心)_202111500822.2

一种对文言文中缺失文字的补全方法_丁杨_202311025114.7

一种基于数字孪生的加工过程自适应控制方法_东华大学_202111238057.1

光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

一种直径与中继协作的信号空间分集传输方法_山东交通学院_202110011021.3

一种基于准零刚度原理的空气悬架及其结构设计与优化方法_江苏大学_202111438418.7

一种即时检验抗凝药物监测系统_北京倍肯恒业科技发展股份有限公司_202310581047.0

车载电动轮椅装载装置_洛阳和合电子科技有限公司_202111539605.4

一种基于水蓼的富磷生物炭及其制备方法与应用_四川农业大学_202211532429.6

龙图腾网&IPTOP

【发明授权】一种基于加权融合的Loc2vec模型的重复数据检测方法_西北工业大学_202110824753.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务