买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】线下导入数据的质量检测方法和装置_北京京东振世信息技术有限公司_202010209979.9 

申请/专利权人:北京京东振世信息技术有限公司

申请日:2020-03-23

公开(公告)日:2024-04-12

公开(公告)号:CN113434490B

主分类号:G06F16/215

分类号:G06F16/215;G06F21/64

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.12.10#实质审查的生效;2021.09.24#公开

摘要:本发明公开了一种线下导入数据的质量检测方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取线下产生的待检测数据,待检测数据包括字段及对应的字段值;对第一字段及对应的字段值进行完整性检测,以得到完整率;将完整性检测后的数据进行有效性修复后,对第二字段及对应的字段值进行有效性检测,以得到有效率;有效性检测后,分别对第三字段及对应的字段值进行精确性检测和对第四字段及对应的字段值进行唯一性检测,以得到精确率和唯一率;根据完整率、有效率、精确率和唯一率,计算待检测数据的质量得分。该实施方式能够结合线下数据的特点,选择合适的数据质量检测指标,满足线下导入数据的质量检测的需要。

主权项:1.一种线下导入数据的质量检测方法,其特征在于,包括:获取线下产生的待检测数据,所述待检测数据包括字段及对应的字段值;对第一字段及对应的字段值进行完整性检测,以得到所述待检测数据的完整率;其中,所述完整性检测包括对第一字段中的任意一个字段,统计其中字段值不为空的数据条数占总记录条数的比例,并将第一字段中包括的所有字段对应的比例取平均值,得到待检测数据对应的完整率;将完整性检测后的数据进行有效性修复后,对第二字段及对应的字段值进行有效性检测,以得到所述待检测数据的有效率;其中,所述有效性检测包括对第二字段中的任意一个字段,统计其中满足检测规则要求的数据条数占总记录条数的百分比,并将第二字段中包括的所有字段对应的百分比取平均值,得到待检测数据对应的有效率;有效性检测后,分别对第三字段及对应的字段值进行精确性检测和对第四字段及对应的字段值进行唯一性检测,以得到所述待检测数据的精确率和唯一率;其中,若所述第三字段为维度字段,则精确性检测包括:对每个进行精确性检测的维度字段,分别计算所述维度字段的每个字段值与对应的指定维度字段的字段值之间的相似度;统计相似度小于设定相似度阈值的字段值数量在所述维度字段的字段值数量中所占的第一比例;将所有维度字段对应的第一比例的平均值作为维度精确度,以进行精确性检测;若所述第三字段为事实字段,则精确性检测包括:对每个进行精确性检测的事实字段,统计所述事实字段的字段值中满足设定精度阈值的字段值数量在所述事实字段的字段值数量中所占的第二比例;将所有事实字段对应的第二比例的平均值作为事实精确度,以进行精确性检测;若所述第三字段中既包括维度字段又包括事实字段,则精确性检测包括:分别计算维度字段所对应的维度精确度和事实字段所对应的事实精确度;分别根据维度字段所对应的字段值数量和事实字段所对应的字段值数量在所述第三字段对应的字段值数量中所占的比例,对所述维度精确度和所述事实精确度进行加权平均得到所述待检测数据的精确度,以进行精确性检测;所述唯一性检测包括:将每行数据包括的所述第四字段对应的所有字段值进行拼接后作为检索主键;若根据所述检索主键可以确定多行数据,则统计重复行数量;根据所有检索主键对应的重复行数量之和与所述待检测数据的行数量计算所述待检测数据的唯一率以进行唯一性检测;根据所述待检测数据的完整率、有效率、精确率和唯一率,计算所述待检测数据的质量得分。

全文数据:

权利要求:

百度查询: 北京京东振世信息技术有限公司 线下导入数据的质量检测方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。