买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】数据清洗系统和方法_北京嘀嘀无限科技发展有限公司_201880001364.8 

申请/专利权人:北京嘀嘀无限科技发展有限公司

申请日:2018-06-06

公开(公告)日:2020-09-18

公开(公告)号:CN110809768B

主分类号:G06K9/00(20060101)

分类号:G06K9/00(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.09.18#授权;2020.03.13#实质审查的生效;2020.02.18#公开

摘要:本申请提供一种数据清洗系统,所述系统可以确定多组图像数据中的多个第一组图像数据;基于所述多个第一组图像数据获得第一识别模型;以及基于所述第一识别模型对所述多个第一组图像数据进行分类以生成第一分类结果,其中所述多个第一组图像数据可以被分为合格数据集和不合格数据集。所述系统还可以获得具有第二精度阈值的初始第二识别模型并执行一次或多次迭代。在每一次迭代中,所述系统可以对所述不合格数据集进行分类以生成第二分类结果;基于所述第二分类结果更新所述合格数据集和不合格数据集;以及基于所述更新后的合格数据集更新所述第二识别模型。所述系统还可以进一步基于所述更新后的合格数据集确定清洗后数据集。

主权项:1.一种数据清洗系统,所述系统用于与数据提供系统和服务提供系统交互,包括:数据交换端口,用于接收来自所述数据提供系统的一个或多个数据集以及来自服务提供系统的一个或多个识别模型;数据发送端口,连接至所述数据提供系统和所述服务提供系统,所述服务提供系统用于内容识别;一个或多个存储装置,包括用于数据清洗的一组或多组指令;一个或多个处理器,所述一个或多个处理器与所述数据交换端口、数据传输端口以及一个或多个存储装置通信,其特征在于,当执行一个或多个指令集时,所述一个或多个处理器:从所述数据提供系统获取数据清洗请求和数据集,所述数据集包括多组图像数据;响应于所述数据提供系统的数据清洗请求:确定所述多组图像数据中的多个第一组图像数据,所述多个第一组图像数据中的每一组图像数据与第一主体的特征相关;基于所述多个第一组图像数据获得具有第一精度阈值的第一识别模型;基于所述第一识别模型对所述多个第一组图像数据进行分类以生成第一分类结果,其中所述多个第一组图像数据中的每一组图像数据被分为第一部分和或第二部分,所述第一部分中的图像数据以大于所述第一精度阈值的第一概率对应所述第一主体,所述第二部分中的图像数据以低于所述第一精度阈值的第二概率对应所述第一主体,所述多个第一组图像数据的多个第一部分构成合格数据集,所述多个第一组的多个第二部分构成不合格数据集;基于所述合格数据集中的图像数据获得具有第二精度阈值的初始第二识别模型;在一次或多次迭代中的每一次迭代中,基于第二识别模型对所述不合格数据集进行分类以生成第二分类结果,所述第二分类结果包括识别所述多个第一组的多个第二部分的部分图像数据,并将所述部分图像数据合并入到所述合格数据集,所述第二识别模型包括所述初始第二识别模型或在前一迭代中确定的更新后第二识别模型;基于所述第二分类结果来更新所述合格数据集和不合格数据集;以及基于所述更新后的合格数据集更新所述第二识别模型;以及基于所述更新后的合格数据集或更新后的第二识别模型确定要提供给数据提供系统的清洗后数据集。

全文数据:

权利要求:

百度查询: 北京嘀嘀无限科技发展有限公司 数据清洗系统和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。