申请/专利权人:北京嘀嘀无限科技发展有限公司
申请日:2018-12-18
公开(公告)日:2020-06-26
公开(公告)号:CN111340054A
主分类号:G06K9/62(20060101)
分类号:G06K9/62(20060101)
优先权:
专利状态码:在审-实质审查的生效
法律状态:2020.07.21#实质审查的生效;2020.06.26#公开
摘要:本申请提供一种数据标注方法、装置及数据处理设备,该方法包括:对分类模型执行至少一次迭代处理,以使该分类模型的准确度符合预设条件;再利用得到的分类模型对多条待标注数据中的至少一部分进行处理,得到自动标注结果。其中,每次迭代处理包括:将多条待标注数据中除目标数据集外的其他待标注数据分别输入分类模型,获得分类结果;从该其他待标注数据中选择分类结果的置信度处于预设范围的至少部分待标注数据添加到目标数据集中;根据目标数据集中的待标注数据的人工标注结果训练分类模块。如此,可以在提高数据标注质量的情况下,实现批量数据的自动标注。
主权项:1.一种数据标注方法,其特征在于,所述方法包括:对预设的分类模型进行至少一次迭代处理,以使所述分类模型的准确度符合预设条件,得到训练完成的分类模型;采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理,得到自动标注结果;其中,每次所述迭代处理包括:将所述多条待标注数据中除一目标数据集之外的其他待标注数据分别输入所述分类模型,获得所述其他待标注数据各自的分类结果;根据分类结果的置信度,从所述其他待标注数据中选择置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中;根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型。
全文数据:
权利要求:
百度查询: 北京嘀嘀无限科技发展有限公司 数据标注方法、装置及数据处理设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。