申请/专利权人:北京明略软件系统有限公司
申请日:2020-02-25
公开(公告)日:2024-04-26
公开(公告)号:CN111274821B
主分类号:G06F40/295
分类号:G06F40/295
优先权:
专利状态码:有效-授权
法律状态:2024.04.26#授权;2020.07.07#实质审查的生效;2020.06.12#公开
摘要:一种命名实体识别数据标注质量评估方法、装置和计算机可读存储介质,其中,所述方法包括:参照监督标注数据集,对待评估标注数据集进行多维度质量评分;其中,所述多维度包括标注完整性、标注准确性和标注有效性;针对每个维度内的得分进行修正;对修正后的得分进行汇总,确定标注质量。本申请实施例可以自动实现数据标注质量评估,降低了人力资源成本,通过多维度评估,结果准确、可靠。
主权项:1.一种命名实体识别数据标注质量评估方法,其特征在于,包括:参照监督标注数据集,对待评估标注数据集进行多维度质量评分;其中,所述多维度包括标注完整性、标注准确性和标注有效性;针对每个维度内的得分进行修正;对修正后的得分进行汇总,确定标注质量;其中,针对标注完整性,所述参照监督标注数据集,对待评估标注数据集进行多维度质量评分,包括:根据所述监督标注数据集中每个样本的实体个数,确定所述监督标注数据集的实体数概率分布函数;根据所述待评估标注数据集中每个样本的实体个数,确定所述待评估标注数据集的实体数概率分布函数;确定所述监督标注数据集的实体数概率分布函数与所述待评估标注数据集的实体数概率分布函数之间的KL距离或交叉熵;针对标注准确性,所述参照监督标注数据集,对待评估标注数据集进行多维度质量评分,包括:根据所述监督标注数据集中每个样本的实体长度,确定所述监督标注数据集的实体长度概率分布函数;根据所述待评估标注数据集中每个样本的实体长度,确定所述待评估标注数据集的实体长度概率分布函数;确定所述监督标注数据集的实体长度概率分布函数与所述待评估标注数据集的实体长度概率分布函数之间的KL距离或交叉熵;针对标注有效性,所述参照监督标注数据集,对待评估标注数据集进行多维度质量评分,包括:根据所述监督标注数据集中每个样本的实体类型,确定所述监督标注数据集的实体类型概率分布函数;根据所述待评估标注数据集中每个样本的实体类型,确定所述待评估标注数据集的实体类型概率分布函数;确定所述监督标注数据集的实体类型概率分布函数与所述待评估标注数据集的实体类型概率分布函数之间的KL距离或交叉熵。
全文数据:
权利要求:
百度查询: 北京明略软件系统有限公司 一种命名实体识别数据标注质量评估方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。