申请/专利权人:支付宝(杭州)信息技术有限公司
申请日:2020-04-17
公开(公告)日:2023-10-20
公开(公告)号:CN111506731B
主分类号:G06F16/35
分类号:G06F16/35;G06F18/24;G06F18/22;G06F18/214;G06N20/00
优先权:
专利状态码:有效-授权
法律状态:2023.10.20#授权;2020.09.01#实质审查的生效;2020.08.07#公开
摘要:公开了一种训练字段分类模型的方法、装置及设备。采用机器学习的方法,训练字段分类模型以便实现对字段进行分类,然后基于字段的字段类型来自动匹配监控规则。其中,可以考虑以下维度中的至少一个来为字段确定特征向量:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型。
主权项:1.一种训练字段分类模型的方法,确定字段类型集合,所述字段类型集合包括日期类型、枚举类型、标识类型、金额类型、非金额类型、大字段类型,所述方法包括:指定若干业务基线;针对指定的每个业务基线,获取该业务基线的计算链路上每个计算节点输出的数据表,作为该业务基线对应的数据表;针对各业务基线对应的数据表中的每个数据表,根据每个业务等级的业务基线的数量、每个等级的业务基线中关联于该数据表的业务基线的数量、该数据表的热度表征值、最高热度表征值、与该数据表有血缘关系的链路下游数据表的数量、最高下游数量,计算该数据表的重要度;将重要度大于指定阈值的数据表作为重要数据表;其中,该数据表的重要度与每个业务等级的业务基线的数量负相关,与最高热度表征值负相关,与最高下游数量负相关,与每个等级的业务基线中关联于该数据表的业务基线的数量正相关,与该数据表的热度表征值正相关,与该数据表有血缘关系的链路下游数据表的数量正相关;该数据表的热度表征值与输出该数据表的计算节点的数量正相关,所述最高热度表征值是各业务基线对应的数据表的热度表征值的最大值,所述最高下游数量是与各业务基线对应的每个数据表有血缘关系的链路下游数据表的数量的最大值;将所述多个重要数据表的每个字段作为字段样本添加到字段样本集合;针对所述字段样本集合中的每个字段样本,从所述字段类型集合中确定对应于该字段样本的字段类型,并基于该字段样本的N个指定维度的特征确定该字段样本的特征向量;其中,所述N个指定维度为以下至少一个:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型;基于所述字段样本集合,训练字段分类模型;其中,以字段样本的特征向量为模型输入,以字段样本对应的字段类型为模型输出。
全文数据:
权利要求:
百度查询: 支付宝(杭州)信息技术有限公司 一种训练字段分类模型的方法、装置及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。