买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种企业信用评分样本标注方法及装置_天元大数据信用管理有限公司_202210069986.2 

申请/专利权人:天元大数据信用管理有限公司

申请日:2022-01-21

公开(公告)日:2024-04-16

公开(公告)号:CN114462516B

主分类号:G06Q40/03

分类号:G06Q40/03;G06F18/23213

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.05.27#实质审查的生效;2022.05.10#公开

摘要:本发明涉及金融信贷技术领域,具体提供了一种企业信用评分样本标注方法,具有以下步骤:S1、多源异构数据分析融合建立标准数据库;S2、构建进行信用评分的指标体系;S3、指标数据的预处理;S4、计算最优聚类中心。与现有技术相比,本发明在构建信用评分模型的好坏标签时,首先基于具有明确好坏含义的指标为部分样本标注标签,然后基于kmeans聚类的结果,为其他未标注样本打标签;该方法很大程度上节约了人力成本以及人工标注的时间。

主权项:1.一种企业信用评分样本标注方法,其特征在于,具有以下步骤:S1、多源异构数据分析融合建立标准数据库;基于用户汇聚的多源数据,通过数据之间融合比对,不同原始字段对齐,对多源异构数据分析融合建立形成企业标准数据库;S2、构建进行信用评分的指标体系;基于建立的企业标准数据库建设用于信用评分的指标体系,构建指标的数据来源官方数据、互联网数据、第三方数据、入库存量数据、API接口数据、结构化的基本信息和半结构化的数据;S3、指标数据的预处理;通过无效值处理、同值统计和缺失值统计完成指标数据的预处理工作;所述无效值处理是去除无关信息;所述同值统计处理是对只含同值的字段、同值率高于80%的字段进行去除;缺失值统计处理对全部缺失、字段缺失率高于80%的字段进行去除;S4、计算最优聚类中心;进一步的包括:S401、对指标进行特征工程;首先对入模指标中的无效值进行处理,对部分可量化指标进行数值量化;然后对入模指标进行缺失值统计,去除缺失值大于80%的训练指标;针对剩余指标进行同值率的统计,去除属性只有一个值的特征,去除属性同值率大于80%的指标;S402、筛选具有明确含义的指标并标注部分样本;根据最近一段时间是否有明确好坏含义的指标标注部分样本;S403、kmeans聚类需求最优聚类中心;进一步的包括:1初始化中心点在无标签的样本中随机挑选两个样本作为初始的聚类中心;2需求最优聚类中心a.计算每个样本点与这个两个个簇中心的相似度大小,并将该样本点划分到与之相似度最大的簇中心所对应的簇中;b.根据现有的簇中样本,重新计算每个簇的簇中心;c.循环迭代步骤a和步骤b,直到目标函数收敛,即簇中心不再发生变化;3计簇中心算过程a.设X={X1,X2,…,X_n}为一个含有n个样本的数据集,其中第i个数据对象表示为X_i={x_i1,x_i2,…,x_im},m为数据对象特征的数目,数据对象分配矩阵U是一个n*k的0-1矩阵里面只有0和1,u_ip表示第i个样本被分到第p个簇中,Z=Z1,Z2,…,Z_k为k个簇中心向量,其中Z_p={z_p1,z_p2,…,z_pm}为第p个簇中心,则Kmeans聚类算法的目标函数可以写为: 并且服从于约束条件: 4聚类完成后,对含有标签的样本进行验证验,如果测试结果误差在合理范围内,那么可用于后续标注,否则,重新选择初始簇中心,优化迭代聚类结果;S404、标注无标签样本;若聚类结果符合要求后,那么通过聚类结果对未标注的样本进行标注;S405、信用评分模型训练;对所有的样本标注相应的标签,进行信用评分模型的训练,1相关性分析、共线性分析,去除指标之间相关性,共线性过高的指标;2xgboost指标重要性分析,筛选出对模型起关键作用的指标;3对指标进行分布检验并做转换;4基于逻辑回归训练模型;5评分卡转换。

全文数据:

权利要求:

百度查询: 天元大数据信用管理有限公司 一种企业信用评分样本标注方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。