【发明授权】一种企业信用评分样本标注方法及装置_天元大数据信用管理有限公司_202210069986.2

导航：龙图腾网> 最新专利技术> 一种企业信用评分样本标注方法及装置_天元大数据信用管理有限公司_202210069986.2

申请/专利权人：天元大数据信用管理有限公司

申请日：2022-01-21

公开（公告）日：2024-04-16

公开（公告）号：CN114462516B

主分类号：G06Q40/03

分类号：G06Q40/03;G06F18/23213

优先权：

专利状态码：有效-授权

法律状态：2024.04.16#授权;2022.05.27#实质审查的生效;2022.05.10#公开

摘要：本发明涉及金融信贷技术领域，具体提供了一种企业信用评分样本标注方法，具有以下步骤：S1、多源异构数据分析融合建立标准数据库；S2、构建进行信用评分的指标体系；S3、指标数据的预处理；S4、计算最优聚类中心。与现有技术相比，本发明在构建信用评分模型的好坏标签时，首先基于具有明确好坏含义的指标为部分样本标注标签，然后基于kmeans聚类的结果，为其他未标注样本打标签；该方法很大程度上节约了人力成本以及人工标注的时间。

主权项：1.一种企业信用评分样本标注方法，其特征在于，具有以下步骤：S1、多源异构数据分析融合建立标准数据库；基于用户汇聚的多源数据，通过数据之间融合比对，不同原始字段对齐，对多源异构数据分析融合建立形成企业标准数据库；S2、构建进行信用评分的指标体系；基于建立的企业标准数据库建设用于信用评分的指标体系，构建指标的数据来源官方数据、互联网数据、第三方数据、入库存量数据、API接口数据、结构化的基本信息和半结构化的数据；S3、指标数据的预处理；通过无效值处理、同值统计和缺失值统计完成指标数据的预处理工作；所述无效值处理是去除无关信息；所述同值统计处理是对只含同值的字段、同值率高于80％的字段进行去除；缺失值统计处理对全部缺失、字段缺失率高于80％的字段进行去除；S4、计算最优聚类中心；进一步的包括：S401、对指标进行特征工程；首先对入模指标中的无效值进行处理，对部分可量化指标进行数值量化；然后对入模指标进行缺失值统计，去除缺失值大于80％的训练指标；针对剩余指标进行同值率的统计，去除属性只有一个值的特征，去除属性同值率大于80％的指标；S402、筛选具有明确含义的指标并标注部分样本；根据最近一段时间是否有明确好坏含义的指标标注部分样本；S403、kmeans聚类需求最优聚类中心；进一步的包括：1初始化中心点在无标签的样本中随机挑选两个样本作为初始的聚类中心；2需求最优聚类中心a.计算每个样本点与这个两个个簇中心的相似度大小，并将该样本点划分到与之相似度最大的簇中心所对应的簇中；b.根据现有的簇中样本，重新计算每个簇的簇中心；c.循环迭代步骤a和步骤b，直到目标函数收敛，即簇中心不再发生变化；3计簇中心算过程a.设X＝{X1,X2,…,X_n}为一个含有n个样本的数据集，其中第i个数据对象表示为X_i＝{x_i1,x_i2,…,x_im}，m为数据对象特征的数目，数据对象分配矩阵U是一个n*k的0-1矩阵里面只有0和1,u_ip表示第i个样本被分到第p个簇中，Z＝Z1,Z2,…,Z_k为k个簇中心向量，其中Z_p＝{z_p1,z_p2,…,z_pm}为第p个簇中心，则Kmeans聚类算法的目标函数可以写为：并且服从于约束条件： 4聚类完成后，对含有标签的样本进行验证验，如果测试结果误差在合理范围内，那么可用于后续标注，否则，重新选择初始簇中心，优化迭代聚类结果；S404、标注无标签样本；若聚类结果符合要求后，那么通过聚类结果对未标注的样本进行标注；S405、信用评分模型训练；对所有的样本标注相应的标签，进行信用评分模型的训练，1相关性分析、共线性分析，去除指标之间相关性，共线性过高的指标；2xgboost指标重要性分析，筛选出对模型起关键作用的指标；3对指标进行分布检验并做转换；4基于逻辑回归训练模型；5评分卡转换。

全文数据：

权利要求：

百度查询：天元大数据信用管理有限公司一种企业信用评分样本标注方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种金属加工用表面涂装设备_江苏鲸工智能装备制造有限公司_202322502246.6

下一篇：一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

相关技术

一种金属加工用表面涂装设备_江苏鲸工智能装备制造有限公司_202322502246.6

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

再生废液处理系统_山东荣信集团有限公司_202322260404.1

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种园林绿化便携铲_马丽丽_202322375183.2

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

评分相关技术

一种急性淋巴细胞白血病预后评分系统_中国人民解放军陆军军医大学第二附属医院_202311640540.1

ASR和NLU联合训练的电话客服质量评分方法及系统_广州探迹科技有限公司_202010884877.7

一种肠道微生物健康评分的构建方法和构建系统_深圳零一生命科技有限责任公司_202211728916.X

一种游戏化VOD评分系统及方法_成都音悦创想科技有限公司_202011405575.3

一种企业信用评分样本标注方法及装置_天元大数据信用管理有限公司_202210069986.2

一种基于图像识别的无人机自动评分系统及方法_广东电网有限责任公司湛江供电局_202011401276.2

口语评分模型的训练方法、口语评分方法以及相关设备_科大讯飞股份有限公司_202311745175.0

用户画像评分模型训练方法、用户画像评分方法及装置_中移雄安信息通信科技有限公司_202311853283.X

试题难度评分模型的训练方法、试题难度评分方法及装置_科大讯飞股份有限公司_202311872722.1

用于区块链的信用评分方法、交易方法以及相关装置_中国工商银行股份有限公司_202010470565.1

标注相关技术

基于多层标注策略的跨境民族文化实体关系抽取方法及装置_昆明理工大学_202210733201.7

一种视频数据集标注方法及装置_中国科学院深圳先进技术研究院_202110505869.1

标注医学切片图像的方法、装置、存储介质及电子设备_沈阳东软智能医疗科技研究院有限公司_202110739373.0

融合试题数据和解答数据的多知识点标注方法和系统_华中师范大学_202011282980.0

一种基于检测指导的骨科病灶计数网络的标注方法及系统_华中科技大学_202110627185.9

一种电梯图像标注方法、装置、计算机设备及存储介质_深圳市优必选科技股份有限公司_201911416837.3

图像标注方法和装置_北京沃东天骏信息技术有限公司_202010390224.3

图像标注方法、装置、电子设备及存储介质_上海商汤智能科技有限公司_202010611570.X

点云标注数据优选方法及系统_浙江华是科技股份有限公司_202410297172.3

基于大语言模型的迭代式数据标注方法_中国科学技术大学_202410079191.9

样本相关技术

一种采集蜱虫样本的采集管_新疆畜牧科学院兽医研究所(新疆畜牧科学院动物临床医学研究中心)_202322726868.7

一种方便使用生殖样本取出组件_华中科技大学同济医学院附属协和医院_202322575048.2

一种新鲜肿瘤组织样本恒温保存装置_杭州铂赛生物科技有限公司_202322416116.0

训练样本处理方法、跨模态匹配方法、装置、设备和介质_北京百度网讯科技有限公司_202211668247.1

一种流水线分析系统及样本转接系统_基蛋生物科技股份有限公司_202322354979.X

样本构建方法、代码生成方法、电子设备及存储介质_阿里云计算有限公司_202410033070.0

基于深度编码网络的SAR目标识别对抗样本生成方法_中山大学_202110483002.0

基于人工智能的样本增广方法、装置及电子设备_腾讯科技(深圳)有限公司_202410076172.0

一种训练数据集独立的单样本图像分割方法和系统_华南理工大学_202111253132.1

基于改进TimeGan模型的小样本数据故障诊断方法_西安理工大学_202110950739.9

龙图腾网&IPTOP

【发明授权】一种企业信用评分样本标注方法及装置_天元大数据信用管理有限公司_202210069986.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务