【发明公布】基于知识图谱和机器学习算法挖掘银行潜在授信客户方法_北京海致星图科技有限公司_201910525458.1

申请/专利权人：北京海致星图科技有限公司

申请日：2019-06-18

公开（公告）日：2019-11-15

公开（公告）号：CN110458592A

主分类号：G06Q30/02(20120101)

分类号：G06Q30/02(20120101);G06Q40/02(20120101)

优先权：

专利状态码：有效-授权

法律状态：2023.04.07#授权;2020.06.30#实质审查的生效;2019.11.15#公开

摘要：本发明提供了基于知识图谱和机器学习算法挖掘银行潜在授信客户方法，包括如下步骤：1、样本采集阶段；2、数据预处理阶段；3、模型训练阶段。本发明的优点在于：运用高效的XGBoost集成分类器训练潜在授信客户预测模型，挖掘出具有营销更高成功率的潜在授信客户，实现对客户进行精准营销；该发明的广泛应用和推广，将给予业务人员提供更加营销价值的授信客户，提高了一线业务人员的工作效率，为银行开展授信业务有着重大的意义和应用价值；首次将基于图谱提取特征的方式应用到潜在授信客户挖掘，从而推广了知识图谱的应用范围，更进一步地促进知识图谱的发展；对处理样本不均匀问题的解决具有良好效果。

主权项：1.基于知识图谱和机器学习算法挖掘银行潜在授信客户方法，其特征在于，包括如下步骤：1、样本采集阶段以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、密切票据交易关系、以及密切受托支付关系构建企业知识图谱GE，V，顶点和各种边的属性分别为如下：顶点属性：名称、是否行内客户；控股关系边属性：持股金额、持股比例、开始时间、结束时间；实际控制人关系边属性：开始时间、结束时间；一致行动人边属性：开始时间、结束时间；密切资金往来关系边属性：转账金额、转账时间；密切票据交易关系边属性：票据金额、出票时间；密切受托支付关系边属性：支付金额、支付时间；根据节点一度邻居的关系构建特征，对于每一种关系，聚合邻居为银行存量以下简称为“行内”客户的节点信息作为当前节点在该关系维度下的特征，其中各种关系构建的特征如下：控股关系：行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自然人客户股东平均持股比例，共10个特征；实际控制人关系：实际控制行内企业数量，共1个特征；一致行动人：与行内企业具有一致行动关系的客户数量，共1个特征；密切资金往来关系：资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自然人客户平均出账笔数，共20个特征；密切票据交易关系：出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、平均票据金额，共5个特征；密切受托支付关系：受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收款金额、平均收款笔数，共5个特征；实体属性：是否为行内客户，共1个特征；上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲密程度，从直观上来看，一个非授信客户如果和行内客户的关系越密切，则该客户就更有可能是潜在的授信客户，这里关系型泛化延伸出来的特征和当前节点自身的特征总共43个；在选定特征之后，接下来构建样本集，由于本发明的目的是根据该企业的历史行为或者图谱关系特征进行预测客户是否是潜在客户，而判断一个企业是否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户，如果该企业在未来一段时间内能够成功授信，则说明该企业是潜在授信客户，否则为非潜在授信客户，因此对于每一个样本企业来说，分别定义观察期和表现期，其中观察期是企业过去历史图谱关联关系的特征，如控股、资金往来等表现情况，观察期取值时长为6个月；表现期指的是客户经过观察期之后，考察是否发生了授信行为即是否首次授信的时间段，表现期时长取值3个月；具体采样步骤如下：步骤1：选取近两年的企业关系图谱数据和信贷系统授信情况数据，按照月为单位对数据按时间轴进行切面，选取划分时点为每月1日，分别划分为24个月的截面数据；步骤2：对知识图谱中的每个企业A，在第7个月至第21个月，每月采样一次，特征值的计算方式如下：求和类型特征：企业A的所有行内邻居节点之间对应关系属性值之和；平均类型特征：企业A的所有行内邻居节点之间对应关系属性值平均值；最大值类型特征：企业A的所有行内邻居节点之间对应关系属性值最大值；是否行内客户特征：直接根据当前企业A的是否行内企业，如是取值1否则取值0；步骤3：对所有知识图谱中所有节点企业均按照步骤2进行采样，于是得到所有企业在不同时间点上对应43个特征值，以及对应的样本标签；按照上述步骤进行采样，过滤掉所有特征值均为0的样本，最终得到正样本3866个，负样本4147952个；2、数据预处理阶段样本采样过程中得到的正负样本比例比较悬殊，正样本和负样本的比例是1∶1072，正负样本不均衡会导致模型对比例大的样本造成过拟合，即预测偏向样本数较多的分类，尽管模型的准确率很高，但是范化能力很差，为了平衡正负样本对模型训练的影响，本发明分别使用smote对正样本进行过采样和PU-Learning对负样本进行下采样；smote算法是基于类似“插值”来为少数类合成新的样本，对少数类中每个样本求其k-近邻，通过k-近邻与当前样本生成新样本，由于特征中涉及到0-1特征，该特征不能直接通过原有值基础上加上微小随机扰动来产生新值，所以smote算法并不能直接使用，本发明对smote算法进行改进，将分类型特征单独处理，改进的smote算法如下：输入：样本集A，，最近邻个数K，扩充倍数N；输出：扩充后的新样本；初始化B＝A；取A中样本i，对应的特征向量为πi＝πi1，πi2，...，πim，计算样本i与样本集B中所有样本关于特征向量的欧式距离，即距离计算公式为：选择距离距离值最小的的K个值{d1，d2，...，dK}；从距离集合{d1，d2，...，dK}中随机选择一个数据dk，再生成随机数合成新样本n，其特征：πn＝πn1，πn2，...，πnm，其中 R＝R∪{i，n}；重复4-5步骤N次，A＝A\{i}；如果返回2，否则返回集合R并退出；PU-Learning技术是在给定正样本和无标签样本的情况下，通过使用正样本P和无标签样本U建立一个分类器能够辨别U或测试集中的正样本，本发明中采样到的负样本当中，由于受限于数据完备性，在样本构建时把没有进行任何营销的未授信企业都当做负样本，因此这样构建得到的负样本是掺杂有部分正样本，也就是说得到的负样本是不纯的，这主要是因为在采样过程中只要没有授信的客户都把它当成了负样本，事实上有部分未授信的客户是从来没有提过申请或者没有做过营销，并不知道其是否真的不能授信，因此本发明把采样得到的负样本当做未标注样本，通过基于XGBoost分类模型PU-Learning技术将负样本进行提纯，使得负样本更加可靠。其算法过程为：先用正样本positive与未标注样本或者称作无标签样本Unlabel训练XGBoost分类器；根据训练得到的分类器对未标注样本进行分类；把分类为负样本的样本作为可靠的负样本；把剩下的未标注样本与正样本再训练分类器，不断重复1-3过程，直至没有更多可靠负样本；在对数据进行平衡正负样本之前，先将第21个月采样的数据取出来留作模型验证样本，其中正样本406例，负样本356928例，其余剩下的样本正样本3460例，负样本3791024例进行smote和PU-Learning平衡正负实例；对3791024例负样本使用PU-Learning训练并选择出500000最可靠负样本，其中分类器模型选用XGBoost分类器，参数设置为：scale_pos_weight＝500，max_depth＝5，silent＝0，objective＝binary：logistic，lambda＝2.5，rate_drop＝0.5，alpha＝1，eta＝0.1，对3460例正样本通过smote生成正样本，参数最近邻个数K＝10，扩充倍数N＝130，最后得到正样本数量为：453260；3、模型训练阶段本发明选用XGBoost集成分类器训练模型，对处理后的样本进行训练，参数如下：eta学习率：0.1max_depth树最大深度：5objective学习任务：binary：logisticalphaL1正则项权重：1lambdaL2正则项权重：2.5rate_drop剪枝比率：0.5tree_num训练树数量：20其他参数设为默认值。

全文数据：

权利要求：

百度查询：北京海致星图科技有限公司基于知识图谱和机器学习算法挖掘银行潜在授信客户方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

下一篇：一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

相关技术

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

一种对氟甲苯制备用精馏设备_湖北联昌新材料有限公司_202322580010.4

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种园林绿化便携铲_马丽丽_202322375183.2

一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

银行相关技术

一种银行业务系统搭建方法及装置_中国银行股份有限公司_201911378177.4

带隐藏式储物盒的银行保险箱_中国银行股份有限公司_202322331638.0

一种基于多生物识别信息的银行业务助理机器人_山东大学_201710304848.7

银行业务页面翻译方法及装置_中国工商银行股份有限公司_202410044285.2

一种银行客户分类方法、系统以及电子设备_郑州超预企服企业管理咨询有限公司_202311705051.X

一种银行用电信诈骗涉案账户智能管控平台_中国农业银行股份有限公司广西壮族自治区分行_202311757379.6

一种基于银行用的银担直连系统_中国农业银行股份有限公司广西壮族自治区分行_202311757309.0

一种便于运输的银行业务库_江西金虎保险设备集团有限公司_202210817357.3

一种银行回单信息提取方法和系统_北京大数元科技发展有限公司_202410028502.9

一种基于银行用的烟草营销结算系统_中国农业银行股份有限公司广西壮族自治区分行_202311746349.5

挖掘相关技术

一种挖掘机用可调节机械臂_济宁瑞来德重工科技有限公司_202322609185.3

挖掘机及其挖掘电机防护结构_山东得普达电机股份有限公司_202322187774.7

井挖掘机_雷德帕夫戴尔曼有限公司_202280058324.3

用于挖掘机的控制系统总成及挖掘机_陕西中联西部土方机械有限公司_202322052080.2

用于电动挖掘机的散热系统及电动挖掘机_中联重科土方机械有限公司_202322462282.4

液压系统、液压挖掘机、以及液压挖掘机的控制方法_株式会社小松制作所_202280057254.X

新型挖掘机油散热器_青岛永晟热交换器有限公司_202321897484.5

一种电动液压挖掘机用电机_山东得普达电机股份有限公司_202322187319.7

一种挖掘机车架侧板结构_江阴市华骏机械有限公司_202322133802.7

减震器、减震系统和挖掘机_柳州柳工挖掘机有限公司_202410005556.3

潜相关技术

一种水下潜标可扩展电源系统_中国科学院沈阳自动化研究所_201910149238.3

一种潜液式水泵水轮机组结构_杭州力源发电设备有限公司_202322375197.4

一种淹水环境下稻田潜育化阻控及协同降镉的方法_湖南省土壤肥料研究所_202311028513.9

一种潜孔顶锤_苏州新锐合金工具股份有限公司_201810711474.5

潜望式创口探照装置_中国人民解放军陆军军医大学第一附属医院_202311841657.6

一种水下潜标观测破断装置_自然资源部第一海洋研究所_201910862608.8

一种半潜漂浮式风电机组_中交第三航务工程局有限公司_202211274261.3

潜污泵快速安装结构及其安装方法_青岛三利泵业有限公司_202410159594.4

半潜平台推进器海底支撑工装_大连船舶重工集团海洋工程有限公司_201810538042.9

一种潜指纹显影液及其制备方法_金堆城钼业股份有限公司_202110465714.X

龙图腾网&IPTOP

【发明公布】基于知识图谱和机器学习算法挖掘银行潜在授信客户方法_北京海致星图科技有限公司_201910525458.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务