买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于知识图谱和机器学习算法挖掘银行潜在授信客户方法_北京海致星图科技有限公司_201910525458.1 

申请/专利权人:北京海致星图科技有限公司

申请日:2019-06-18

公开(公告)日:2019-11-15

公开(公告)号:CN110458592A

主分类号:G06Q30/02(20120101)

分类号:G06Q30/02(20120101);G06Q40/02(20120101)

优先权:

专利状态码:有效-授权

法律状态:2023.04.07#授权;2020.06.30#实质审查的生效;2019.11.15#公开

摘要:本发明提供了基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,包括如下步骤:1、样本采集阶段;2、数据预处理阶段;3、模型训练阶段。本发明的优点在于:运用高效的XGBoost集成分类器训练潜在授信客户预测模型,挖掘出具有营销更高成功率的潜在授信客户,实现对客户进行精准营销;该发明的广泛应用和推广,将给予业务人员提供更加营销价值的授信客户,提高了一线业务人员的工作效率,为银行开展授信业务有着重大的意义和应用价值;首次将基于图谱提取特征的方式应用到潜在授信客户挖掘,从而推广了知识图谱的应用范围,更进一步地促进知识图谱的发展;对处理样本不均匀问题的解决具有良好效果。

主权项:1.基于知识图谱和机器学习算法挖掘银行潜在授信客户方法,其特征在于,包括如下步骤:1、样本采集阶段以企业的控股关系、实际控制人关系、一致行动人、密切资金往来关系、密切票据交易关系、以及密切受托支付关系构建企业知识图谱GE,V,顶点和各种边的属性分别为如下:顶点属性:名称、是否行内客户;控股关系边属性:持股金额、持股比例、开始时间、结束时间;实际控制人关系边属性:开始时间、结束时间;一致行动人边属性:开始时间、结束时间;密切资金往来关系边属性:转账金额、转账时间;密切票据交易关系边属性:票据金额、出票时间;密切受托支付关系边属性:支付金额、支付时间;根据节点一度邻居的关系构建特征,对于每一种关系,聚合邻居为银行存量以下简称为“行内”客户的节点信息作为当前节点在该关系维度下的特征,其中各种关系构建的特征如下:控股关系:行内企业客户股东总数、行内企业客户股东最大持股金额、行内企业客户股东最大持股比例、行内企业客户股东平均持股金额、行内企业客户股东平均持股比例、行内自然人客户股东总数、行内自然人客户股东最大持股金额、行内自然人客户股东最大持股比例、行内自然人客户股东平均持股金额、行内自然人客户股东平均持股比例,共10个特征;实际控制人关系:实际控制行内企业数量,共1个特征;一致行动人:与行内企业具有一致行动关系的客户数量,共1个特征;密切资金往来关系:资金密切付款方为行内公司客户数、资金密切付款方为行内自然人客户数、资金密切收款方为行内公司客户数、资金密切收款方为行内自然人客户数、行内公司客户最大入账金额、行内自然人客户最大入账金额、行内公司客户最大入账笔数、行内自然人客户最大入账笔数、行内公司客户最大出账金额、行内自然人客户最大出账金额、行内公司客户最大出账笔数、行内自然人客户最大出账笔数、行内公司客户平均入账金额、行内自然人客户平均入账金额、行内公司客户平均入账笔数、行内自然人客户平均入账笔数、行内公司客户平均出账金额、行内自然人客户平均出账金额、行内公司客户平均出账笔数、行内自然人客户平均出账笔数,共20个特征;密切票据交易关系:出票人为行内客户数目、最大票据金额、最大票据笔数、平均票据笔数、平均票据金额,共5个特征;密切受托支付关系:受托支付委托人为行内客户数目、最大收款金额、最大收款笔数、平均收款金额、平均收款笔数,共5个特征;实体属性:是否为行内客户,共1个特征;上述的特征维度从各个关系层面反映了企业和行内存量客户之间的关联亲密程度,从直观上来看,一个非授信客户如果和行内客户的关系越密切,则该客户就更有可能是潜在的授信客户,这里关系型泛化延伸出来的特征和当前节点自身的特征总共43个;在选定特征之后,接下来构建样本集,由于本发明的目的是根据该企业的历史行为或者图谱关系特征进行预测客户是否是潜在客户,而判断一个企业是否是潜在客户就是观察该企业在未来一段时间内是否能转化为授信客户,如果该企业在未来一段时间内能够成功授信,则说明该企业是潜在授信客户,否则为非潜在授信客户,因此对于每一个样本企业来说,分别定义观察期和表现期,其中观察期是企业过去历史图谱关联关系的特征,如控股、资金往来等表现情况,观察期取值时长为6个月;表现期指的是客户经过观察期之后,考察是否发生了授信行为即是否首次授信的时间段,表现期时长取值3个月;具体采样步骤如下:步骤1:选取近两年的企业关系图谱数据和信贷系统授信情况数据,按照月为单位对数据按时间轴进行切面,选取划分时点为每月1日,分别划分为24个月的截面数据;步骤2:对知识图谱中的每个企业A,在第7个月至第21个月,每月采样一次,特征值的计算方式如下:求和类型特征:企业A的所有行内邻居节点之间对应关系属性值之和;平均类型特征:企业A的所有行内邻居节点之间对应关系属性值平均值;最大值类型特征:企业A的所有行内邻居节点之间对应关系属性值最大值;是否行内客户特征:直接根据当前企业A的是否行内企业,如是取值1否则取值0;步骤3:对所有知识图谱中所有节点企业均按照步骤2进行采样,于是得到所有企业在不同时间点上对应43个特征值,以及对应的样本标签;按照上述步骤进行采样,过滤掉所有特征值均为0的样本,最终得到正样本3866个,负样本4147952个;2、数据预处理阶段样本采样过程中得到的正负样本比例比较悬殊,正样本和负样本的比例是1∶1072,正负样本不均衡会导致模型对比例大的样本造成过拟合,即预测偏向样本数较多的分类,尽管模型的准确率很高,但是范化能力很差,为了平衡正负样本对模型训练的影响,本发明分别使用smote对正样本进行过采样和PU-Learning对负样本进行下采样;smote算法是基于类似“插值”来为少数类合成新的样本,对少数类中每个样本求其k-近邻,通过k-近邻与当前样本生成新样本,由于特征中涉及到0-1特征,该特征不能直接通过原有值基础上加上微小随机扰动来产生新值,所以smote算法并不能直接使用,本发明对smote算法进行改进,将分类型特征单独处理,改进的smote算法如下:输入:样本集A,,最近邻个数K,扩充倍数N;输出:扩充后的新样本;初始化B=A;取A中样本i,对应的特征向量为πi=πi1,πi2,...,πim,计算样本i与样本集B中所有样本关于特征向量的欧式距离,即距离计算公式为: 选择距离距离值最小的的K个值{d1,d2,...,dK};从距离集合{d1,d2,...,dK}中随机选择一个数据dk,再生成随机数合成新样本n,其特征:πn=πn1,πn2,...,πnm,其中 R=R∪{i,n};重复4-5步骤N次,A=A\{i};如果返回2,否则返回集合R并退出;PU-Learning技术是在给定正样本和无标签样本的情况下,通过使用正样本P和无标签样本U建立一个分类器能够辨别U或测试集中的正样本,本发明中采样到的负样本当中,由于受限于数据完备性,在样本构建时把没有进行任何营销的未授信企业都当做负样本,因此这样构建得到的负样本是掺杂有部分正样本,也就是说得到的负样本是不纯的,这主要是因为在采样过程中只要没有授信的客户都把它当成了负样本,事实上有部分未授信的客户是从来没有提过申请或者没有做过营销,并不知道其是否真的不能授信,因此本发明把采样得到的负样本当做未标注样本,通过基于XGBoost分类模型PU-Learning技术将负样本进行提纯,使得负样本更加可靠。其算法过程为:先用正样本positive与未标注样本或者称作无标签样本Unlabel训练XGBoost分类器;根据训练得到的分类器对未标注样本进行分类;把分类为负样本的样本作为可靠的负样本;把剩下的未标注样本与正样本再训练分类器,不断重复1-3过程,直至没有更多可靠负样本;在对数据进行平衡正负样本之前,先将第21个月采样的数据取出来留作模型验证样本,其中正样本406例,负样本356928例,其余剩下的样本正样本3460例,负样本3791024例进行smote和PU-Learning平衡正负实例;对3791024例负样本使用PU-Learning训练并选择出500000最可靠负样本,其中分类器模型选用XGBoost分类器,参数设置为:scale_pos_weight=500,max_depth=5,silent=0,objective=binary:logistic,lambda=2.5,rate_drop=0.5,alpha=1,eta=0.1,对3460例正样本通过smote生成正样本,参数最近邻个数K=10,扩充倍数N=130,最后得到正样本数量为:453260;3、模型训练阶段本发明选用XGBoost集成分类器训练模型,对处理后的样本进行训练,参数如下:eta学习率:0.1max_depth树最大深度:5objective学习任务:binary:logisticalphaL1正则项权重:1lambdaL2正则项权重:2.5rate_drop剪枝比率:0.5tree_num训练树数量:20其他参数设为默认值。

全文数据:

权利要求:

百度查询: 北京海致星图科技有限公司 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。