买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于RF-DBSCAN算法的信用卡违约欺诈识别方法_东北大学_202010851219.8 

申请/专利权人:东北大学

申请日:2020-08-21

公开(公告)日:2024-02-09

公开(公告)号:CN112001788B

主分类号:G06Q40/03

分类号:G06Q40/03;G06Q30/018;G06F18/2431;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.02.09#授权;2020.12.15#实质审查的生效;2020.11.27#公开

摘要:本发明涉及一种基于RF‑DBSCAN算法的信用卡违约欺诈识别方法,该方法首先,针对原始数据集进行离散化、归一化、均衡化处理;将处理之后的数据集作为RF模型的输入,通过调整寻找合适的参数组合,构建能够准确划分可信任客户与违约客户,得到可信任用户以及违约用户;赋予RF模型预测之后的可信任和违约用户不同的欺诈概率初值,给定欺诈阈值,对超过阈值的用户数据集作为DBSCAN模型的输入,通过控制聚类的不同程度来找到不同离异程度的点,并加重对应的样本可能欺诈的概率,从而使得决策者加深对高概率欺诈用户的审核门槛。本发明实现了在目前对信用领域的欺诈违约的预测,借助信用卡交易数据展开实证分析,表明在预测信用违约和识别欺诈方面的准确率高且预测效果好。

主权项:1.一种基于RF-DBSCAN算法的信用卡违约欺诈识别方法,其特征在于,其包括以下步骤:S1、将原始信用卡数据集进行离散化处理、归一化处理、特征属性筛选,经过对数据集的一系列规范化处理之后获得易于处理、少冗余、干净、非均衡的数据集;S2、将S1得到的数据集进一步做代价敏感学习处理,对S1得到的非均衡数据集进行均衡化处理,使得违约用户的数量与可信任用户数量接近1:1;S3、通过S1、S2得到的数据集进行特征属性的选取,对于数据集中所有的属性进行筛选,使用SPSS软件利用公式3进行属性之间冗余度计算检测;对其中高冗余的属性进行删除,确保在有限属性数量的基础上获得最大程度的信息量; 其中,rA,B表示属性AB之间的相关度,A表示属性A,B表示属性B,表示属性A,B的均值,σA表示属性A的标准差,σB表示属性B的标准差;S4、将经过步骤S1、S2、S3处理之后的数据输入RF模型,构建RF模型首先采用Gini指标作为决策树的生成方式,之后确定RF模型最优随机分割变量数mtry和决策树的数量ntree,对训练集数据进行有效监督学习生成RF模型,对测试集样本作出分类得到可信任用户及违约用户分类结果;S5、对S4学习生成的RF模型的分类精确度进行衡量,采用ROC曲线作为评价指标对RF模型分类性能进行测评,根据得到的高精确度分类结果来确保DBSCAN模型的输入数据高质量;S6、将RF模型得到的分类结果赋予不同的初始欺诈概率值,借助DBSCAN算法能自发的形成任意形状的簇的特征,通过控制不同的聚类程度,来得到与之对应的不同的离异点;依据违约用户的初始欺诈阈值来设定欺诈概率的阈值,将大于阈值的数据作为DBSCAN模型的输入;S7、DBSCAN模型的搭建,首先需要特征属性的重要度衡量,在RF模型中,依次删除单个特征属性其余属性保持不变,依据当前删除特征属性之后的性能下降的程度作为特征属性的重要度衡量指标,下降性能越多的,表明该特征属性对于分类任务越重要,选择最重要的两个属性作为DBSCAN模型的坐标值的依据,其次,借助DBSCAN模型的超参ε-邻域、邻域内样本个数M进行调控,来决定形成的簇的个数,从而控制聚类的聚集程度,以得到不同程度的离异点,根据离异的程度不同加以不同的欺诈概率,将得到的异常点加大其欺诈概率,对欺诈概率大的节点进行标明排序,最终,通过RF模型的分类结果及DBSCAN模型的欺诈概率与标的信息进行对比从而得到精确度衡量;在步骤S1中,所述离散化处理用3-4-5规则处理,对应的根据3-4-5规则处理后的用户信用卡可用额度变量取值对应在如下五个层次,并为每个层次赋值,离散化处理采用公式1; 其中,X1表示标的信息。

全文数据:

权利要求:

百度查询: 东北大学 一种基于RF-DBSCAN算法的信用卡违约欺诈识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。