买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】贷款风险预测方法及装置_四川大学_201811383954.X 

申请/专利权人:四川大学

申请日:2018-11-20

公开(公告)日:2020-07-17

公开(公告)号:CN109360089B

主分类号:G06Q40/02(20120101)

分类号:G06Q40/02(20120101);G06K9/62(20060101);G06Q10/04(20120101)

优先权:

专利状态码:失效-未缴年费专利权终止

法律状态:2021.10.29#未缴年费专利权终止;2019.03.15#实质审查的生效;2019.02.19#公开

摘要:本申请公开了一种贷款风险预测方法及装置,所述方法包括:获取多个包括用户的通信行为数据以及每个用户是否贷款的贷款标签进行机器学习训练,获得风险预测模型;所述通信行为数据包括:位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息;获取待评估的用户的通信行为数据;获取待评估的用户使用的贷款软件的名称;获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别;将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数。本实施例所述方案能够根据用户通信行为数据及时预测出用户陷入恶性贷款的可能性。

主权项:1.一种贷款风险预测方法,其特征在于,所述方法包括:获取多个包括用户的通信行为数据以及每个用户是否贷款的贷款标签进行机器学习训练,获得风险预测模型;所述通信行为数据包括:位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息;获取待评估的用户的通信行为数据;获取待评估的用户使用的贷款软件的名称;获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别;将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数;其中,所述获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别的步骤包括:根据用户的上网信息获取用户使用的应用软件的名称;针对每个所述应用软件的名称获取该应用软件的介绍信息;对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息;在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别。

全文数据:贷款风险预测方法及装置技术领域本申请涉及数据处理技术领域,具体而言,涉及一种贷款风险预测方法及装置。背景技术随着互联网技术的发展,贷款业务也在不断地发展,进而出现了多种贷款平台,其中,常见的贷款类平台有P2P网络借贷平台、分期消费平台、电商平台以及银行机构。在这些贷款平台中,网贷平台的进入门槛低,因此,其中,难免会混入一些不良的贷款平台。很多人在进行贷款时,往往缺乏理性,极少关注贷款平台的资质、管理、资金以及技术等情况,因此,极容易陷入恶性贷款,在校学生中,这种情况更为常见。然而,现有技术中,并不存在针对个人陷入恶性贷款可能性的预测方案。发明内容为了克服现有技术中的上述不足,本申请的目的在于提供一种贷款风险预测方法,所述方法包括:获取多个包括用户的通信行为数据以及每个用户是否贷款的贷款标签进行机器学习训练,获得风险预测模型;所述通信行为数据包括:位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息;获取待评估的用户的通信行为数据;获取待评估的用户使用的贷款软件的名称;获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别;将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数。可选地,所述方法还包括,获取多个原始识别样本进行机器学习训练,获得软件识别模型,每个所述原始识别样本包括应用软件的介绍信息以及表征该应用软件是否为贷款软件的标签信息;所述获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别的步骤包括:根据用户的上网信息获取用户使用的应用软件的名称;针对每个所述应用软件的名称获取该应用软件的介绍信息;对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息;在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别。可选地,所述获取多个原始识别样本进行机器学习训练,每个所述原始识别样本包括应用软件的介绍信息以及表征该应用软件是否为贷款软件的标签信息的步骤包括:获取由多个训练样本和多个测试样本构成的原始识别样本集,其中,所述原始识别样本集中的每个样本均包括一个所述应用软件在应用商店中的介绍信息以及该应用软件的标签信息;对每个所述训练样本和每个所述测试样本的介绍信息进行分词处理和停用词处理,获得由所有样本的所有词构成的字典;根据所述字典获得获取各个训练样本的词袋向量以及各个测试样本的词袋向量;根据每个测试样本的词袋向量与每个训练样本的词袋向量分别获取每个测试样本的词袋向量与每个训练样本的词袋向量的相似度;根据每个测试样本与每个训练样本的相似度以及每个测试样本的标签信息、每个训练样本的标签信息调整相似度筛选阈值以及标签区分阈值;所述对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息的步骤包括:对待判断类型的所述应用软件的介绍信息进行分词处理和停用词处理,获得该待判断类型的应用软件的词袋向量;分别计算待判断类型的应用软件的所述词袋向量与各个所述训练样本中的词袋向量的相似度;获取所述相似度在所述相似度筛选阈值范围内的训练样本的标签信息;根据相似度筛选阈值范围内的训练样本的标签信息获得待判断类型的应用软件的标签信息。可选地,所述方法还包括,获取由已知的贷款软件的评论信息获得的关键词库,所述关键词库包括可靠性标签为诈骗类的关键词以及可靠性标签为贷款类关键词;所述在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别的步骤包括:获取待评估的贷款软件的评论信息,从所述待评估的贷款软件的评论信息中获取关键词;将待评估的贷款软件的每个所述关键词与所述关键词库中的关键词进行比较,获得每个所述关键词对应的可靠性标签;根据每个所述关键词对应的可靠性标签获得所述该待评估的贷款软件的可靠性标签。可选地,在所述将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数的步骤后,所述方法还包括,判断该用户的所述风险系数是否超过预设风险值;当所述风险系数超过所述预设风险值时,向预设的终端发送用于表征该用户发生恶性贷款可能性的通知信息。本申请的另一目的在于提供一种贷款风险预测装置,所述装置包括:第一训练模块、第一获取模块、第二获取模块、第三获取模块以及风险预测模块,所述第一训练模块用于获取多个包括用户的通信行为数据以及每个用户是否贷款的贷款标签进行机器学习训练,获得风险预测模型;所述通信行为数据包括:位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息;所述第一获取模块用于获取待评估的用户的通信行为数据;所述第二获取模块用于获取待评估的用户使用的贷款软件的名称;所述第三获取模块用于获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别;所述风险预测模块用于将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数。可选地,所述装置还包括第二训练模块,所述第二训练模块用于,获取多个原始识别样本进行机器学习训练,获得软件识别模型,每个所述原始识别样本包括应用软件的介绍信息以及表征该应用软件是否为贷款软件的标签信息;所述第三获取模块包括,应用获取单元、信息获取单元、分类判断单元以及可靠性判断单元,所述应用获取单元用于根据用户的上网信息获取用户使用的应用软件的名称;所述信息获取单元用于针对每个所述应用软件的名称获取该应用软件的介绍信息;所述分类判断单元用于对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息;所述可靠性判断单元用于在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别。可选地,所述第二训练模块包括:样本获取单元、计算单元以及调整单元,所述样本获取单元用于获取由多个训练样本和多个测试样本构成的原始识别样本集,其中,所述原始识别样本集中的每个样本均包括一个所述应用软件在应用商店中的介绍信息以及该应用软件的标签信息;所述计算单元用于对每个所述训练样本和每个所述测试样本的介绍信息进行分词处理和停用词处理,获得由所有样本的所有词构成的字典;根据所述字典获得获取各个训练样本的词袋向量以及各个测试样本的词袋向量;根据每个测试样本的词袋向量与每个训练样本的词袋向量分别获取每个测试样本的词袋向量与每个训练样本的词袋向量的相似度;所述调整单元用于根据每个测试样本与每个训练样本的相似度以及每个测试样本的标签信息、每个训练样本的标签信息调整相似度筛选阈值以及标签区分阈值;所述分类判断单元用于对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息的步骤包括:对待判断类型的所述应用软件的介绍信息进行分词处理和停用词处理,获得该待判断类型的应用软件的词袋向量;分别计算待判断类型的应用软件的所述词袋向量与各个所述训练样本中的词袋向量的相似度;获取所述相似度在所述相似度筛选阈值范围内的训练样本的标签信息;根据相似度筛选阈值范围内的训练样本的标签信息获得待判断类型的应用软件的标签信息。可选地,所述可靠性判断单元用于在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别的步骤包括:获取由已知的贷款软件的评论信息获得的关键词库,所述关键词库包括可靠性标签为诈骗类的关键词以及可靠性标签为贷款类关键词;所述在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别的步骤包括:获取待评估的贷款软件的评论信息,从所述待评估的贷款软件的评论信息中获取关键词;将待评估的贷款软件的每个所述关键词与所述关键词库中的关键词进行比较,获得每个所述关键词对应的可靠性标签;根据每个所述关键词对应的可靠性标签获得所述该待评估的贷款软件的可靠性标签。可选地,所述装置还包括通知模块,所述通知模块用于判断该用户的所述风险系数是否超过预设风险值;当所述风险系数超过所述预设风险值时,向预设的终端发送用于表征该用户发生恶性贷款可能性的通知信息。相对于现有技术而言,本申请具有以下有益效果:本申请实施例根据用户的通行行为数据以及用户所使用的应用软件中所包含的贷款软件的可靠性标签进行风险预测,从而,能够在不获取用户其他信息的情况下获得用户陷入恶性贷款的可能性。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的终端设备的结构示意图;图2为本申请实施例提供的贷款风险预测方法的流程示意图一;图3为本申请实施例提供的贷款风险预测方法的流程示意图二;图4为本申请实施例提供的贷款风险预测方法的流程示意图三;图5为本申请实施例提供的贷款风险预测方法的流程示意图四;图6为本申请实施例提供的贷款风险预测方法的流程示意图五;图7为本申请实施例提供的贷款风险预测装置的结构示意框图一;图8为本申请实施例提供的贷款风险预测装置的结构示意框图二;图9为本申请实施例提供的贷款风险预测装置的结构示意框图三。图标:100-终端设备;110-处理器;120-存储器;210-第一训练模块;220-第一获取模块;230-第二获取模块;240-第三获取模块;250-风险预测模块;260-第二训练模块;241-应用获取单元;242-信息获取单元;243-分类判断单元;244-可靠性判断单元;261-样本获取单元;262-计算单元;263-调整单元。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。请参照图1,图1所示为本申请实施例提供的一种终端设备100的结构示意框图,本实施例所提供的终端设备100可以应用于解决至少一个上述问题。所述终端设备100包括处理器110和存储器120,所述处理器110与存储器120电连接,用于实现数据交互。在本实施例的终端设备100中,所述存储器120可以是,但不限于,随机存取存储器RandomAccessMemory,RAM,只读存储器ReadOnlyMemory,ROM,可编程只读存储器ProgrammableRead-OnlyMemory,PROM,可擦除只读存储器ErasableProgrammableRead-OnlyMemory,EPROM,电可擦除只读存储器ElectricErasableProgrammableRead-OnlyMemory,EEPROM等。其中,存储器120用于存储可执行指令,所述处理器110在接收到可执行指令后,执行该指令。本实施例中终端设备100可以是移动终端,如手机、平板等,也可以是电脑或者其他具有数据处理功能的终端。请参见图2,图2是本申请实施例提供的贷款风险预测方法的流程图,所述方法包括步骤S110-步骤S150。步骤S110,获取多个包括用户的通信行为数据以及每个用户是否贷款的贷款标签进行机器学习训练,获得风险预测模型;所述通信行为数据包括:位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息。位置信息可以是代表用户所在地址的信息;通信信息是与用户打电话或者发短信相关的信息,上网信息是用户访问网络相关的信息,上网信息中可以包括贷款软件的使用信息、购物软件的使用信息;终端信息是指用户所使用的终端设备100相关的信息,例如终端设备100的物理地址、IP地址或者终端设备100的型号等;话费账单信息是用户打电话、发短信、购买套餐或者购买其他的花费;时序信息是与用户通信、上网、地址或者终端相对应的时间信息。本实施例中,在训练风险预测模型的过程中,可以将包括位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息的通信行为数据以及每个通信行为数据对应的用户是否贷款的贷款标签进行深度学习训练获得。在具体的训练过程中,可以从用户的通信行为数据中提取一些特定的信息,然后将这些提取出来的特定信息与该通信行为数据对应的用户是否贷款的标签进行机器学习训练,从而获得最终的风险预测模型。其中,所提取的特定的信息可以是用户上网信息中的贷款软件的使用信息或者购物软件的使用数据,或者位置信息,或者通信信息,或者终端信息,或者话费账单信息。步骤S120,获取待评估的用户的通信行为数据。通信行为数据可以从运营商处获得。步骤S130,获取待评估的用户使用的贷款软件的名称。本实施例用于获取待评估的用户使用的贷款软件的名称。具体地,可以从待评估用户的通信行为数据中获取用户使用的贷款软件的名称。例如,请参照图3,所述方法可以包括获取多个原始识别样本进行机器学习训练,获得软件识别模型,每个所述原始识别样本包括应用软件的介绍信息以及表征该应用软件是否为贷款软件的标签信息的步骤。请参照图3,可选地,该步骤包括子步骤S211-步骤S216。步骤S211,获取由多个训练样本和多个测试样本构成的原始识别样本集,其中,所述原始识别样本集中的每个样本均包括一个所述应用软件在应用商店中的介绍信息以及该应用软件的标签信息。步骤S212,对每个所述训练样本和每个所述测试样本的介绍信息进行分词处理和停用词处理,获得由所有样本的所有词构成的字典。本实施例中,对训练样本和测试样本的介绍信息进行分词处理和停用词处理,扫描所有训练样本和测试样本分词处理和停用词处理后得到的词语,将新出现的词语加入词典中。步骤S213,根据所述字典获得获取各个训练样本的词袋向量以及各个测试样本的词袋向量。本实施例用于根据分词处理以及去停用词处理后的每个样本训练样本或者测试样本出现词典中的各个词的频率获得该样本的词袋向量。也就是说,本实施例用于获取每个训练样本的词袋向量以及每个测试样本的词袋向量。步骤S214,根据每个测试样本的词袋向量与每个训练样本的词袋向量分别获取每个测试样本的词袋向量与每个训练样本的词袋向量的相似度。步骤S215,根据每个测试样本与每个训练样本的相似度以及每个测试样本的标签信息、每个训练样本的标签信息调整相似度筛选阈值以及标签区分阈值,获得软件识别模型。本实施例用于采用训练样本建立初步的软件识别模型,然后测试样本对初步建立的软件识别模型进行调整优化,从而保证软件识别模型的识别准确率。应用软件的介绍信息可以采用爬虫技术从应用软件商店中获取。本实施例中,也可以根据专门人员对应用软件的分类经验,从用户使用的应用软件中直接识别出贷款软件,然后将用户使用的贷款软件的名称直接手动输入终端设备100。请继续参照2,步骤S140,获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别。请参照图4,步骤S140包括子步骤S141-步骤S144。步骤S141,根据用户的上网信息获取用户使用的应用软件的名称。由于不同软件在上网时,会产生与其对应的信息,也就是说,上网信息中包含有访问网络等的应用软件的名称,故本实施例中,可以从用户的上网信息中获取用户所使用的应用软件的名称。步骤S142,针对每个所述应用软件的名称获取该应用软件的介绍信息。在获得软件的名称后,便可以在应用商店中查找与该名称对应的应用软件对应的介绍信息,具体地,可以通过爬虫技术等来获取用户的应用软件的介绍信息。步骤S143,对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息。本实施例用于根据已经训练好的软件识别模型判断应用软件是否为贷款软件。请参照图5,步骤S143包括步骤S1431-步骤S1434。步骤S1431,对待判断类型的所述应用软件的介绍信息进行分词处理和停用词处理,获得该待判断类型的应用软件的词袋向量。步骤S1432,分别计算所述词袋向量与各个所述训练样本中的词袋向量的相似度。即分别计算待判断类型的应用软件的所述词袋向量与各个所述训练样本中的词袋向量的相似度。本实施例用于计算待判断类型的应用软件的词袋向量与各个训练样本中的词袋向量的相似度。步骤S1433,获取所述相似度在所述相似度筛选阈值范围内的训练样本的标签信息。步骤S1434,根据相似度筛选阈值范围内的训练样本的标签信息获得待判断类型的应用软件的标签信息。本实施例用于根据各个与待判断类型的应用软件的词袋向量的相似度在相似度筛选阈值范围内的训练样本的标签信息获得待判断类型的应用软件的标签信息,从而使得,所获得的待判断类型的应用软件的标签信息更加精确。请继续参照图4,步骤S144,在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别。可选地,所述方法还包括,获取由已知的贷款软件的评论信息获得的关键词库,所述关键词库包括可靠性标签为诈骗类的关键词以及可靠性标签为贷款类关键词。本实施例中,关键词库也可以包含其他类型的标签的关键词。请参照图6,步骤S144包括子步骤S1441-步骤S1443:步骤S1441,获取待评估的贷款软件的评论信息,从所述待评估的贷款软件的评论信息中获取关键词。本实施例用于获取能够用于评判软件可靠性的关键词。步骤S1442,将待评估的贷款软件的每个所述关键词与所述关键词库中的关键词进行比较,获得每个所述关键词对应的可靠性标签。本实施例用于根据关键词库获得待评估软件的关键词对应的可靠性标签。步骤S1443,根据每个所述关键词对应的可靠性标签获得所述该待评估的贷款软件的可靠性标签。本实施例用于根据关键词的可靠性标签获得待评估的贷款软件的可靠性标签。贷款软件的评论信息可以通过爬虫技术从应用商店中获取。例如,可以将贷款软件的评论信息分为诈骗类、贷款类以及其他类预先设置好多个关键词,将每个关键词分为已知的诈骗类、利息类以及其他类中的一种,在具体对比时,如果一个贷款软件内的某一条评价信息中,出现某个诈骗类、利息类以及其他类中的关键词时,则将该评论信息标记为关键词对应的种类。也就是说,同一条评论信息可能对应多个种类,例如,某条评论中即出现了诈骗类的关键词,又出现了利息类的关键词,那么,这条评论信息的种类是诈骗类和利息类。本实施例中,也可以将某条评论信息中对应的关键词数量最多的种类作为该条评论信息的种类,例如,一条评论中,属于诈骗类的关键词为6个,属于利息类的关键词为3个,则将该条评论信息标为诈骗类的种类。本实施例中,在获得贷款软件的每条评论信息的种类后,可以统计属于某一种类的评论信息的数量,本实施例中,可以将评论信息较多的种类作为该贷款软件的可靠性标签。本实施例中,还可以将对评论信息的数量作归一化处理,例如,将与该贷款软件所属种类相同的该贷款软件的评论信息的数量除以该贷款软件的评论信息的总数量,获得该类型评论信息归一化处理后的值。在判断贷款软件的过程中,可以根据贷款软件归一化处理后的某个标签的数量值获得该贷款软件相对该标签的可靠性系数,然后根据可靠性系数来设置可靠性标签,例如,可以将可靠性系数划分为多个数值范围,使得每个范围对应一个可靠性标签。本实施例中,步骤S144也可以采用文本分类技术对已知的多个贷款软件的评论信息以及每个贷款软件对应的可靠性标签来训练出软件可靠性识别模型,然后将待评估可靠性的贷款软件的评论信息输入已经训练好的可靠性识别模型,从而获得该贷款软件的可靠性标签。请继续参照2,步骤S150,将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数。本实施例用于根据用户的通信行为数据和用户的可靠性标签来获得用户陷入恶性贷款的可能性,即用户参与贷款的可能性。恶性贷款是指,使用户产生极大的财务风险以及其他风险的贷款。步骤S150后,所述方法还包括,判断该用户的所述风险系数是否超过预设风险值。当所述风险系数超过所述预设风险值时,向预设的终端发送用于表征该用户发生恶性贷款可能性的通知信息。本实施例中,用于在用户发生恶性贷款的可能性超过预设的值时,通知相关人员,从而能够使相关人员及时准确获取用户状态,便于及时采取相关措施以避免用户陷入恶性贷款。本申请的另一目的在于提供一种贷款风险预测装置,所述贷款风险预测装置包括一个可以软件或固件的形式存储于存储器120中或固化在终端设备100的操作系统operatingsystem,OS中的软件功能模块。请参照图7,所述装置包括:第一训练模块210、第一获取模块220、第二获取模块230、第三获取模块240以及风险预测模块250。所述第一训练模块210用于获取多个包括用户的通信行为数据以及每个用户是否贷款的贷款标签进行机器学习训练,获得风险预测模型。所述通信行为数据包括:位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息。本实施例中,第一训练模块210可用于执行步骤S110,关于第一训练模块210的具体描述,可参考对所述步骤S110的描述。所述第一获取模块220用于获取待评估的用户的通信行为数据。本实施例中,第一获取模块220可用于执行步骤S120,关于第一获取模块220的具体描述,可参考对所述步骤S120的描述。所述第二获取模块230用于获取待评估的用户使用的贷款软件的名称。本实施例中,第二获取模块230可用于执行步骤S130,关于第二获取模块230的具体描述,可参考对所述步骤S130的描述。所述第三获取模块240用于获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别。本实施例中,第三获取模块240可用于执行步骤S140,关于第三获取模块240的具体描述,可参考对所述步骤S140的描述。所述风险预测模块250用于将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数。本实施例中,风险预测模块250可用于执行步骤S150,关于风险预测模块250的具体描述,可参考对所述步骤S150的描述。可选地,所述装置还包括第二训练模块260,所述第二训练模块260用于,获取多个原始识别样本进行机器学习训练,获得软件识别模型,每个所述原始识别样本包括应用软件的介绍信息以及表征该应用软件是否为贷款软件的标签信息。本实施例中,第二训练模块260可用于执行步骤S210,关于第二训练模块260的具体描述,可参考对所述步骤S210的描述。请参照图8,所述第三获取模块240包括,应用获取单元241、信息获取单元242、分类判断单元243以及可靠性判断单元244。所述应用获取单元241用于根据用户的上网信息获取用户使用的应用软件的名称。本实施例中,应用获取单元241可用于执行步骤S141,关于应用获取单元241的具体描述,可参考对所述步骤S141的描述。所述信息获取单元242用于针对每个所述应用软件的名称获取该应用软件的介绍信息。本实施例中,信息获取单元242可用于执行步骤S142,关于信息获取单元242的具体描述,可参考对所述步骤S142的描述。所述分类判断单元243用于对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息。本实施例中,分类判断单元243可用于执行步骤S143,关于分类判断单元243的具体描述,可参考对所述步骤S143的描述。所述可靠性判断单元244用于在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别。本实施例中,可靠性判断单元244可用于执行步骤S144,关于可靠性判断单元244的具体描述,可参考对所述步骤S144的描述。请参照图9,可选地,所述第二训练模块260包括:样本获取单元261、计算单元262以及调整单元263,所述样本获取单元261用于获取由多个训练样本和多个测试样本构成的原始识别样本集,其中,所述原始识别样本集中的每个样本均包括一个所述应用软件在应用商店中的介绍信息以及该应用软件的标签信息。本实施例中,样本获取单元261可用于执行步骤S211,关于样本获取单元261的具体描述,可参考对所述步骤S211的描述。所述计算单元262用于对每个所述训练样本和每个所述测试样本的介绍信息进行分词处理和停用词处理,获得由所有样本的所有词构成的字典。根据所述字典获得获取各个训练样本的词袋向量以及各个测试样本的词袋向量;根据每个测试样本的词袋向量与每个训练样本的词袋向量分别获取每个测试样本的词袋向量与每个训练样本的词袋向量的相似度。本实施例中,计算单元262可用于执行步骤S212-步骤S214,关于计算单元262的具体描述,可参考对所述步骤S212-步骤S215的描述。所述调整单元263用于根据每个测试样本与每个训练样本的相似度以及每个测试样本的标签信息、每个训练样本的标签信息调整相似度筛选阈值以及标签区分阈值,获得软件识别模型。本实施例中,调整单元263可用于执行步骤S215,关于调整单元263的具体描述,可参考对所述步骤S216的描述。所述分类判断单元243用于对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息的步骤包括:对待判断类型的所述应用软件的介绍信息进行分词处理和停用词处理,获得该待判断类型的应用软件的词袋向量。分别计算所述词袋向量与各个所述训练样本中的词袋向量的相似度。获取所述相似度在所述相似度筛选阈值范围内的训练样本的标签信息。根据相似度筛选阈值范围内的训练样本的标签信息获得待判断类型的应用软件的标签信息。本实施例中,分类判断单元243可用于执行步骤S1431-步骤S1434,关于分类判断单元243的具体描述,可参考对所述步骤S1431-步骤S1434的描述。可选地,所述可靠性判断单元244用于在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别的步骤包括:获取由已知的贷款软件的评论信息获得的关键词库,所述关键词库包括可靠性标签为诈骗类的关键词以及可靠性标签为贷款类关键词。所述在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别的步骤包括:获取待评估的贷款软件的评论信息,从所述待评估的贷款软件的评论信息中获取关键词。将待评估的贷款软件的每个所述关键词与所述关键词库中的关键词进行比较,获得每个所述关键词对应的可靠性标签。根据每个所述关键词对应的可靠性标签获得所述该待评估的贷款软件的可靠性标签。本实施例中,可靠性判断单元244可用于执行步骤S1441-步骤S1443,关于可靠性判断单元244的具体描述,可参考对所述步骤S1441-步骤S1443的描述。可选地,所述装置还包括通知模块,所述通知模块用于判断该用户的所述风险系数是否超过预设风险值。当所述风险系数超过所述预设风险值时,向预设的终端发送用于表征该用户发生恶性贷款可能性的通知信息。本实施例中,关于通知模块的具体描述,可参考对所述步骤S150后的步骤的描述。综上所述,本申请实施例通过获取包括用户位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息的通信行为数据以及用户使用的贷款软件的可靠性进行分析,从而,可以获得用户陷入恶性贷款的可能性。在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和或流程图中的每个方框、以及框图和或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可以是个人计算机,服务器,或者网络设备等执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器ROM,Read-OnlyMemory、随机存取存储器RAM,RandomAccessMemory、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

权利要求:1.一种贷款风险预测方法,其特征在于,所述方法包括:获取多个包括用户的通信行为数据以及每个用户是否贷款的贷款标签进行机器学习训练,获得风险预测模型;所述通信行为数据包括:位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息;获取待评估的用户的通信行为数据;获取待评估的用户使用的贷款软件的名称;获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别;将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数。2.根据权利要求1所述的贷款风险预测方法,其特征在于,所述方法还包括,获取多个原始识别样本进行机器学习训练,获得软件识别模型,每个所述原始识别样本包括应用软件的介绍信息以及表征该应用软件是否为贷款软件的标签信息;所述获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别的步骤包括:根据用户的上网信息获取用户使用的应用软件的名称;针对每个所述应用软件的名称获取该应用软件的介绍信息;对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息;在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别。3.根据权利要求2所述的贷款风险预测方法,其特征在于,所述获取多个原始识别样本进行机器学习训练,每个所述原始识别样本包括应用软件的介绍信息以及表征该应用软件是否为贷款软件的标签信息的步骤包括:获取由多个训练样本和多个测试样本构成的原始识别样本集,其中,所述原始识别样本集中的每个样本均包括一个所述应用软件在应用商店中的介绍信息以及该应用软件的标签信息;对每个所述训练样本和每个所述测试的介绍信息进行分词处理和停用词处理,获得由所有样本的所有词构成的字典;根据所述字典获得获取各个训练样本的词袋向量以及各个测试样本的词袋向量;根据每个测试样本的词袋向量与每个训练样本的词袋向量分别获取每个测试样本的词袋向量与每个训练样本的词袋向量的相似度;根据每个测试样本与每个训练样本的相似度以及每个测试样本的标签信息、每个训练样本的标签信息调整相似度筛选阈值以及标签区分阈值;所述对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息的步骤包括:对待判断类型的所述应用软件的介绍信息进行分词处理和停用词处理,获得该待判断类型的应用软件的词袋向量;分别计算待判断类型的应用软件的所述词袋向量与各个所述训练样本的词向量的相似度;获取所述相似度在所述相似度筛选阈值范围内的训练样本的标签信息;根据相似度筛选阈值范围内的训练样本的标签信息获得待判断类型的应用软件的标签信息。4.根据权利要求2或3所述的贷款风险预测方法,其特征在于,所述方法还包括,获取由已知的贷款软件的评论信息获得的关键词库,所述关键词库包括可靠性标签为诈骗类的关键词以及可靠性标签为贷款类的关键词;所述在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别的步骤包括:获取待评估的贷款软件的评论信息,从所述待评估的贷款软件的评论信息中获取关键词;将待评估的贷款软件的每个所述关键词与所述关键词库中的关键词进行比较,获得每个所述关键词对应的可靠性标签;根据每个所述关键词对应的可靠性标签获得所述该待评估的贷款软件的可靠性标签。5.根据权利要求1所述的贷款风险预测方法,其特征在于,在所述将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数的步骤后,所述方法还包括,判断该用户的所述风险系数是否超过预设风险值;当所述风险系数超过所述预设风险值时,向预设的终端发送用于表征该用户发生恶性贷款可能性的通知信息。6.一种贷款风险预测装置,其特征在于,所述装置包括:第一训练模块、第一获取模块、第二获取模块、第三获取模块以及风险预测模块,所述第一训练模块用于获取多个包括用户的通信行为数据以及每个用户是否贷款的贷款标签进行机器学习训练,获得风险预测模型;所述通信行为数据包括:位置信息、通信信息、上网信息、时序信息、终端信息以及话费账单信息;所述第一获取模块用于获取待评估的用户的通信行为数据;所述第二获取模块用于获取待评估的用户使用的贷款软件的名称;所述第三获取模块用于获取每个所述贷款软件的可靠性标签,所述可靠性标签用于表征所述贷款软件的可靠性类别;所述风险预测模块用于将待评估的用户的通信行为数据以及可靠性标签输入所述风险预测模型,获得用于表征该待评估的用户陷入恶性贷款的可能性的风险系数。7.根据权利要求6所述的贷款风险预测装置,其特征在于,所述装置还包括第二训练模块,所述第二训练模块用于,获取多个原始识别样本进行机器学习训练,获得软件识别模型,每个所述原始识别样本包括应用软件的介绍信息以及表征该应用软件是否为贷款软件的标签信息;所述第三获取模块包括,应用获取单元、信息获取单元、分类判断单元以及可靠性判断单元,所述应用获取单元用于根据用户的上网信息获取用户使用的应用软件的名称;所述信息获取单元用于针对每个所述应用软件的名称获取该应用软件的介绍信息;所述分类判断单元用于对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息;所述可靠性判断单元用于在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别。8.根据权利要求7所述的贷款风险预测装置,其特征在于,所述第二训练模块包括:样本获取单元、计算单元以及调整单元,所述样本获取单元用于获取由多个训练样本和多个测试样本构成的原始识别样本集,其中,所述原始识别样本集中的每个样本均包括一个所述应用软件在应用商店中的介绍信息以及该应用软件的标签信息;所述计算单元用于对每个所述训练样本和每个所述测试样本的介绍信息进行分词处理和停用词处理,获得由所有样本的所有词构成的字典;根据所述字典获得获取各个训练样本的词袋向量以及各个测试样本的词袋向量;根据每个测试样本的词袋向量与每个训练样本的词袋向量分别获取每个测试样本的词袋向量与每个训练样本的词袋向量的相似度;所述调整单元用于根据每个测试样本与每个训练样本的相似度以及每个测试样本的标签信息、每个训练样本的标签信息调整相似度筛选阈值以及标签区分阈值;所述分类判断单元用于对每个所述应用软件,分别将该应用软件的介绍信息输入预先训练好的软件识别模型,获得该应用软件是否为贷款软件的标签信息的步骤包括:对待判断类型的所述应用软件的介绍信息进行分词处理和停用词处理,获得该待判断类型的应用软件的词袋向量;分别计算待判断类型的应用软件的所述词袋向量与各个所述训练样本中的词袋向量的相似度;获取所述相似度在所述相似度筛选阈值范围内的训练样本的标签信息;根据相似度筛选阈值范围内的训练样本的标签信息获得待判断类型的应用软件的标签信息。9.根据权利要求7或8所述的贷款风险预测装置,其特征在于,所述可靠性判断单元用于在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别的步骤包括:获取由已知的贷款软件的评论信息获得的关键词库,所述关键词库包括可靠性标签为诈骗类的关键词以及可靠性标签为贷款类关键词;所述在所述应用软件是贷款软件的情况下,获取该贷款软件的可靠性标签,所述可靠性标签用于表征该贷款软件的可靠性类别的步骤包括:获取待评估的贷款软件的评论信息,从所述待评估的贷款软件的评论信息中获取关键词;将待评估的贷款软件的每个所述关键词与所述关键词库中的关键词进行比较,获得每个所述关键词对应的可靠性标签;根据每个所述关键词对应的可靠性标签获得所述该待评估的贷款软件的可靠性标签。10.根据权利要求6所述的贷款风险预测装置,其特征在于,所述装置还包括通知模块,所述通知模块用于判断该用户的所述风险系数是否超过预设风险值;当所述风险系数超过所述预设风险值时,向预设的终端发送用于表征该用户发生恶性贷款可能性的通知信息。

百度查询: 四川大学 贷款风险预测方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。