买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】数据类型的识别、模型训练、风险识别方法、装置及设备_阿里巴巴集团控股有限公司_201710458652.3 

申请/专利权人:阿里巴巴集团控股有限公司

申请日:2017-06-16

公开(公告)日:2020-09-15

公开(公告)号:CN107391569B

主分类号:G06F16/2458(20190101)

分类号:G06F16/2458(20190101);G06F16/35(20190101);G06K9/62(20060101);G06Q10/06(20120101)

优先权:

专利状态码:有效-授权

法律状态:2020.09.15#授权;2017.12.19#实质审查的生效;2017.11.24#公开

摘要:本申请提供一种数据类型的识别、模型训练方法、装置及计算机设备,该模型训练方法包括:获取第一样本数据集,利用所述第一样本数据集对异常检测模型进行训练;通过所述异常检测模型从第二样本数据集中检测出异常样本数据集,利用所述异常样本数据集对分类模型进行训练。本实施例能降低分类模型的打分事件量,也能提供相对平衡的样本数据集进行训练,得到准确率较高的分类模型。具体应用时,待识别数据先输入至异常检测模型中,能快速区分出是否为第一类数据,对于异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,在线进行数据识别速度较快。

主权项:1.一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据;用于训练所述异常检测模型的第一样本数据集中第一类数据的数量大于第二类数据的数量;其中,所述第一类数据为安全数据,所述第一类数据之外的其他数据为异常数据,所述第二类数据为风险数据,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。

全文数据:数据类型的识别、模型训练、风险识别方法、装置及设备技术领域[0001]本申请涉及数据分析技术领域,尤其涉及数据类型的识别、模型训练、风险识别方法、装置及设备。背景技术[0002]在数据分析领域中,经常需要识别数据的类型。例如,识别用户账户是否被盗用、识别交易是否为风险交易、识别用户行为是否为欺诈行为等等。相关技术中,通常根据历史数据确定黑白样本,其中,白样本表示历史数据中正常的一类样本,黑样本表示历史数据中出现账户盗用、高风险交易或欺诈行为等等事件的另一类样本。之后可基于分类算法,利用黑白样本训练得到分类器。[0003]然而现实生活中,相对于正常事件,账户盗用、高风险或欺诈行为的事件的出现概率较低,因此,黑白样本在多数的场景下都是严重的不平衡,黑样本占总体样本的比例较低,因此会给分类器的训练带来较大挑战,分类器的识别准确率可能较低。发明内容[0004]为克服相关技术中存在的问题,本申请提供了数据类型的识别、模型训练、风险识别方法、装置及设备。[0005]—种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:[0006]获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;[0007]将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。[0008]可选的,所述异常检测模型通过如下方式预先训练得到:[0009]获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;[0010]利用所述第一样本数据集对异常检测模型进行训练。[0011]可选的,所述分类模型通过如下方式预先训练得到:[0012]通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;[0013]利用所述异常样本数据集对所述分类模型进行训练。[0014]可选的,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:[0015]基于特征优化算法优化所述异常样本数据集。[0016]一种模型训练方法,用于训练异常检测模型和分类模型;[0017]所述异常检测模型用于检测输入数据出第一类数据;_[0018]所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;[0019]所述方法包括:[0020]通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;[0021]通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。[0022]可选的,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:[0023]基于特征优化算法优化所述异常样本数据集。[0024]一种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:[0025]获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;[0026]若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;[0027]若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。[0028]一种数据类型的识别装置,用于识别数据为第一类数据或第二类数据,所述装置包括:[0029]数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;[0030]类型确定模块,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。[0031]可选的,还包括异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。[0032]可选的,还包括分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。[0033]可选的,所述装置还包括优化模块,用于在利用所述异常样本数据集对所述分类模型进行训练前,基于特征优化算法优化所述异常样本数据集。[0034]—种模型训练装置,用于训练异常检测模型和分类模型;[0035]所述异常检测模型用于检测输入数据为第一类数据;一[0036]所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;[0037]所述装置包括:[0038]异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;[0039]分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。[0040]可选的,所述装置还包括优化模块,用于在利用所述异常样本数据集对所述分类模型进行训练前,基于特征优化算法优化所述异常样本数据集。[0041]一种风险识别装置,用于识别数据为安全数据或风险数据,所述装置包括:[0042]数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;[0043]风险确定模块,用于:若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。[0044]一种计算机设备,包括:[0045]处理器;[0046]用于存储处理器可执行指令的存储器;[0047]其中,所述处理器被配置为:[0048]获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;[0049]将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。[0050]一种计算机设备,包括:[0051]处理器;[0052]用于存储处理器可执行指令的存储器;[0053]其中,所述处理器被配置为:[0054]通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;[0055]通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。[0056]—种计算机设备,包括:[0057]处理器;[0058]用于存储处理器可执行指令的存储器;[0059]其中,所述处理器被配置为:[006°]获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;[0061]若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;[0062]若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。[0063]本申请的实施例提供的技术方案可以包括以下有益效果:[GGM]本申请实施例中,在训练过程中,首先利用第一样本数据集训练得到异常检测模型,基于此,全量的第二样本数据集可以筛选出异常样本数据集。由于分类模型是利用异常检测模型识别出的异常样本数据集训练得到,因此对于分类模型,可以剔除大部分的第一类数据,快速区分出相比较大多数样本而言异常的样本,而剩余的异常样本可能包含了绝大多数的第二类数据,以及部分第一类数据。之后利用异常样本进行分类模型训练,既可以降低最终分类模型的打分事件量,又可以提供相对平衡的样本数据集供分类模型训练,由于异常样本数据集中第一类数据和第二类数据的比例相对均衡,因此能够训练得到准确率较高的分类模型,因此可以结合这两个部分提升数据识别能力。在具体应用时,可以线上部署异常检测模型和分类模型,待识别数据首先输入至异常检测模型中,从而可以快速区分出该待识别数据是否为异常,如果异常,则进一步由分类模型进行分类。[0065]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明[0066]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。[0067]图1A是本申请根据一示例性实施例示出的一种模型训练方法的示意图。[0068]图1B是本申请根据一示例性实施例示出的一种异常检测的示意图。[0069]图2是本申请根据一示例性实施例示出的一种数据类型的识别方法的示意图。[007°]图3A是本申请根据一示例性实施例示出的风险识别方法的示意图。[0071]图3B是本申请根据一示例性实施例示出的模型训练和风险识别方法的应用场景不意图。[0072]图4是本申请数据类型的识别装置模型训练装置风险识别装置所在计算机设备的一种硬件结构图。[0073]图5是本申请根据一示例性实施例示出的一种数据类型的识别装置的框图。[0074]图6是本申请根据一示例性实施例示出的一种模型训练装置的框图。[0075]图7是本申请根据一示例性实施例示出的一种风险识别装置的框图。具体实施方式[0076]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。[0077]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。[0078]应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时,,或“当……时”或“响应于确定”。[0079]在数据分析领域中,经常需要识别数据的类型。例如,识别用户账户是否被盗用、识别交易是否为风险交易、识别用户行为是否为欺诈行为等等。[0080]以风险识别为例,风险识别是风控体系中重要的组成部分,是风险决策的主要依据来源。随着机器学习和数据挖掘技术的普及和进步,利用模型进行风险识别成为一种趋势。一种典型的模型风险识别是利用有监督学习算法,根据历史行为和业务经验知识,构建模型及入模变量,再以黑白标签训练模型。最后训练好的模型部署于线上,实时对风险进行判别。这类方案相比于传统基于规则的识别不仅更加精确,而且难以被轻易攻破,但仍旧存在问题和挑战:[0081]一方面,黑白样本在多数的场景下严重不平衡。在现实生活中,大部分的时间都可以认为是安全的或者低风险的,因此这一类正常数据(白样本的数量非常大。相比较而言,高风险事件的这一类数据黑样本只占很小部分,如万分之一甚至比例更低。因此,在利用历史数据确定样本时,样本中的黑白比例会有严重的不平衡情况。虽然很多方案会通过采样、惩罚等技术提高黑样本占总体训练样本的比例,但无法从根本上解决样本不平衡给分类器带来的挑战,所训练的分类器的准确率可能无法保证。[0082]另一方面,线上高并发海量数据对分类器的性能不断提出更高的要求。线上模型需要在短时间内,如200ms内识别出风险,否则会影响系统的稳定和用户体验,风险形势和用户体验对快速识别的精准性和性能正在提出更多的挑战。[0083]基于此,本申请实施例一方面提供了一种模型训练方案,该模型训练方案能训练有异常检测模型和分类模型,该异常检测模型用于通过检测输入数据是否异常,从而识别出第一类数据;该分类模型用于对异常检测模型识别出的第一类数据之外的其他数据进行分类。本实施例的分类模型是利用异常检测模型识别出的异常样本数据集训练得到,由于异常检测模型可以剔除大部分的第一类数据,并能快速区分出相比较大多数样本而言异常的样本,而剩余的异常样本可能包含了绝大多数的第二类数据,以及部分第一类数据。之后利用异常样本进行分类模型训练,既可以降低最终分类模型的打分事件量,又可以提供相对平衡的样本数据集供分类模型训练。由于异常样本数据集中第一类数据和第二类数据的比例相对均衡,因此能够训练得到准确率较高的分类模型,可以结合这两个部分提升数据识别能力。在具体应用时,可以线上部署异常检测模型和分类模型,待识别数据首先输入至异常检测模型中,从而可以快速区分出该待识别数据是否异常,对于异常的数据,则进一步由分类模型准确地进行分类。接下来对本申请实施例进行详细说明。[0084]首先对模型训练过程进行说明,如图1A所示,是本申请根据一示例性实施例示出的一种模型训练方法的示意图,该模型训练方法用于训练异常检测模型和分类模型。所述异常检测模型用于检测输入数据是否异常,以检测出第一类数据;所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类。[0085]该方法包括如下步骤:[0086]在步骤1〇2中,通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。[0087]在步骤104中,通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。[0088]本申请实施例中,采用第一类数据和第二类数据对数据类型进行区分,其中,第一类数据表示数量相对较多的一类数据,第二类数据表示数量相对较少的一类数据。在不同场景下,第一类数据和第二类数据可以根据具体场景的需要,代表相应场景中不同类型的数据。例如,以风险识别场景为例,低风险数据的安全数据量较大,而发生高风险的概率较低,高风险数据量较少,因此,第一类数据可以是指低风险的安全数据,第二类数据可以是指高风险数据。以账户盗用场景为例,正常行为的数据量较大,而发生账户盗用行为的概率较低,高风险数据量较少,因此,第一类数据可以是指正常行为数据,第二类数据可以是指账户盗用行为数据。实际应用中,可以根据具体场景而灵活确定。[0089]在模型训练过程中,首先进行异常检测模型的训练。具体的,可以获取历史数据集,历史数据集中包含了第一类数据和第二类数据,进一步地,可以结合业务经验,选择出包括有多个特征的特征集合,各特征的组合表征每一条数据的特点,在不同应用场景中可以根据业务需要选择合适的特征,例如风险识别场景中,特征集合可以包括有历史支付天数、支付金额、支付时刻、支付设备特征或用户使用习惯等等。通过特征集合,可以对历史数据集中每一条数据转换为相应的用各特征向量表示的样本数据,从而获得样本数据集。本实施例中,为了区分,将用于训练异常检测模型的样本数据集称为第一样本数据集。[0090]接着,利用所述第一样本数据集对异常检测模型进行训练,具体的,可以是基于异常检测算法,确定初始化的异常检测模型,利用所述第一样本数据集进行训练,得到所述异常检测模型中的参数值。实际应用中,可以根据需要灵活选择异常检测算法,例如支持向量聚类机、隔离树算法等等。[0091]以支持向量聚类机为例,支持向量聚类是一种无监督异常检测方法,该方法可以把复杂维度的样本映射到高维空间,使得样本可以尽可能聚拢在一个区域中。如图1B所示,是本申请根据一示例性实施例示出的一种异常检测的示意图,图1B中的圆圈表示超球体,被超球体包裹在内部的数据表示正常数据,用矩形表示,在超球体外部的数据为异常数据,用星状图形表示。本实施例中,模式越是相近的个体之间离得越近并接近中心,而模式异常或f同的个体会远离中心。因此可以在映射好的高维空间中形成一超球体对样本数据进行包裹,使尽可能多的样本数据被包裹在超球体内部,在外部的剩余样本可以被视为异常数据。在实际使用过程中,可以根据需要确定超球体半径R的约束,只需确保数据量较大的正常的第一类样本数据被包裹在球体中,而外部的异常数据,与正常的第一类样本数据相似度较低,有可能是第一类数据,也有可能是第二类数据。具体的异常数据选择比例或异常模式的抓取力度可以通过支持向量聚类机的输出分值来刻画,根据实际应用场景,通过样本数据集可训练出合适的大小。[0092]本实施例中,当异常检测模型训练好并部署应用后,全量的样本数据集可以通过异常检测模型,由异常检测模型可以筛选出其中的异常样本数据集,而异常样本数据集则可以用于训练分类模型。接下来对分类模型的训练过程进行说明。[0093]与异常检测模型的训练过程相同,分类模型的训练同样需要样本数据集,本实施例中将用于分类模型训练的样本数据集称为第二样本数据集。实际应用中,第二样本数据集可以与第一样本数据集不同,也可以是相同的样本数据集。[0094]具体训练时,全量的第二样本数据集可以通过异常检测模型筛选出异常样本数据集,由于进行分类模型训练时,输入的样本数据集不再是全量,大量正常的第一类数据被剔除掉,只剩余部分可能为第一类数据也可能为第二类数据的异常样本,因此黑白样本数据相对平衡,更有利于保证模型训练和应用的一致性。之后,可利用所述异常样本数据集对所述分类模型进行训练,具体的,可以是基于分类算法确定初始化的分类模型,利用所述异常样本数据集进行训练,得到所述分类模型中的参数值。实际应用中可以根据需要灵活选择分类算法,例如决策树、贝叶斯分类算法、人工神经网络、K-近邻算法或随机森林分类算法等等。[0095]在利用异常检测模型筛选出异常样本数据集后,由于异常样本数据集具有的特征是前述的特征集合中的特征,考虑到此时第一类数据和第二类数据的比例相对平衡,可以考虑尝试优化特征,以提高训练速度。在一个可选的实现方式中,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:[0096]基于特征优化算法优化所述异常样本数据集。[0097]本实施例中,由于样本较为均衡,可以尝试考虑采用特征优化算法对异常样本数据集所具有的特征进行优化,以选择出更优的特征子集,获得优化后的异常样本数据集。作为一种典型方法,可以采用遗传算法进行优化。举例来说,对所有的特征进行二值编码,1为选择入模,0为拒绝入模,适应性函数fitnessfunction可以采用模型的输出分值与入模变量个数做一'个平衡,例如米用贝叶斯信息准则BIC,beyesianinformationcriterion等等,实际应用中可以根据需要灵活选择特征优化算法。[0098]上述过程涉及模型的训练过程,接下来对模型上线后的应用过程进行描述。如图2所示,是本申请根据一示例性实施例示出的一种数据类型的识别方法的示意图,该方案可用于识别数据为第一类数据或第二类数据,该方法包括如下步骤:[0099]在步骤202中,获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据。[0100]在步骤204中,将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。[0101]由前述模型训练过程可知,异常检测模型用于检测输入是否异常,而分类模型可用于识别输入的异常的数据为第一类数据或第二类数据。因此,本实施例在需要对数据的类型进行识别时,可以获取待识别数据,待识别数据具有与异常检测模型检测时所需的特征。根据待识别数据所具有的特征,首先利用异常检测模型检测所述待识别数据是否异常,若待识别数据被检测为非异常,确定所述待识别数据为第一类数据;若为异常,则利用预设的分类模型识别所述待识别数据为第一类数据或第二类数据。[0102]其中,所述异常检测模型通过如下方式预先训练得到:[0103]获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;[0104]利用所述第一样本数据集对异常检测模型进行训练。[0105]其中,所述分类模型通过如下方式预先训练得到:[0106]通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;[0107]利用所述异常样本数据集对所述分类模型进行训练。[0108]在一个可选的实现方式中,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:[0109]基于特征优化算法优化所述异常样本数据集。[0110]上述两个模型的训练过程可参看图1A所示实施例的说明,本实施例对此不再赘述。[0111]接下来以风险识别场景为例,对本申请实施例再次进行说明。如图3A所示,是本申请根据一示例性实施例示出的一种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:[0112]在步骤302中,获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;[0113]在步骤3〇4中,若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;[0114]在步骤3〇6中,若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。[0115]如图3B所示,是本申请根据一示例性实施例示出的模型训练和风险识别方法的应用场景示意图。本实施例可以构建一个异常检测模型和分类模型结合的风险识别系统,用于对输入数据进行风险识别,以识别输入数据为低风险的正常数据还是风险数据。该方案具体涉及异常检测、特征优化和有监督的分类学习。实际应用中,以上三个过程可以使用多种算法。本实施例中,异常检测以支持向量聚类supportvectorclustering为例,特征优化以遗传算法geneticalgorithm为例,有监督的分类学习以随机森林为例进行描述。[0116]训练过程包括:获取历史数据,首先结合业务场景,选择出特征集合刻画风险,如历史支付天数,支付设备特征,用户使用习惯等,根据历史数据,确定包含了黑白样本形成样本数据集。利用样本数据集对设定的异常检测模型进行训练。本实施例中,异常检测采用支持向量聚类机为例,将样本数据集输入到支持向量聚类机中学习。支持向量聚类是一种无监督异常检测方法,它可以把复杂维度的样本映射到高维空间,使得样本可以尽可能聚拢在一个区域中。聚拢的数据即为数据量较大的正常的一类数据,而没有聚拢在中心区域的,则为异常数据。[0119]如图1B所示,模式越是相近的个体之间离得越近并接近中心,而模式异常或不同的个体会远离中心。因此可以在映射好的高维空间中形成一超球体对样本进行包裹,使尽可能多的样本被包裹在超球体内部,在外部的剩余样本可以被视为异常点。在实际使用过程中,可以根据需要灵活设定超球体半径R的约束,只需确保正常样本被包裹在球体中,而外部的异常样本集可以包括真正的高危样本和部分的低危样本。因此,当模型训练好并部署线上应用时,全量的样本通过模型后,非异常样本被直接识别为低危,异常样本则输入至下一环节进一步分析判别。具体的异常数据选择比例或异常模式的抓取力度可以通过支持向量聚类机的输出分值来刻画,根据实际应用场景,通过样本数据集可训练出合适的大小。[0120]利用异常检测模型对初始的样本数据集进行检测,检测出的异常样本数据集可对分类模型进行训练。本实施例的分类模型以随机森林分类器为例,异常样本数据集可输入到随机森林分类器中训练。在训练分类模型之前,由于输入的样本不再是全量,黑白样本相对平衡,更有利于保证模型训练和应用的一致性。此时可以考虑采用特征优化算法对特征集进行优化,选择出更优的特征集。作为一种典型方法,可以采用遗传算法进行优化。比如对所有的特征进行二值编码,1为选择入模,〇为拒绝入模,fitnessfunction采用模型的输出分值与入模变量个数做一个平衡,例如采用BICbeyesianinformationcriterion。[0121]在具体应用时,可以获取待识别数据,根据待识别数据的特征,首先利用异常检测模型检测所述待识别数据是否异常,若被检测为非异常,确定所述待识别数据为低风险的安全数据;若所述待识别数据被检测为异常,利用预设的分类模型进一步识别所述待识别数据为低风险的安全数据或风险数据。[0122]与前述数据类型的识别、模型训练、风险识别方法的实施例相对应,本申请还提供了数据类型的识别、模型训练装置、风险识别装置及其所应用的计算机设备的实施例。[0123]本申请数据类型的识别装置模型训练装置风险识别装置的实施例都可以应用在计算机设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在数据类型的识别模型训练风险识别的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请数据类型的识别装置模型训练装置风险识别装置所在计算机设备的一种硬件结构图,除了图4所示的处理器410、内存430、网络接口420、以及非易失性存储器440之外,实施例中装置431所在的计算机设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。[0124]如图5所示,图5是本申请根据一示例性实施例示出的一种数据类型的识别装置的框图,用于识别数据为第一类数据或第二类数据,所述装置包括:[0125]数据获取模块51,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;[0126]类型确定模块52,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。[0127]可选的,还包括异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。[0128]可选的,还包括分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。[0129]可选的,所述装置还包括优化模块,用于利用所述异常样本数据集对所述分类模型进行训练前,基于特征优化算法优化所述异常样本数据集。[0130]如图6所示,图6是本申请根据一示例性实施例示出的一种模型训练装置的框图,用于训练异常检测模型和分类模型;[0131]所述异常检测模型用于检测出第一类数据;_[0132]所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;[0133]所述装置包括:[0134]异常检测模型训练模块61,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练;[0135]分类模型训练模块62,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。[0136]可选的,所述装置还包括优化模块,用于在利用所述异常样本数据集对所述分类模型进行训练,基于特征优化算法优化所述异常样本数据集。[0137]如图7所示,图7是本申请根据一示例性实施例示出的一种风险识别装置的框图,所述装置包括:[0138]数据获取模块71,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;[0139]风险确定模块72,用于:若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。[0M0]相应的,本申请还提供一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:[0141]获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;[0142]将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。[0143]相应的,本申请还提供一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:[0144]通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;基于异常检测算法,确定初始化的异常检测模型,利用所述第一样本数据集进行训练,得到所述异常检测模型中的参数值;[0145]通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;基于分类算法,确定初始化的分类模型,利用所述异常样本数据集进行训练,得到所述分类模型中的参数值。[0146]相应的,本申请还提供一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:[0147]获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;[0148]若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;[0149]若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。[0150]上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。[0151]对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。[0152]本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。[0153]应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。[0154]以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

权利要求:1.一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。2.根据权利要求1所述的方法,所述异常检测模型通过如下方式预先训练得到:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。3.根据权利要求2所述的方法,所述分类模型通过如下方式预先训练得到:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。4.根据权利要求1所述的方法,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:基于特征优化算法优化所述异常样本数据集。5.一种模型训练方法,用于训练异常检测模型和分类模型;所述异常检测模型用于检测出第一类数据;所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;所述方法包括:通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对分类模型进行训练。6.根据权利要求5所述的方法,在利用所述异常样本数据集对分类模型进行训练前,所迷方法还包括:基于特征优化算法优化所述异常样本数据集。7.—种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数椐或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。8.根据权利要求7所述的方法,所述异常检测模型通过如下方式预先训练得到:获取第一样本数据集,所述第一样本数据集中安全数据的数量大于风险数据的数量;利用所述第一样本数据集对异常检测模型进行训练。9.根据权利要求7所述的方法,所述分类模型通过如下方式预先训练得到:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。10.—种数据类型的识别装置,用于识别数据为第一类数据或第二类数据,所述装置包括:数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;类型确定模块,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。11.根据权利要求10所述的装置,还包括异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进彳T训练。I2•根据权利要求11所述的装置,还包括分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。13.—种模型训练装置,用于训练异常检测模型和分类模型;所述异常检测模型用于检测出第一类数据;所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;所述装置包括:异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。14.一种风险识别装置,用于识别数据为安全数据或风险数据,所述装置包括:数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;风险确定模块,用于:若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。15.—种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。16.—种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。17.—种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。

百度查询: 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。