买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于线上用户合成行为的身份盗用检测方法_同济大学_201810177924.7 

申请/专利权人:同济大学

申请日:2018-03-05

公开(公告)日:2020-09-15

公开(公告)号:CN108494741B

主分类号:H04L29/06(20060101)

分类号:H04L29/06(20060101);H04L12/24(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.09.15#授权;2018.09.28#实质审查的生效;2018.09.04#公开

摘要:一种基于合成行为建模的线上用户身份盗用检测方法,其特征在于,首先基于线上用户的合成行为投影关联性填充不充分的行为数据;然后基于合成行为形成机制特征,同时考虑合成行为的投影空间关联,设计线上用户合成行为的生成模型并推导出其中的关键参数;最后根据所得模型快速、准确地判断新行为是否正常,实现实时地身份盗用检测。本发明设计的基于线上用户合成行为的身份盗用检测方法,解决传统身份识别系统的弊病,为信息化时代安全问题的解决提供了新的思路和分析方法。本发明克服了现有技术的不足,用于实时地检测线上用户合成行为的异常指数,有效地检测出可能发生的线上身份盗用行为。

主权项:1.一种基于合成行为建模的线上用户身份盗用检测方法,其特征在于,首先基于线上用户的合成行为投影关联性填充不充分的行为数据;然后基于合成行为形成机制特征,同时考虑合成行为的投影空间关联,设计线上用户合成行为的生成模型并推导出其中的关键参数;最后根据所得模型快速、准确地判断新行为是否正常,实现实时地身份盗用检测;分为三个阶段:第一阶段是合成行为数据预处理阶段,负责对历史数据进行筛选、填充;第二阶段是合成行为模型建立阶段,负责根据第一阶段所得行为数据建立合成行为生成模型,并估计其中的关键参数;第三阶段是线上用户身份盗用检测阶段,负责按照第二阶段所得模型判断线上用户身份是否被盗用;第一阶段具体实施步骤:步骤1-1,根据用户的社交关系确定每个用户u的可能行为域步骤1-2,根据张量分解的结果计算每个用户u进行其对应可能行为域中各行为的概率,选择其中概率超过阈值P0的最大的n个合成行为作为其候选行为添加到历史行为记录中;第二阶段具体实施步骤:步骤2-1,构建一个线上用户合成行为生成模型;每个用户的行为记录作为一个行为集,全部用户的行为记录构成了一个行为库;用户的每次行为遵循机制:首先需要确定他所扮演的角色,再根据这个具体的角色确定他的位置与活动主题,最后根据活动主题产生他要发表的文本信息,这些共同构成了该用户的一次合成行为;步骤2-2,根据线上用户的合成行为的历史记录,采用Gibbs采样的方法估计各个参数的值;对于一个合成行为u,v,D,其中u代表用户,v代表签到地点,D代表发表的文本包含的词的集合,对应每个行为记录,有下述Gibbs采样公式:该行为对应的用户角色状态c的分布近似满足: 该行为对应的文本主题z的分布近似满足: 其中表示该行为是在用户角色状态为c时完成的概率,表示该行为是在文本主题为z时完成的概率,nX表示数据集中状态为x的样本数,上标表示去除掉当前样本的结果,α、β、γ、η是四个超参数,取值为1.67,0.01,2.50,0.01;第三阶段具体实施步骤:步骤3-1,根据第二阶段得到的生成模型,计算每个历史行为b=u,v,D的异常指数从而确定阈值T0;其中步骤3-2,计算新的合成行为b′的异常指数Sb′,超过阈值T0的判定为异常行为,认为存在身份盗用的风险向用户发出警告,请求确认身份,否则判定为正常行为,直接放行,继续检测用户的后续行为;w表示文本中的单词,v表示行为发生的地点;z、c是隐变量,z表示文本的主题,c表示用户在该行为中所属角色;;π、θ、φ是该模型的关键参数,分别表示用户的角色状态分布、角色的地点分布、角色的文本主题分布、主题的单词分布;A指向B的箭头表示A决定B、C,Z、D、U、Bu分别表示角色的种数、主题的种数、一条信息中单词的数量、用户的数量、用户u的行为记录次数。

全文数据:基于线上用户合成行为的身份盗用检测方法技术领域[0001]本发明涉及线上用户身份盗用检测方法。背景技术[0002]随着互联网的迅速发展,越来越多的事务可以在线处理,给人们生活带来了诸多便利。然而由此也引发了诸多潜在的风险。线上账户充当着网络世界中用户的身份凭证。线上身份盗用是一种典型的网络犯罪,事实上,被盗用的账户通常也是其他网络犯罪,如勒索,欺诈和垃圾邮件的源头。因此,线上身份盗窃检测对于保障用户在网络世界的安全至关重要。[0003]传统的身份盗用检测方法通常是基于接入控制的,例如设置登录密码、物理令牌。但用户需要为管理诸多的密码、令牌而付出额外的精力。近年来,随着生物认证技术的发展,人们进入了免密时代。但是这些技术应用在实时的线上服务中时仍有一些缺陷:(1这些检测是侵入式的检测,检测中需要用户进行额外的操作;(2这些检测不具有持续性,一旦被攻破缺乏后续的矫正能力。[0004]基于行为的身份盗用检测方法作为一种能够实现非侵入、持续式的线上身份认证的方法备受瞩目。基于线上用户合成行为的用户身份盗用检测方法为互联网信息安全问题提供了新的视角,利用网络中产生的海量信息,考虑用户行为在物理-网络-社交空间上的行为特点及之间的关联性,对每个用户在合成行为空间中建模。[0005]线上用户合成行为建模面临的重要挑战是个人数据的不充分性问题。由于各种条件限制可获得的每个用户的行为记录往往不足以构造可信的模型,这极大地影响了模型的性能。发明内容[0006]本发明通过基于用户行为投影(用户在不同行为子空间中的行为)的互补效应来填补行为数据的不充分性,以此完备用户行为的建模。为此,本发明研究基于线上用户合成行为的身份盗用检测方法。对线上用户合成行为的一致进行检测,以此来判定该用户合成行为的合法性。[0007]为此,给出的技术方案为:[0008]—种基于行为建模的移动社交网络用户身份识伪方法,其特征在于,个性化、实时性、非侵入、持续性、兼容性。首先基于线上用户的合成行为投影关联性填充不充分的行为数据。然后基于合成行为形成机制特征,同时考虑合成行为的投影空间关联,设计线上用户合成行为的生成模型并推导出其中的关键参数概率)。最后根据所得模型快速、准确地判断新行为是否正常,实现实时地身份盗用检测。[0009]整个技术方案分为三个阶段:[0010]第一阶段是合成行为数据预处理阶段,负责对历史数据进行筛选、填充;[0011]第二阶段是合成行为模型建立阶段,负责根据阶段一所得行为数据建立合成行为生成模型,并估计其中的关键参数;[0012]第三阶段是线上用户身份盗用检测阶段,负责按照阶段二所得模型判断线上用户身份是否被盗用。[0013]第一阶段具体实施步骤:[0014]步骤1-1,根据用户的社交关系确定每个用户u的可能行为域^二士啦成激芍凡。[0015]步骤1-2,根据张量分解的结果计算每个用户u进行其对应可能行为域民中各行为的概率,选择其中概率超过阈值Po的最大的η个合成行为作为其候选行为添加到历史行为记录中。[0016]第二阶段具体实施步骤:[0017]步骤2-1,构建一个线上用户合成行为生成模型。每个用户的行为记录作为一个行为集,全部用户的行为记录构成了一个行为库。用户的每次行为遵循着这样的潜在影响机制:首先需要确定他所扮演的角色,再根据这个具体的角色确定他的位置与活动主题,最后根据活动主题产生他要发表的文本信息,这些共同构成了该用户的一次合成行为。具体生成机制如图2所示其中:灰色圆圈表示具体的行为w表示文本中的单词,V表示行为发生的地点);z、c是隐变量,(ζ表示文本的主题,c表示用户在该行为中所属角色);α、β、γ、ri是四个超参数影响着模型的关键参数),取值为1.67,0.01,2.50,0.01;π、θ、θ、φ是该模型的关键参数,分别表示用户的角色状态分布、角色的地点分布、角色的文本主题分布、主题的单词分布。A指向B的箭头表示A决定B如,角色c到主题ζ的箭头表示主题ζ的取值分布是由角色c的取值决定的)。图中方框右下角的符号X表示方框中的内容重复的次数如单词w所在方框中的D表示这里D个单词w,结合主题ζ到单词w的箭头,就表示主题ζ决定了D个单词w。方框右下的符号C,Z、D、U、BU分别表示角色的种数、主题的种数、一条信息中单词的数量、用户的数量、用户u的行为记录次数。[0018]步骤2-2,根据线上用户的合成行为的历史记录,采用Gibbs采样的方法估计各个参数的值。对于一个合成行为u,v,D,其中u代表用户,V代表签到地点,D代表发表的文本包含的词的集合,对应每个行为记录,有下述Gibbs采样公式:[0019]该行为对应的用户角色状态c的分布近似满足:[0021]该行为对应的文本主题ζ的分布近似满足:[0023]其中:P〇Id,V,表示该行为是在用户角色状态为C时完成的概率,Ρζ_|ζΆ表示该行为是在文本主题为Z时完成的概率,ηχ表示数据集中状态为X的样本数,上标-表示去除掉当前样本的结果,α、β、γ、η是四个超参数,取值为1.67,0.01,2.50,0.01。[0024]Gibbs采样流程如下:[0025]1随机初始化:对每条行为记录,随机的赋予一个角色状态c,一个文本主题ζ;[0026]2重新分配:按照上述Gibbs采样公式重新给每条记录赋予新的角色状态c和文本主题ζ;[0027]3重复2到收敛[0028]4统计此时每个用户的角色状态分布每个角色的地点分布与文本主题分布、每个主题的词分布:得到用户的合成行为特征。其中nu,。表示用户u处于角色c的次数,η。,V表示处于角色c的用户出现在地点V的次数,η。,ζ表示处于角色c的用户发表主题ζ的文本的次数,112^表示主题ζ的文本中单词w出现的次数。[0029]第三阶段具体实施步骤:[0030]步骤3-1,根据第二阶段得到的生成模型,计算每个历史行为b=u,v,D的异常指数从而确定阈值To。[0031]其中[0032]步骤3-2,计算新的合成行为M的异常指数SbS超过阈值To的判定为异常行为,认为存在身份盗用的风险向用户发出警告,请求确认身份,否则判定为正常行为,直接放行,继续检测用户的后续行为。[0033]得益于当前移动社交网络提供的丰富信息数据,我们可以获取到大量用户社交数据,包括位置、移动模式、社交关系、用户生成内容及购物记录等。我们设计了一个基于贝叶斯网络的概率图模型来描述用户的合成行为产生机制。[0034]在这个模型中,我们认为每个用户的行为记录构成一个行为集,全部用户的行为记录构成了一个行为库。用户的每次行为遵循着这样的潜在影响机制:首先需要确定他所扮演的角色,再根据这个具体的角色确定他的位置与活动主题,最后根据活动主题产生他要发表的文本信息,这些共同构成了该用户的一次合成行为。[0035]根据历史行为数据训练出上述机制中的关键参数如:用户扮演不同角色的概率等后,我们能够计算出每个行为的产生概率并由此设置检测阈值,得到检测的拦截率和打扰率以及查准率,并由此来评价系统性能。[0036]本发明设计的基于线上用户合成行为的身份盗用检测方法,解决传统身份识别系统的弊病,为信息化时代安全问题的解决提供了新的思路和分析方法。本发明克服了现有技术的不足,用于实时地检测线上用户合成行为的异常指数,有效地检测出可能发生的线上身份盗用行为。[0037]本发明经过实验证明,该方法在准确率和计算时间上都优于先前的研究。附图说明[0038]图1本发明基于线上用户合成行为的身份盗用检测方法系统结构图[0039]图2本发明生成模型结构图具体实施方式[0040]案例)[0041]基于线上用户合成行为的身份盗用检测方法系统结构图,如图1所示。整个方案分为三个阶段:[0042]第一阶段是合成行为数据预处理阶段,负责对历史数据进行筛选、填充;(属本领域常规技术)[0043]第二阶段是合成行为模型建立阶段,负责根据阶段一所得行为数据建立合成行为生成模型,并估计其中的关键参数;[0044]第三阶段是线上用户身份盗用检测阶段,负责按照阶段二所得模型判断线上用户身份是否被盗用。(属本领域常规技术)[0045]第一阶段具体实施步骤:[0046]步骤1-1,根据用户的社交关系确定每个用户u的可能行为域[0047]步骤1-2,根据张量分解的结果计算每个用户u进行其对应可能行为域中各行为的概率,选择其中概率超过阈值Po的最大的η个合成行为作为其候选行为添加到历史行为记录中。[0048]第二阶段具体实施步骤:[0049]步骤2-1,构建一个线上用户合成行为生成模型。每个用户的行为记录作为一个行为集,全部用户的行为记录构成了一个行为库。用户的每次行为遵循着这样的潜在影响机制:首先需要确定他所扮演的角色,再根据这个具体的角色确定他的位置与活动主题,最后根据活动主题产生他要发表的文本信息,这些共同构成了该用户的一次合成行为。具体生成机制如图2所示其中:灰色圆圈表示具体的行为w表示文本中的单词,V表示行为发生的地点);z、c是隐变量,(ζ表示文本的主题,c表示用户在该行为中所属角色);α、β、γ、ri是四个超参数影响着模型的关键参数),取值为1.67,0.01,2.50,0.01;π、#、θ、φ是该模型的关键参数,分别表示用户的角色状态分布、角色的地点分布、角色的文本主题分布、主题的单词分布。A指向B的箭头表示A决定B如,角色c到主题ζ的箭头表示主题ζ的取值分布是由角色c的取值决定的)。图中方框右下角的符号X表示方框中的内容重复的次数如单词w所在方框中的D表示这里D个单词w,结合主题ζ到单词w的箭头,就表示主题ζ决定了D个单词w。方框右下的符号C,Z、D、U、BU分别表示角色的种数、主题的种数、一条信息中单词的数量、用户的数量、用户u的行为记录次数。[0050]步骤2-2,根据线上用户的合成行为的历史记录,采用Gibbs采样的方法估计各个参数的值。对于一个合成行为u,v,D,其中u代表用户,V代表签到地点,D代表发表的文本包含的词的集合,对应每个行为记录,有下述Gibbs采样公式:[0051]该行为对应的用户角色状态c的分布近似满足:[0053]该行为对应的文本主题ζ的分布近似满足:[0055]其4表示该行为是在用户角色状态为c时完成的概率,_..表示该行为是在文本主题为ζ时完成的概率,M表示数据集中状态为X的样本数,上标表示去除掉当前样本的结果,α、β、γ、n是四个超参数,取值为1.67,0.01,2.50,0.01。[0056]Gibbs采样流程如下:[0057]5随机初始化:对每条行为记录,随机的赋予一个角色状态c,一个文本主题z;[0058]6重新分配:按照上述Gibbs采样公式重新给每条记录赋予新的角色状态c和文本主题z;[0059]7重复2到收敛[0060]8统计此时每个用户的角色状态分布每个角色的地点分布与文本主题分布、每个主题的词分布得到用户的合成行为特征。其中nu,。表示用户u处于角色c的次数,η。,V表示处于角色c的用户出现在地点V的次数,η。,ζ表示处于角色c的用户发表主题ζ的文本的次数,112^表示主题ζ的文本中单词w出现的次数。[0061]第三阶段具体实施步骤:[0062]步骤3-1,根据第二阶段得到的生成模型,计算每个历史行为b=u,v,D的异常指数从而确定阈值To。[0063]其中[0064]步骤3-2,计算新的合成行为M的异常指数SbS超过阈值To的判定为异常行为,认为存在身份盗用的风险向用户发出警告,请求确认身份,否则判定为正常行为,直接放行,继续检测用户的后续行为。[0065]经过实验证明,该方法在准确率和反应时间上都优于先前的研究。[0066]本项目的创新点[0067]1.通过用户历史合成行为数据,建立用户合成行为模型。[0068]2.利用多个维度间行为的关联性,得到了更精确的身份盗用检测方法。[0069]3.区别以往的身份识伪方式,不依赖于硬件设备,根据用户自身的合成行为特征作为一种用户身份的标识,并具有很高的可信度。[0070]批注:本发明中的有关术语以及对于先前的主要技术可参见如下资料。[0071][l]deMontjoyeYA1RadaelliL1SinghVK,etal.Identityandprivacy.Uniqueintheshoppingmall:onthereidentiflabilityofcreditcardmetadata.[J].ScienceNewYorkjN.Y.,2015,3476221:536-539.[0072][2]EgeleMjStringhiniGjKruegelC,etal·TowardsDetectingCompromisedAccountsonSocialNetworks[J].IEEETransactionsonDependabIeSecureComputing,2017,14⑷:447-460.[0073][3]Diaz-SantiagoSjRodriguez-HenriquezLM,ChakrabortyD.Acryptographicstudyoftokenizationsystems[C]InternationalConferenceonSecurityandCryptography.IEEE,2016:413-432.[0074][4]Ruiz-BlondetMVjJinZjLaszloS.CEREBRE:ANovelMethodforVeryHighAccuracyEvent-RelatedPotentialBiometricIdentification[J].IEEETransactionsonInformationForensicsSecurity,2016,117:1618-1629.[0075][5]CaoQ,YangX,YuJ,etal.UncoveringLargeGroupsofActiveMaliciousAccountsinOnlineSocialNetworks[J].2014:477-488.[0076][6]LesaegeCjSchnitzlerF,LambertA,etaI.Time-AwareUserIdentificationwithTopicModels[C]IEEE,InternationalConferenceonDataMining.IEEE,2017:997-1002.[0077][7]LiHjGeY,ZhuH,etal·Point-of-InterestRecommendations:LearningPotentialCheck-insfromFriends[C]ACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.ACM,2016:975-984.[0078][8]ShenC,ZhangY,GuanX,etal.PerformanceAnalysisofTouch-InteractionBehaviorforActiveSmartphoneAuthentication[J].IEEETransactionsonInformationForensicsSecurity,2017,113:498-513.

权利要求:1.一种基于合成行为建模的线上用户身份盗用检测方法,其特征在于,首先基于线上用户的合成行为投影关联性填充不充分的行为数据;然后基于合成行为形成机制特征,同时考虑合成行为的投影空间关联,设计线上用户合成行为的生成模型并推导出其中的关键参数;最后根据所得模型快速、准确地判断新行为是否正常,实现实时地身份盗用检测。2.如权利要求1所述的方法,其特征在于,分为三个阶段:第一阶段是合成行为数据预处理阶段,负责对历史数据进行筛选、填充;第二阶段是合成行为模型建立阶段,负责根据阶段一所得行为数据建立合成行为生成模型,并估计其中的关键参数;第三阶段是线上用户身份盗用检测阶段,负责按照阶段二所得模型判断线上用户身份是否被盗用。第一阶段具体实施步骤:步骤1-1,根据用户的社交关系确定每个用户u的可能行为域步骤1-2,根据张量分解的结果计算每个用户u进行其对应可能行为域瓦中各行为的概率,选择其中概率超过阈值Po的最大的η个合成行为作为其候选行为添加到历史行为记录中。第二阶段具体实施步骤:步骤2-1,构建一个线上用户合成行为生成模型。每个用户的行为记录作为一个行为集,全部用户的行为记录构成了一个行为库。用户的每次行为遵循机制:首先需要确定他所扮演的角色,再根据这个具体的角色确定他的位置与活动主题,最后根据活动主题产生他要发表的文本信息,这些共同构成了该用户的一次合成行为。步骤2-2,根据线上用户的合成行为的历史记录,采用Gibbs采样的方法估计各个参数的值。对于一个合成行为u,v,D,其中u代表用户,V代表签到地点,D代表发表的文本包含的词的集合,对应每个行为记录,有下述Gibbs采样公式:该行为对应的用户角色状态c的分布近似满足:该行为对应的文本主题z的分布近似满足:其中表示该行为是在用户角色状态为c时完成的概率,PZ:|Z'c,D表示该行为是在文本主题为z时完成的概率,nx表示数据集中状态为X的样本数,上标表示去除掉当前样本的结果,α、β、γ、n是四个超参数,取值为1.67,0.01,2.50,0.01。第三阶段具体实施步骤:步骤3-1,根据第二阶段得到的生成模型,计算每个历史行为b=u,v,D的异常指数,从而确定阈值To。其中步骤3-2,计算新的合成行为Μ的异常指数Sr,超过阈值To的判定为异常行为,认为存在身份盗用的风险向用户发出警告,请求确认身份,否则判定为正常行为,直接放行,继续检测用户的后续行为。3.如权利要求2所述的方法,其特征在于,所述生成机制:具体的行为w表示文本中的单词,V表示行为发生的地点);z、c是隐变量,(z表示文本的主题,c表示用户在该行为中所属角色);α、β、γ、q是四个超参数影响着模型的参数),取值为1.67,0.01,2.50,0.01;P、i9、Θ、Φ是该模型的关键参数,分别表示用户的角色状态分布、角色的地点分布、角色的文本主题分布、主题的单词分布。A指向B的箭头表示A决定BX,Z、D、U、BU分别表示角色的种数、主题的种数、一条信息中单词的数量、用户的数量、用户u的行为记录次数。4.如权利要求2所述的方法,其特征在于,Gibbs采样流程如下:1随机初始化:对每条行为记录,随机的赋予一个角色状态c,一个文本主题z;2重新分配:按照上述Gibbs采样公式重新给每条记录赋予新的角色状态c和文本主题z;3重复2到收敛4统计此时每个用户的角色状态分布·、每个角色的地点分布与文本主题分布•每个主题的词分布·得到用户的合成行为特征。其中nu,。表示用户u处于角色c的次数,η。,V表示处于角色c的用户出现在地点V的次数,nc,z表示处于角色c的用户发表主题ζ的文本的次数,112,|表示主题ζ的文本中单词w出现的次数。

百度查询: 同济大学 基于线上用户合成行为的身份盗用检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。