买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于Markov演化博弈的网络防御策略选取方法及其装置_中国人民解放军信息工程大学_201710334463.5 

申请/专利权人:中国人民解放军信息工程大学

申请日:2017-05-12

公开(公告)日:2020-01-10

公开(公告)号:CN107135224B

主分类号:H04L29/06(20060101)

分类号:H04L29/06(20060101);H04L12/24(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.01.10#授权;2017.09.29#实质审查的生效;2017.09.05#公开

摘要:本发明涉及一种基于Markov演化博弈的网络防御策略选取方法及其装置,该方法包含:根据网络攻防过程中动态攻防博弈,构建多阶段Markov攻防演化博弈模型,该模型包含多个子博弈阶段;针对多阶段Markov攻防演化博弈模型,采用最优防御策略选取算法求解攻防博弈各个阶段的最优防御策略并输出。本发明针对多阶段Markov攻防演化博弈模型模拟网络攻防动态演化过程,从攻防对抗的角度出发,将各个演化阶段之间的状态跳变描述为随机过程,在借鉴Markov过程的基础上,构建多阶段Markov演化博弈;以博弈的折扣总收益为目标函数,引入折现因子ξ对不同阶段的博弈收益进行折扣处理,研究探索网络安全分析方法和防御技术体系,具有重要现实意义。

主权项:1.一种基于Markov演化博弈的网络防御策略选取方法,其特征在于,包含:根据网络攻防过程中动态攻防博弈,构建多阶段Markov攻防演化博弈模型,该模型包含多个子博弈阶段;针对多阶段Markov攻防演化博弈模型,采用最优防御策略选取算法求解攻防博弈各个阶段的最优防御策略并输出;多阶段Markov攻防演化博弈模型表示为:M2ADE=N,T,B,P,ξ,S0,S,η,U,其中,N=ND,NA是演化博弈的参与者空间,ND为防御方,NA为攻击方;T是多阶段博弈的阶段总数,当前阶段博弈过程用Gk表示,k={1,2,…,T},B=DS,AS是攻防行动空间,表示攻击方在第k个阶段的可选策略,表示防御方在第k个阶段的可选策略;是博弈信念集合,表示在第k个阶段选择攻击策略的概率,且表示在第k个阶段选择防御策略的概率,且ξ是折现因子,其表示在博弈阶段k中的收益相较初始阶段的折现比例,0≤ξ≤1;是攻防过程中初始安全状态集合,S={S1…Sk…ST}是攻防过程中安全状态集合,集合S0与S中的状态与博弈阶段一一对应;η表示安全状态转移概率,ηij=ηSj|Si表示系统从状态Si跳变至状态Sj的概率;是博弈收益函数集合,和代表第k个博弈阶段中防御者和攻击者的收益函数;采用最优防御策略选取算法求解攻防博弈各个阶段的最优防御策略,包含如下内容:A、根据多阶段Markov攻防演化博弈模型,求解每个子博弈阶段攻防双方收益;B、通过引入折现因子将未来阶段的收益折算成基于初始阶段的折扣收益,将多阶段博弈均衡求解问题,转化为以整体收益为目标的动态规划问题;C、对动态规划问题进行求解,得到多阶段博弈均衡策略集合并输出。

全文数据:基于Markov演化博弈的网络防御策略选取方法及其装置技术领域[0001]本发明属于网络安全技术领域,特别涉及一种基于Markov演化博弈的网络防御策略选取方法及其装置。背景技术[0002]直面网络空间安全领域的挑战,增强网络安全防御能力,确保网络空间安全已成为亟待解决的迫切问题。网络安全的本质在攻防对抗,因此从攻防对抗的角度出发,研究探索网络安全分析方法和防御技术体系,具有重要现实意义,已成为近年来的研究重点。博弈论是研究决策主体之间行为直接相互作用时的决策问题的理论。网络攻防具有的目标对立性、关系非合作性、策略依存性特点均与博弈论的基本特征吻合,博弈模型应用于网络攻防分析成为近年来新的研究方法和热点,并取得了部分成果。但总体来说,基于博弈论的网络空间安全问题研究起步较晚,目前的研究方法仍然不够系统,已有研究成果大都以传统博弈模型为主,其模型方法建立在完全理性的条件下,而现实网络攻防无法满足,从而降低了研究成果实用价值。目前,基于博弈理论的网络安全防御大多采用传统博弈理论为主,而传统博弈理论以行为者完全理性为前提,博弈双方在博弈过程中通过最大化自身利益,选取最优防御策略进行网络安全防御。而信号博弈就是传统博弈理论中的一种,局中人分别是信号的发出者和信号的接收者。信号发出者的类型并不为信号接收者所知,但接受者对信号发出者的类型有先验判断。接收者利用信号对发出者的类型做出修正,形成后验判断,进而选择最优行动。[0003]传统博弈理论中的行为者完全理性前提假设与实际情况不符。传统博弈理论建立在行为者完全理性的前提假设下,而现实中由于人的决策能力是有限的,即决策者实际属于非完全理性个体。传统博弈理论中忽视行为者有限理性条件会对最终的博弈结果产生重大影响,使最终的博弈均衡结果与实际相差较大,从而降低了模型和方法的有效性。传统博弈理论以矩阵博弈为基础,未能体现出实际网络攻防博弈的动态演化过程。传统博弈理论采用矩阵博弈形式,通过对收益矩阵的分析和计算,得出最终的博弈均衡,从而用于网络安全防御策略的选取,但该分析方法仅仅对博弈过程中的某一个博弈阶段进行了分析。在实际网络攻防过程中,攻防双方的博弈均衡会随着攻防策略集以及系统运行环境的改变而被打破,从而开始下一阶段的博弈演化。针对现实社会中攻防双方的攻防过程的动态变化特征,其应用价值有限。发明内容[0004]针对现有技术中的不足,本发明提供一种基于Markov演化博弈的网络防御策略选取方法及其装置,采用博弈理论构建一种有效的网络安全主动防御技术来弥补传统被动防御技术存在的不足,能够分析有限理性的攻击者和防御者之间的动态对抗过程,最优防御策略选取的实用性和和指导意义更强。[0005]按照本发明所提供的设计方案,一种基于Markov演化博弈的网络防御策略选取方法,包含:[0006]根据网络攻防过程中动态攻防博弈,构建多阶段Markov攻防演化博弈模型,该模型包含多个子博弈阶段;[0007]针对多阶段Markov攻防演化博弈模型,采用最优防御策略选取算法求解攻防博弈各个阶段的最优防御策略并输出。[0008]上述的,多阶段Markov攻防演化博弈模型表示为:M2ADE=N,T,B,P,|,S〇,S,n,U,其中,N=Nd,Na是演化博弈的参与者空间,Nd为防御方,Na为攻击方;T是多阶段博弈的阶段总数,当前阶段博弈过程用Gk表示,1^={1,2,〜,1'},^8=邮^是攻防行动空间,AS'=!邮|1=SBΓJUr"!,.S6-SiJ44^Ί;,_其中第一条攻击路径可以获取服务器F2的root权限,第二条攻击路径可以获取服务器Fl的root权限。[0157]①其—^^^成—^·Sg.[0158]第1阶段式-攻击行动可选集和防御行动可选集见表3下同),最优防御策略为混合策略伙h=:〇.5,〇.5,0丨.,防御收益为-30.5。[0159]第2阶段,当系统以概率n2I1=0.8从状态S1跳变至缔后开始本阶段博弈,最优防御策略为混合策略:={0·45,0·05,0·5丨,防御收益为-20.4。[0160]第3阶段g•当系统以概率Tl8I2=0.4从状态跳变至匁后开始本阶段博弈,最优防御策略为混合策略DSL3={〇二〇,〇.8},防御收益为-27.5。[0161]®4,S1^S06^5fc^5f^Si,^S5[0162]第1阶段式,攻击行动可选集和防御行动可选集见表3下同),最优防御策略为混合策略Λί-,=川.5.〇.5,0丨_,防御收益为-30.5。[0163]第2阶段式45;,当系统以概率η611=0.6从状态跳变至笔后开始本阶段博弈,最优防御策略为混合策略=UA〇.6,〇丨_,防御收益为-40.3。[0164]第3阶段,当系统以概率η3I6=0.8从状态S6跳变至忒后开始本阶段博弈,最优防御策略为混合策略=〇Λ〇.55,α.〇5},:防御收益为-43.2。[0165]第4阶段笔OS5,当系统以概率η5I3=0.9从状态S3跳变至宪后开始本阶段博弈,最优防御策略为混合策略^^=4=丨〇.4,〇.5,0.1},防御收益为-19.5。[0166]针对两条攻击路径,分别计算攻防总收益,则路径①的攻击总收益为Mz=79.1,萌御总收益为=-78.4潞径②的攻击总收益为1^=1423,防御总收益为=-Ir、5。可知巧2,显然路径①更加符合防御方的期望,防御方应当尽量避免路径②。对比分析路径①和②可以发现,其第1阶段相同,都要经历从系统状态其演化到状态过程,但在跳转到第2阶段时,路径①从状态3:跳变至,:而路径②从状态3:跳变至5:。为降低路径②的发生可能,需要减小状态3:跳变至劣的概率,若系统无法抵达状态鐺,则路径②将不会实现,可以满足防御方的期望,沿路径①开展攻防对抗。进一步分析可知,第1阶段攻防博弈结束后,路径①跳变至状态^,路径②跳变至状态Sf,这两种情况下存在不同的攻击动作集,详见表2。由于策略集和系统运行环境的变化是引起状态跳变的重要原因,针对Sa6对应的AS={OracleTNSListener,Wu-FtpSockprintf,installSQLListenerprogram},防御者可以在攻防博弈中利用动态调整网络访问端口、增设白名单等方式改变访问控制规则或者增加新的针对性防御策略,降低该攻击动作集的实施可能性,减小跳变至^的概率,降低路径②的发生可能。[0167]本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。[0168]结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。[0169]本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。[0170]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

权利要求:1.一种基于Markov演化博弈的网络防御策略选取方法,其特征在于,包含:根据网络攻防过程中动态攻防博弈,构建多阶段Markov攻防演化博弈模型,该模型包含多个子博弈阶段;针对多阶段Markov攻防演化博弈模型,采用最优防御策略选取算法求解攻防博弈各个阶段的最优防御策略并输出。2.根据权利要求1所述的基于Markov演化博弈的网络防御策略选取方法,其特征在于,多阶段Markov攻防演化博弈模型表示为:M2ADE=N,T,B,P,|,S〇,S,n,U,其中,N=Nd,Na是演化博弈的参与者空间,Nd为防御方,Na为攻击方;T是多阶段博弈的阶段总数,当前阶段博弈过程用Gk表示,k={1,2,…,T},reNIB=DS,AS是攻防行动空间,.表示攻击方在第k个阶段的可选策略,@=|10sT,I表示防御方在第k个阶段的可选策略;是博弈信念集合,4表示在第k个阶段选择攻击策略的概率:Jd表示在第1^个阶段选择防御策略1«的概率,iA是折现因子,其表示在博弈阶段k中的收益相较初始阶段的折现比例,0是攻防过程中初始安全状态集合,S={Sr^S^ST}是攻防过程中安全状态集合,集合So与S中的状态与博弈阶段一一对应;η表示安全状态转移概率,nij=nSjISi表示系统从状态Si跳变至状态Sj的概率;σ=!c纟,c丨丨是博弈收益函数集合:和代表第k个博弈阶段中防御者和攻击者的收益函数。3.根据权利要求2所述的基于Markov演化博弈的网络防御策略选取方法,其特征在于,采用最优防御策略选取算法求解攻防博弈各个阶段的最优防御策略,包含如下内容:A、根据多阶段Markov攻防演化博弈模型,求解每个子博弈阶段攻防双方收益;B、通过引入折现因子将未来阶段的收益折算成基于初始阶段的折扣收益,将多阶段博弈均衡求解问题,转化为以整体收益为目标的动态规划问题;0、对动态规划问题进行求解,得到多阶段博弈均衡策略集合并输出。4.根据权利要求3所述的基于Markov演化博弈的网络防御策略选取方法,其特征在于,所述的步骤A包含如下内容:构建每个子博弈阶段的演化博弈树并计算该阶段的博弈收益,通过循环迭代直至完成所有的子博弈阶段的演化博弈树构建和博弈收益计算。5.根据权利要求4所述的基于Markov演化博弈的网络防御策略选取方法,其特征在于,构建每个子博弈阶段的演化博弈树并计算该阶段的博弈收益,包含:Al、构建当前循环子博弈阶段的博弈信念集合;A2、针对该子博弈阶段的攻防策略对,分别计算攻防双方收益值;A3、根据博弈信念集合及攻防双方收益值,分别计算攻防双方的期望收益;A4、根据博弈信念集合及攻防双方的期望收益,分别计算攻防双方的平均收益。6.根据权利要求3所述的基于Markov演化博弈的网络防御策略选取方法,其特征在于,所述的步骤B包含如下内容:B1、根据折现因子、安全状态转移概率及目标准则函数,计算未来阶段的折扣收益;B2、根据未来阶段的折扣收益、及每个子博弈阶段攻防双方求解结果,通过动态规划方法将博弈均衡求解问题转化为动态规划求解问题。7.根据权利要求6所述的基于Markov演化博弈的网络防御策略选取方法,其特征在于,所述的目标准则函数采用折扣期望准则函数,其表示为:其中,UA、UD分别为子博弈阶段Gk中攻、防双方的收益值,表示未来阶段的折扣收益值。8.根据权利要求6所述的基于Markov演化博弈的网络防御策略选取方法,其特征在于,通过动态规划方法将博弈均衡求解问题转化为动态规划求解问题,具体表示为:对k={1,V",T},其中,在第k个子博弈阶段,和分别代表防御方和攻击方的复制动态方程,W和4分别代表防御策略、和攻击策略的选取概率。9.一种基于Markov演化博弈的网络防御策略选取装置,其特征在于,包含:演化博弈模型构建模块及模型求解输出模块,演化博弈模型构建模块,用于根据网络攻防过程中动态攻防博弈构建多阶段Markov攻防演化博弈模型,该模型包含多个子博弈阶段;模型求解输出模块,用于针对演化博弈模型构建模块中的多阶段Markov攻防演化博弈模型,通过采用最优防御策略选取算法求解攻防博弈各个阶段的最优防御策略并输出。10.根据权利要求9所述的基于Markov演化博弈的网络防御策略选取装置,其特征在于,所述的模型求解输出模块包含:阶段收益求解单元、问题转化单元及策略求解输出单元,阶段收益求解单元,用于根据演化博弈模型构建模块中的多阶段Markov攻防演化博弈模型,求解每个子博弈阶段中攻防双方收益;问题转化单元,用于根据阶段收益求解单元中每个子博弈阶段攻防双方收益,并通过引入折现因子将未来阶段的收益折算成基于初始阶段的折扣收益,将多阶段博弈均衡求解问题,转化为以整体收益为目标的动态规划问题;策略求解输出单元,用于对问题转化单元中的动态规划问题进行求解,获取多阶段博弈均衡策略集合,依据博弈理论确定防御方的最优防御策略并进行输出。

百度查询: 中国人民解放军信息工程大学 基于Markov演化博弈的网络防御策略选取方法及其装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。