买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种传感云环境下不确定性DDoS攻击防御方法_绍兴文理学院_201910767115.6 

申请/专利权人:绍兴文理学院

申请日:2019-08-20

公开(公告)日:2020-07-03

公开(公告)号:CN110401675B

主分类号:H04L29/06(20060101)

分类号:H04L29/06(20060101);H04L12/24(20060101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.03#授权;2019.11.26#实质审查的生效;2019.11.01#公开

摘要:本发明公开了一种传感云环境下不确定性DDoS攻击防御方法,其特征在于,在t时刻按照以下步骤进行防御:1协作防御者,获取当前状态下AI训练任务的训练精度st和AI训练任务k的资源分配动作;2基于马尔可夫过程采用Q‑learning算法,确定资源分配动作3更新资源适配器对AI训练任务k分配的资源,并获取更新后AI训练任务k的训练精度状态st+1;4计算达到更新状态的防御奖励Rt+1;5更新Q值函数;6判断是否超满足于预设的训练精度要求、以及是否满足预设的奖励要求。本发明使得协作防御者在资源分配区间中获得最优的资源分配策略,对抗DDoS攻击。

主权项:1.一种传感云环境下不确定性DDoS攻击防御方法,其特征在于,在t时刻按照以下步骤进行防御:1执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协作防御者,获取当前状态下所述AI训练任务k的训练精度状态st和所述AI训练任务k的资源分配动作at,at∈A,其中A为资源分配的取值空间;2根据步骤1获得的当前状态下所述AI训练任务k的训练精度状态st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作3根据步骤2中获得的资源分配动作更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1;4根据步骤2中获得的当前状态下所述AI训练任务k的资源分配动作以及步骤3中获得的更新后所述AI训练任务k的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1;所述达到更新状态的防御奖励Rt+1按照如下方法计算: 其中,为在AI训练任务k训练精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励,为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示传感云设备节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的传感云设备节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,为传感云设备节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率,ti,k为传感云设备节点和边缘计算节点运行AI训练任务k的时间;5根据步骤3中获得的更新后所述AI训练任务k的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1st,at;6判断步骤3中获得的更新后所述AI训练任务k的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤4获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤1。

全文数据:一种传感云环境下不确定性DDoS攻击防御方法技术领域本发明属于信息安全领域,更具体地,涉及一种传感云环境下不确定性DDoS攻击防御方法。背景技术传感云作为一种集中式虚拟化技术实现了动态资源管理,传感云设备SCD可以“按需”从边缘计算节点edge-VM获取计算资源。由于传感云平台通过共享计算资源来提供服务,容易产生资源使用冲突,这使得传感云平台灵活的配置共享资源面临挑战。特别是,SCD节点卸载AI处理任务到传感云平台时,不仅导致SCD节点之间竞争分配资源,还会降低传感云计算平台的性能和可靠性,使其极易受到恶意节点的攻击。因此,在为竞争任务调度环境设计安全的资源共享管理策略时,应考虑用户恶意使用资源对传感云平台安全性造成的影响。在实际应用中,传感云平台的SaaS层容易受到多种安全攻击,包括分布式拒绝服务DDoS攻击、身份验证攻击、SQL注入攻击、corba站点脚本攻击、XML签名包装攻击、基于应用程序的攻击等。由于在低带宽的SaaS层中运行的数据密集型应用程序会吸引攻击者注意,恶意的SCD节点可通过在云计算平台上运行数据密集型AI应用程序发起DDoS攻击,显著增加资源的分配力度,使合法的SCD节点卸载的任务运行失败或增加其完成时间,而合法的SCD节点则尝试使用足够分配的资源进行计算,以确保处理任务完成的同时对抗安全威胁。目前关于云安全防御的研究大多以博弈论建模为主,在GFan等人的研究中GameTheoreticMethodtoModelandEvaluateAttack-DefenseStrategyinCloudComputing,作者提出了一种基于随机博弈的云计算攻防策略建模与评估方法,利用Petri网的相关理论验证了该方法的正确性。在TSpyridopoulos等人的研究中AgametheoreticdefenceframeworkagainstDoSDDoScyberattacks.,作者考虑了执行攻击的成本、攻击节点的数量和恶意流量概率分布,并设置了攻击者收益的上限,将DDoS攻击建模为非合作、零和博弈。在AAbeshu等人的研究中DeepLearning:TheFrontierforDistributedAttackDetectioninFog-to-ThingsComputing.,作者基于雾计算提出了一种分布式深度学习驱动的攻击检测方案,在雾节点支持的分布式物联网上使用深度学习模型训练攻击检测系统,提高了网络攻击检测的准确性和效率。在BAnggorojati等人的研究中AnIntrusionDetectiongameinaccesscontrolsystemfortheM2Mlocalcloudplatform.。作者研究了多阶段贝叶斯博弈中理性攻击者与防御者之间的交互。在一定的攻击和监控资源约束下,针对给定的一组具有不同安全值的资源,设计了一个理性攻击者和防御者的分析框架。这些方法存在如下不足:1已提出的方法仅考虑了云计算系统攻防策略建模,不能处理AI训练任务k卸载攻击问题,也未通过SCD节点和边缘计算节点协作来防御攻击。2AI计算任务的卸载和执行具有完成时间和训练精度的不确定性,受到DDoS攻击时,如何针对不确定性DDoS攻击,优化资源分配策略来防御攻击,以上的方法均没有给出合适的解决方法。3虽然基于雾计算的分布式深度学习驱动的攻击检测方案提高了网络攻击检测的准确性,但对于AI训练任务k的卸载时受到的DDoS攻击未设计有效的资源分配方案来防御攻击。发明内容针对现有技术的以上缺陷或改进需求,本发明提供了一种传感云环境下不确性DDoS攻击防御方法,其目的在于通过考虑资源信息的不完全性和边缘计算节点状态的不确定性来防御机边缘计算节点中AI训练任务k的DDoS攻击,从而确保传感云平台受到DDoS攻击时,通过资源分配策略完成AI训练任务k,由此解决现有技术对传感云中边缘计算节点运行的AI训练任务k受到不确定DDoS攻击时无法防御的技术问题。为实现上述目的,按照本发明的一个方面,提供了一种传感云环境下不确定性DDoS攻击防御方法,在t时刻按照以下步骤进行防御:1执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协同防御者,获取当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at∈A,其中A为资源分配的取值空间;2根据步骤1获得的当前状态下所述AI训练任务的训练精度st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作3根据步骤2中获得的资源分配动作更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1;4根据步骤2中获得的当前状态下所述AI训练任务k的资源分配动作以及步骤3中获得的更新后所述AI训练任务的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1;5根据步骤3中获得的更新后所述AI训练任务的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1st,at;6判断步骤4中获得的更新后所述AI训练任务的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤4获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤1。优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤2所述资源分配动作为:2-1以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作或2-2以1-ξt的概率在最大Q值中获得AI的资源分配动作作为更新状态下所述AI训练任务k的资源分配动作at+1。优选地,所述传感云环境下不确定性DDoS攻击防御方法,其协作防御者获得最大的效用时其资源策略取值范围,即区间x为其中:c00,k为边缘计算节点处于不活跃状态且传感云设备节点推测出其处于不活跃状态的概率,为边缘计算节点中VM处于不活跃状态时间的数学期望,为边缘计算节点中VM处于活跃状态时间的期望,βj是DDoS攻击者最大化期望效用的KKT算子;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;εj,k=c00,k+c10,k;c10,k为边缘计算节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,传感云设备节点推测其处于不活跃状态的概率,且为边缘计算节点中VM处于不活跃状态时间的数学期望,Etl为传感云设备节点与边缘计算节点协作时间的期望;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求。δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;λi,k为传感云设备节点和边缘计算节点的协作因子;为传感云设备节点本地任务的完成率;μe边缘计算节点卸载任务的完成率。优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤3所述AI训练任务k训练精度状态st采取的资源分配动作后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤4所述达到更新状态的防御奖励Rt+1按照如下方法计算:其中,为在AI训练任务k训练k精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励,为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示传感云设备节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的传感云设备节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,为传感云设备节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率。优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤5所述Q值更新函数为:其中,Qt+1st,at为更新后的Q值,αt为当前时刻t的学习率;Qtst,at为当前Q值,γ为折扣因子,Qtst+1,a为协作防御者在st+1状态的Q值,a为可能的资源分配值,A为资源分配的取值空间。优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述协作防御者在st+1状态的Q值Qtst+1,a按照如下方法计算:其中为边缘计算节点Q值更新函数,为传感云设备节点Q值更新函数。优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述边缘计算节点Q值更新函数为:其中,E·为期望,为边缘计算节点在状态执行可能的资源分配值时获得的奖励。优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述传感云设备节点Q值更新函数为:其中,为传感云设备节点在状态执行可能的资源分配值时获得的奖励。总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:本发明通过建立不完全信息情况下协作防御者和DDoS攻击者之间攻击防御的贝叶斯博弈模型,在边缘节点edge-VM的状态信息不完全的前提下,分析攻击防御策略,基于Q-learning的更新算法,通过与AI任务计算环境的交互,使得协作防御者在资源分配区间中获得最优的资源分配策略,对抗DDoS攻击。附图说明图1是本发明提供的优传感云环境下不确定性DDoS攻击防御方法流程示意图;图2是本发明实施例提供的受攻击AI训练任务k训练精度状态变化过程。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本发明提供的传感云环境下不确定性DDoS攻击防御方法,如图1所示,在t时刻按照以下步骤进行防御:1执行同一AI训练任务k的传感云设备节点SCD节点和边缘计算节点edge-VM节点作为协同防御者,获取当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at∈A,其中A为资源分配动作空间;2根据步骤1获得的当前状态下所述AI训练任务的训练精度st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作所述资源分配动作为:2-1以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作或2-2以1-ξt的概率在最大Q值中获得AI的资源分配动作作为更新状态下所述AI训练任务k的资源分配动作at+1;即所述选择AI的资源分配动作按照如下方法计算:其中Qtst,at为当前Q值函数,ξt为随机策略选择概率,区间x为协作防御者获得最大的效用时其资源策略取值范围。实际应用时,在每一轮迭代中,这两种资源分配动作选择方式可以交叉进行。协作防御者获得最大的效用时其资源策略取值范围,即区间x为其中:c00,k为edge-VM节点处于不活跃状态且SCD节点推测出其处于不活跃状态的概率,为边缘计算节点中VM处于不活跃状态时间的数学期望,为边缘计算节点中VM处于活跃状态时间的期望;βj是DDoS攻击者最大化期望效用的KKT算子;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;εj,k=c00,k+c10,k,c10,k为edge-VM节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,SCD节点推测其处于不活跃状态的概率,且为边缘计算节点中VM处于不活跃状态时间的数学期望,Etl为SCD节点与边缘计算节点协作时间的期望;θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求。δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失;λi,k为SCD节点和边缘计算节点edge-VM的协作因子;为SCD节点本地任务的完成率;μe边缘计算节点卸载任务的完成率;3根据步骤2中获得的资源分配动作更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1;AI训练任务k训练精度状态st采取的资源分配动作后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为4根据步骤2中获得的当前状态下所述AI训练任务k的资源分配动作以及步骤3中获得的更新后所述AI训练任务的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1;所述达到更新状态的防御奖励Rt+1按照如下方法计算:其中,为在AI训练任务k训练k精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励,为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的SCD节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,为SCD节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率。由于资源受限的SCD节点无法在本地执行AI学习任务,SCD节点向edge-VM节点卸载AI学习任务,并调度AI学习任务到edge-VM节点的计算资源池中。Edge-VM节点能同时为N个AI学习任务提供CPU和存储计算资源。AI学习任务的完成时间随着CPU资源和edge-VM的状态而变化。SCD节点执行部分验证任务并且边缘计算节点执行部分训练任务。从SCD和边缘计算节点协作处理任务过程中,我们能获得协作任务的完成时间Vco依赖于SCD节点本地任务的完成率和边缘计算节点卸载任务的完成率μe,因此,我们能获得协作任务完成的概率即,SCD节点和边缘计算节点edge-VM协作任务完成率为协作因子为λi,k。因此,SCD节点和边缘计算节点edge-VM为AI训练任务k的协作关系h所需的资源为其中,ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源。在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件为5根据步骤3中获得的更新后所述AI训练任务的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1st,at;所述Q值更新函数为:其中,Qt+1st,at为更新后的Q值函数,αt为当前时刻t的学习率;Qtst,at为当前Q值,γ为折扣因子,Qtst+1,a为协作防御者在st+1状态的Q值,为可能的资源分配值,A为资源分配的取值空间。其中协作防御者在st+1状态的Q值Qtst+1,a按照如下方法计算:其中为边缘计算节点Q值更新函数,为SCD节点Q值更新函数。所述边缘计算节点Q值更新函数为:其中,E·为期望,为边缘计算节点在状态执行可能的资源分配值时获得的奖励。所述传感云设备节点Q值更新函数为:其中,为传感云设备节点在状态执行可能的资源分配值时获得的奖励。6判断步骤4中获得的更新后所述AI训练任务的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤4获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤1。以下为实施例:基于贝叶斯博弈的SCD节点和边缘计算节点协作防御模型由于资源受限的SCD节点无法在本地执行AI训练任务,SCD节点向edge-VM节点卸载AI训练任务,并调度AI训练任务到edge-VM节点的计算资源池中。Edge-VM节点能同时为N个AI训练任务提供CPU和存储计算资源。AI训练任务的完成时间随着CPU资源和edge-VM的状态而变化。SCD节点执行部分验证任务并且边缘计算节点执行部分训练任务。从SCD和边缘计算节点协作处理任务过程中,我们能获得协作任务的完成时间Vco依赖于SCD节点本地任务的完成率和边缘计算节点卸载任务的完成率μe,因此,我们能获得协作任务完成的概率即,SCD节点和边缘计算节点edge-VM协作任务完成率为协作因子为λi,k。因此,SCD节点和边缘计算节点edge-VM为AI训练任务k的协作关系h所需的资源为其中,ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k的单位时间内使用的计算资源。在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件为其中,δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失。rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的SCD节点和边缘计算节点的协作资源。tj,k表示攻击者对AI训练任务k进行计时攻击的时间。θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求。每个AI训练任务k的协作收益为一个指示函数,如果函数值为1,表明是一个AI训练任务k的精度最优解。相应的,在N个AI训练任务k中,SCD节点和边缘计算节点作为协作防御者,其协作收益定义为AI训练任务k的精度最优解的个数,其协作收益ui定义如下:其中,1{·}是指示函数。另一方面,攻击者通过在边缘计算节点中运行恶意软件,产生对边缘计算节点的资源消耗为er且er>r,r表示edge-VM节点提供的最大资源。攻击者的目标是通过攻击策略使得协作AI训练任务k的完成时间增大,即P{Vco>tth},并且获得低精度的深度学习解。从而使得P{Vco<tth}内成功完成AI训练任务k所需的资源条件不成立。因此,我们模型化DDoS攻击者的收益函数为一个指示函数,指示函数的值为1,表明SCD节点和边缘计算节点的协作AI服务获得最差精度的解,相应的攻击者的收益uj如下:协作防御者对攻击者的资源分配策略rj,k具有不完全知识,并且把他看作一个具有任意概率密度函数的随机变量。类似地,DDoS攻击者对AI训练任务k协作防御者的资源分配策略ri,k具有不完全信息,并且把他看作一个具有任意概率密度函数的随机变量。因此,在攻击防御的贝叶斯博弈中,协作防御者期望的效用为其中,是随机变量ri,k的累积分布函数,x为SCD节点和边缘计算节点协作使用处理资源的随机变量,其累积分布函数为类似地,DDoS攻击者期望的效用为其中,是随机变量rj,k的累积分布函数,y为DDoS攻击者消耗协作防御者资源的随机变量,其累积分布函数为最大化DDoS攻击者期望效用的资源分配策略应用Karush-Kuhn-TuckerKKT方法来优化协作防御者期望的效用uic如下:其中,βi是协作防御者期望效用的KKT算子。DDoS攻击者对AI训练任务k攻击时最优的资源累积分布函数为且计算如下:从而得出DDoS攻击者的期望效用最大时,其资源策略取值范围为最大化协作防御者期望效用的资源分配策略DDoS攻击者改变其资源分布策略,使用KKT算子分析,DDoS攻击者最大化其期望的效用如下:其中,βj是DDoS攻击者最大化期望效用的KKT算子。从而得出协作防御者获得最大的效用时,其策略分布为资源分配策略区间为基于keeplive的具有不完全信息边缘计算节点的协作Edge-VM节点的状态在活跃和不活跃状态之间切换。当edge-VM节点执行计算任务时,处于活跃状态;当edge-VM节点不执行计算任务时,为了节约能耗,edge-VM节点处于不活跃状态。SCD节点使用keepliveKL机制判别edge-VM节点中VM的状态,SCD定期使用KL数据包检测edge-VM节点的状态信息并做决策判别其状态。由于DDoS攻击者的攻击使得SCD节点获取的edge-VM节点状态信息变得不准确。因此,对于SCD节点和edge-VM节点执行任务k的虚拟机状态将出现以下四种判别结果:1edge-VM节点处于不活跃状态,SCD节点推测出其处于不活跃状态,其概率用c00,k表示;2edge-VM节点处于不活跃状态,由于DDoS攻击者伪造edge-VM节点资源状态信息,使得SCD节点推测其处于活跃状态,其概率用c01,k;3edge-VM节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得edge-VM节点处于瘫痪状态,SCD节点推测其处于不活跃状态,其概率用c10,k表示;4edge-VM节点处于活跃状态,SCD节点推测其处于活跃状态,其概率用c11,k表示。在考虑edge-VM节点不确定状态信息的情况下,DDoS攻击者期望的效用最大时,其资源策略取值范围为类似地,协作防御者获得最大的效用时,其资源策略取值范围为:SCD节点协作时间服从指数分布的概率密度函数为边缘计算中edge-VM节点处于活跃状态的时间服从指数分布的概率密度函数为edge-VM节点处于不活跃状态的时间服从指数分布的概率密度函数为由此,我们可以得到其中,E·表示期望,为边缘计算节点中VM处于不活跃状态的时间,为边缘计算节点中VM处于活跃状态的时间,tl为SCD节点与边缘计算节点协作的时间。协作防御者的Q值计算由于受攻击环境的不确定性,本发明将使用Q-learning在区间值上搜索最优的资源分配策略值。对于edge-VM节点,在时刻t,在区间选择最优的资源分配的行动值。其策略函数为:其中,为edge-VM节点的随机策略选择概率。Q值更新函数为:其中,E·为期望,为边缘计算节点在状态执行可能的资源分配值时获得的奖励。对于SCD节点,在时刻t,在区间选择最优资源分配的行动值。其策略函数为:其中,为SCD节点的随机策略选择概率。Q值更新函数为:其中,为SCD节点在状态执行可能的资源分配值时获得的奖励。SCD节点和边缘计算节点协作防御者在x区间上选择最优资源分配的行动值。协作防御的者的Q值更新函数为:随机协作Q-learning的资源分配策略优化由于DDoS攻击者的资源分配策略的不确定性导致AI训练任务k运行环境和状态变的不确定,AI训练任务k训练的运行状态空间有高精度、保持、低精度三个离散状态,即S={1,0,-1}。在这个马尔可夫决策过程MDP模型中,协作防御者在AI训练任务k的当前状态采用的资源分配动作得到的AI训练任务k训练精度的下一状态是不确定的,我们把AI训练任务k的训练精度的状态看做一个随机变量,令不确定性AI训练任务k训练精度状态迁移函数如图2所示,AI训练任务k训练精度状态变化过程,由于DDoS的攻击使得AI计算环境变的不确定,AI训练任务k的训练精度试图往高精度方向增长时,成功的概率为0.7,保持不变的概率为0.25,向低精度方法减少的概率为0.05。在AI训练任务k训练精度状态st采取的资源分配动作at后,下一训练精度状态st+1属于某一个状态的概率为在随机情况下,MDP要求到达下一状态的概率由st和at决定。奖励函数定义如下:故有,为在AI训练任务k训练k精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励。在图2中,协作性防御者的目标是为每个状态发现一个优化策略π*st∈A,使得协作防御者最大化其接收的累积奖赏Rt+1。策略映射函数定义如下:协作防御者对于每个状态都能用非零的概率ξt∈0,1在区间x中随机地选择防御策略并执行资源分配的动作,或者以1-ξt的概率从最大Q值中选择资源分配动作。在协作防御者与计算环境的每一轮交互过程中,这两种资源分配动作选择方式可以交叉进行。在协作防御者从区间x中随机选择策略π的情况下,在协作防御时间阈值内,从初始状态开始期望的有限期折扣回报为γ为折扣因子。在每个行动执行之后,Qs,a值更新如下:其中,αt为当前时刻的学习率。协作防御者与计算环境的交互过程图1所示,协作防御者在初始状态s0随机选择一个资源值,并通过策略映射函数赋值给at,由资源适配器执行资源分配配置AI训练任务k计算环境资源并执行防御策略。AI训练任务k计算环境返回策略执行的奖励Rt+1及AI训练任务k的训练精度状态St+1,若Rt+1=1且st+1=1时,协作防御者与计算环境的交互过程结束,否则,开始新一轮的策略选择及资源分配的防御策略交互过程。具体可利用如下算法实现:算法1基于区间的贪心Q学习算法Input:折扣因子γ,随机策略选择概率设置学习率设置步骤1:初始化Q值函数,Q0←0步骤2:给出初始状态s0步骤3:For每个时间步t=0,1,2...do步骤4:步骤5:资源适配器应用资源分配动作观测下一状态st+1,计算奖励值Rt+1步骤6:更新Qt+1st,at:步骤7:如果Rt+1=1且st+1=1,则跳出for循环;否则,t=t+1,开始下一轮for循环。本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种传感云环境下不确定性DDoS攻击防御方法,其特征在于,在t时刻按照以下步骤进行防御:1执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协同防御者,获取当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at∈A,其中A为资源分配的取值空间;2根据步骤1获得的当前状态下所述AI训练任务的训练精度st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作3根据步骤2中获得的资源分配动作更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1;4根据步骤2中获得的当前状态下所述AI训练任务k的资源分配动作以及步骤3中获得的更新后所述AI训练任务的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1;5根据步骤3中获得的更新后所述AI训练任务的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1st,at;6判断步骤4中获得的更新后所述AI训练任务的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤4获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤1。2.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤2所述资源分配动作为:2-1以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作或2-2以1-ξt的概率在最大Q值中获得AI的资源分配动作作为更新状态下所述AI训练任务k的资源分配动作at+1。3.如权利要求2所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,协作防御者获得最大的效用时其资源策略取值范围,即区间x为其中:c00,k为边缘计算节点处于不活跃状态且传感云设备节点推测出其处于不活跃状态的概率,为边缘计算节点中VM处于不活跃状态时间的数学期望,为边缘计算节点中VM处于活跃状态时间的期望,βj是DDoS攻击者最大化期望效用的KKT算子;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;εj,k=c00,k+c10,k;c10,k为边缘计算节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,传感云设备节点推测其处于不活跃状态的概率,且为边缘计算节点中VM处于不活跃状态时间的数学期望,Etl为传感云设备节点与边缘计算节点协作时间的期望;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求。δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;λi,k为传感云设备节点和边缘计算节点的协作因子;为传感云设备节点本地任务的完成率;μe边缘计算节点卸载任务的完成率。4.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤3所述AI训练任务k训练精度状态st采取的资源分配动作后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为5.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤4所述达到更新状态的防御奖励Rt+1按照如下方法计算:其中,为在AI训练任务k训练k精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励,为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示传感云设备节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的传感云设备节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,为传感云设备节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率。6.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤5所述Q值更新函数为:其中,Qt+1st,at为更新后的Q值,αt为当前时刻t的学习率;Qtst,at为当前Q值,γ为折扣因子,Qtst+1,a为协作防御者在st+1状态的Q值,a为可能的资源分配值,A为资源分配的取值空间。7.如权利要求6所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述协作防御者在st+1状态的Q值Qtst+1,a按照如下方法计算:其中为边缘计算节点Q值更新函数,为传感云设备节点Q值更新函数。8.如权利要求7所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述边缘计算节点Q值更新函数为:其中,E·为期望,为边缘计算节点在状态执行可能的资源分配值时获得的奖励。9.如权利要求7所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述传感云设备节点Q值更新函数为:其中,为传感云设备节点在状态执行可能的资源分配值时获得的奖励。

百度查询: 绍兴文理学院 一种传感云环境下不确定性DDoS攻击防御方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。