买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】强化学习非零和非合作多智能体安全通信功率控制方法_天津大学_202111170428.7 

申请/专利权人:天津大学

申请日:2021-10-08

公开(公告)日:2024-03-22

公开(公告)号:CN113973362B

主分类号:H04W52/24

分类号:H04W52/24;H04W52/26;G06F18/23213;G06F18/23;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.02.15#实质审查的生效;2022.01.25#公开

摘要:本发明涉及多智能体强化学习领域,为在博弈均衡状态分析的基础上,针对博弈双方动态交互的特点,对双方策略优化方法进行改进,本发明,强化学习非零和非合作多智能体安全通信功率控制方法;步骤如下:建立无线网络干扰‑抗干扰通信博弈框架;训练阶段动态博弈的功率控制,方法如下:在强化学习的训练阶段,采用合作式的训练方式;在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,执行下一次动作选择;对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。本发明主要应用于雷达、干扰机设计制造场合。

主权项:1.一种强化学习非零和非合作多智能体安全通信功率控制方法,其特征是,步骤如下:1建立无线网络干扰-抗干扰通信博弈框架在功率博弈中,基站通过选择适当的发射功率来确保安全通信速率,而干扰机在成本控制下通过选择干扰强度来最大化干扰效果;2训练阶段动态博弈的功率控制,方法如下:在强化学习的训练阶段,采用合作式的训练方式,基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度,而干扰机则可以直接获得被干扰方的动作信息;在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,双方获得感知信息后,更新各自的状态信息,计算效用并更新品质系数Q函数,执行下一次动作选择;对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛,具体步骤如下:1建立无线网络干扰-抗干扰通信博弈框架基站采用混合预编码架构,发射机天线数量为NB,发送K×1传输信号矢量sB,其发射功率由PB表示,发射机发射成本用CB表示,当K个用户接收到信号时,用户估计信道质量和SINR,并将其进行反馈;用户k和基站有条路径,用户k和基站的路径的复增益、方位角和仰角分别表示为令aBφ,θ表示阵列导向矢量,用户k和基站之间的信道矢量,即写为: 用户和基站之间的信道矩阵可以表示为: 干扰机与基站具有相同的预编码架构,有NJ个干扰天线,以与基站相同的频率发送用zJ表示的干扰信号,在时隙n,智能干扰机根据正在进行的传输状态和信道状态选择干扰功率,记为PJn≥0,以降低通信系统的SINR,智能干扰机的干扰成本用CJ表示,用户k和智能干扰机之间有条路径,路径的复增益、方位角和仰角可以表示为因此,用户k与智能干扰机之间的信道矢量由下式给出: K个用户与智能干扰机之间的信道矩阵表示为: 2训练阶段动态博弈的功率控制,方法如下:由基站和干扰机组成的多智能体,其强化学习过程为随机博弈过程,将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略,并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数;基于强化学习的动态博弈需要以下几个要素:代理、各博弈方的策略集、及博弈方的收益,博弈包含有限个数的代理,在这项工作中设置代理q∈{B,J},其中B代表基站发射机,J代表智能干扰机,每个参与博弈的代理都有自己的策略集合,在每次博弈中,所有参与代理根据获得的信息,在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动,代理的收益函数表示其在策略组合下所能获得的收益值,每个代理的收益不仅与自己选择的策略有关,还取决于其他参与者采取的行动,在多智能体系统中多个智能体是同时学习的,当对方策略改变时,每个智能体自身的最优策略也可能会变化;在训练阶段,基站收集K个用户的先前SINR,表示为并根据信道质量和K用户的SINR估计先前的干扰功率,即基站将时隙n-1处的干扰功率和所有用户的SINR设置为发射机当前系统状态,即同理,由于在训练阶段互相信息是对称的,所以干扰机的系统状态表示为然后,基站基于选择发送功率以在状态发送信号,基站在从用户接收反馈信息时,更新新的系统状态,即干扰机则根据选择干扰功率并发送干扰信号;由于发射机与智能干扰机之间目标不同,彼此之间又相互耦合影响,因此奖励设计的优劣直接影响学习到的策略的好坏;发射机的收益函数为: 干扰机的收益函数为: 抗干扰功率控制博弈策略每次通过以下方式更新Q函数: 其中表示状态上可行动作的最大Q函数,α∈0,1是强化学习算法的学习因子,而δ∈0,1是表示基站贪婪算法的参数,贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法,基站的发射功率由下式给出: 其中,|Ω|是发射机动作的总数;而干扰功率控制博弈策略则通过以下方式更新Q函数: 干扰机的干扰功率由下式给出: 智能体每进行一步,都要进行感知-决策-执行决策,由于在训练阶段采用的是合作式的训练方式,在感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的SINR来估计干扰机干扰功率;双方获得感知信息后,更新各自的状态信息,计算效用并更新Q函数,执行下一次动作选择;对抗双方在训练阶段反复进行感知-决策-执行决策过程,直到所有智能体收益基本保持均衡为止,达到收敛。

全文数据:

权利要求:

百度查询: 天津大学 强化学习非零和非合作多智能体安全通信功率控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。