【发明授权】强化学习非零和非合作多智能体安全通信功率控制方法_天津大学_202111170428.7

导航：龙图腾网> 最新专利技术> 强化学习非零和非合作多智能体安全通信功率控制方法_天津大学_202111170428.7

申请/专利权人：天津大学

申请日：2021-10-08

公开（公告）日：2024-03-22

公开（公告）号：CN113973362B

主分类号：H04W52/24

分类号：H04W52/24;H04W52/26;G06F18/23213;G06F18/23;G06N3/092

优先权：

专利状态码：有效-授权

法律状态：2024.03.22#授权;2022.02.15#实质审查的生效;2022.01.25#公开

摘要：本发明涉及多智能体强化学习领域，为在博弈均衡状态分析的基础上，针对博弈双方动态交互的特点，对双方策略优化方法进行改进，本发明，强化学习非零和非合作多智能体安全通信功率控制方法；步骤如下：建立无线网络干扰‑抗干扰通信博弈框架；训练阶段动态博弈的功率控制，方法如下：在强化学习的训练阶段，采用合作式的训练方式；在强化学习的感知阶段，干扰机直接获得一定误差下基站的发射信号强度信息，发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率，执行下一次动作选择；对抗双方在训练阶段反复进行该过程，直到所有智能体收益基本保持均衡为止，达到收敛。本发明主要应用于雷达、干扰机设计制造场合。

主权项：1.一种强化学习非零和非合作多智能体安全通信功率控制方法，其特征是，步骤如下：1建立无线网络干扰-抗干扰通信博弈框架在功率博弈中，基站通过选择适当的发射功率来确保安全通信速率，而干扰机在成本控制下通过选择干扰强度来最大化干扰效果；2训练阶段动态博弈的功率控制，方法如下：在强化学习的训练阶段，采用合作式的训练方式，基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度，而干扰机则可以直接获得被干扰方的动作信息；在强化学习的感知阶段，干扰机直接获得一定误差下基站的发射信号强度信息，发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率，双方获得感知信息后，更新各自的状态信息，计算效用并更新品质系数Q函数，执行下一次动作选择；对抗双方在训练阶段反复进行该过程，直到所有智能体收益基本保持均衡为止，达到收敛，具体步骤如下：1建立无线网络干扰-抗干扰通信博弈框架基站采用混合预编码架构，发射机天线数量为NB，发送K×1传输信号矢量sB，其发射功率由PB表示，发射机发射成本用CB表示，当K个用户接收到信号时，用户估计信道质量和SINR，并将其进行反馈；用户k和基站有条路径，用户k和基站的路径的复增益、方位角和仰角分别表示为令aBφ,θ表示阵列导向矢量，用户k和基站之间的信道矢量，即写为：用户和基站之间的信道矩阵可以表示为：干扰机与基站具有相同的预编码架构，有NJ个干扰天线，以与基站相同的频率发送用zJ表示的干扰信号，在时隙n，智能干扰机根据正在进行的传输状态和信道状态选择干扰功率，记为PJn≥0，以降低通信系统的SINR，智能干扰机的干扰成本用CJ表示，用户k和智能干扰机之间有条路径，路径的复增益、方位角和仰角可以表示为因此，用户k与智能干扰机之间的信道矢量由下式给出： K个用户与智能干扰机之间的信道矩阵表示为： 2训练阶段动态博弈的功率控制，方法如下：由基站和干扰机组成的多智能体，其强化学习过程为随机博弈过程，将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略，并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数；基于强化学习的动态博弈需要以下几个要素：代理、各博弈方的策略集、及博弈方的收益，博弈包含有限个数的代理，在这项工作中设置代理q∈{B,J}，其中B代表基站发射机，J代表智能干扰机，每个参与博弈的代理都有自己的策略集合，在每次博弈中，所有参与代理根据获得的信息，在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动，代理的收益函数表示其在策略组合下所能获得的收益值，每个代理的收益不仅与自己选择的策略有关，还取决于其他参与者采取的行动，在多智能体系统中多个智能体是同时学习的，当对方策略改变时，每个智能体自身的最优策略也可能会变化；在训练阶段，基站收集K个用户的先前SINR，表示为并根据信道质量和K用户的SINR估计先前的干扰功率，即基站将时隙n-1处的干扰功率和所有用户的SINR设置为发射机当前系统状态，即同理，由于在训练阶段互相信息是对称的，所以干扰机的系统状态表示为然后，基站基于选择发送功率以在状态发送信号，基站在从用户接收反馈信息时，更新新的系统状态，即干扰机则根据选择干扰功率并发送干扰信号；由于发射机与智能干扰机之间目标不同，彼此之间又相互耦合影响，因此奖励设计的优劣直接影响学习到的策略的好坏；发射机的收益函数为：干扰机的收益函数为：抗干扰功率控制博弈策略每次通过以下方式更新Q函数：其中表示状态上可行动作的最大Q函数，α∈0,1是强化学习算法的学习因子，而δ∈0,1是表示基站贪婪算法的参数，贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法，基站的发射功率由下式给出：其中，|Ω|是发射机动作的总数；而干扰功率控制博弈策略则通过以下方式更新Q函数：干扰机的干扰功率由下式给出：智能体每进行一步，都要进行感知-决策-执行决策，由于在训练阶段采用的是合作式的训练方式，在感知阶段，干扰机直接获得一定误差下基站的发射信号强度信息，发射机则根据用户反馈的SINR来估计干扰机干扰功率；双方获得感知信息后，更新各自的状态信息，计算效用并更新Q函数，执行下一次动作选择；对抗双方在训练阶段反复进行感知-决策-执行决策过程，直到所有智能体收益基本保持均衡为止，达到收敛。

全文数据：

权利要求：

百度查询：天津大学强化学习非零和非合作多智能体安全通信功率控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

下一篇：一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

相关技术

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种偏摆检查仪_长春一东离合器股份有限公司_202420407178.7

一种万寿菊用大型烘干机_丘北立达尔生物科技有限公司_202322498434.6

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

合作相关技术

求解考虑合作的带时间窗的车辆路径问题的优化算法_南京理工大学_202110744505.9

基于视觉的无人机非合作目标有限时间跟踪方法及系统_广东工业大学_202211115584.8

一种含速度约束的非合作目标视觉跟踪控制方法_北京控制工程研究所_202311660871.1

基于深度学习的非合作信号分阶段检测方法及装置_华中科技大学_202410040282.1

一种远程自动监测湿地植物光合作用数据的设备_河北工程大学_202410053894.4

合作目标航天器交会对接地面试验系统及方法_上海航天控制技术研究所_202311756643.4

一种联合作业农机同步率配合矫正装置_微山县两城镇农业综合服务中心_202322424744.3

基于多模块协同合作的即时通讯系统、方法及智能设备_广州视臻信息科技有限公司_202211233037.X

一种基于一维到达角的垂直阵列水下合作目标定位方法_华南理工大学_202311775790.6

一种多工况耦合作用下再生混凝土力学性能测试系统_中国矿业大学_202311817271.1

安全相关技术

一种安全药瓶_石家庄鑫富达医药包装有限公司_202210474641.5

一种安全井盖_重庆市设计院有限公司_202322006996.4

灾民救援用安全锤_国家灾害安全研究院_202311326748.6

抽油机井安全挡板_中国石油天然气股份有限公司_202322324428.9

一种安全插座_李勇_201710489190.1

一种报文安全转发方法、装置及网络安全设备_北京天融信网络安全技术有限公司_202111401807.2

一种建筑施工用安全绳安全性、可靠性检测装置_滨州宏愿化纤制品有限公司_202211455866.2

基于隧道口行车安全仿真研究的安全管控措施确定方法_东南大学_202110198185.1

食品安全生产的排烟设备_河北中农伟铭食品有限公司_202322317098.0

汽车安全带防尘除尘装置_中国人民解放军陆军军事交通学院汽车士官学校_201711404646.6

体相关技术

玻璃捆包体_日本电气硝子株式会社_202311256457.4

药液、药液收容体_富士胶片株式会社_201980046121.0

开闭体驱动装置_株式会社爱信_202311364489.6

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

助威工具结构体_朴泳_202310387247.2

层叠体、层叠体的制造方法、层叠用膜、图像显示装置_大日本印刷株式会社_202080089572.5

一种盒体及双层盒体底部连接纸的粘贴方法_中科天工(武汉)智能技术有限公司_202210267720.9

屏体翻折治具和屏体翻折方法_合肥维信诺科技有限公司_202111370062.8

一种钳体一体成型铸造设备_安徽盛隆铸业有限公司_202322374008.1

假体组件及电子设备_联想(北京)有限公司_202322309201.7

龙图腾网&IPTOP

【发明授权】强化学习非零和非合作多智能体安全通信功率控制方法_天津大学_202111170428.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务