【发明授权】一种扩散分子通信环境下的多层自适应奖励目标溯源方法_江苏大学_202210040801.5

导航：龙图腾网> 最新专利技术> 一种扩散分子通信环境下的多层自适应奖励目标溯源方法_江苏大学_202210040801.5

申请/专利权人：江苏大学

申请日：2022-01-13

公开（公告）日：2024-03-22

公开（公告）号：CN114531647B

主分类号：H04W4/02

分类号：H04W4/02;H04W4/029;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2024.03.22#授权;2022.06.10#实质审查的生效;2022.05.24#公开

摘要：本发明公开一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法。首先输入算法所需的参数，设计多层阈值模型和分子探测器的运动方式；然后，让分子探测器探索若干回合获取阈值的初始值并更新奖励信息；最后，以固定回合数更新多层阈值，接收机经过若干次迭代之后找到目标。本发明能够解决复杂扩散分子通信环境下分子探测器的路径规划问题。该方案具有定位精度高、复杂度低、快速定位等优点。

主权项：1.一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法，其特征在于，能够引导分子探测器避开障碍物找到目标位置，具体步骤如下：步骤1：设定分子探测器起点位置坐标O，可行位置集合S，分子探测器每步的运动距离d和动作集合A＝{0,0,±d,0,±d,0,±d,0,0}，学习率α，衰减因子γ，分子探测器每回合的运动时间ttot，探测目标释放分子的时间周期tin，分子探测器每步的运动时间间隔ts，选择运动方向的概率ε∈[0,1]，每回合的最大运动步数Wmax＝ttotts，初始迭代回合数N1，最大更新迭代回合数N2，碰到障碍物给予的惩罚值efail，达到分子数阈值给予的奖励值达到步数阈值给予的奖励值，成功找到目标给予的奖励值esus，设置Q表的初值全为0，Qi,j表示Q表第i行、第j列的值，其分别对应第i个状态si∈S,i＝1,···,|S|和第j个动作aj∈A,j＝1,···,|A|，其中|S|和|A|分别表示集合|S|和|A|的大小；步骤2：每个训练回合内，分子探测器从初始位置O出发，满足以下3个条件之一则回合终止：1运动步数达到Wmax；2分子探测器碰到障碍物；3分子探测器找到目标；步骤3：令多层自适应奖励阈值方案的层数为代表向上取整；分子数阈值Φt和运动步数阈值Ψt表示为：其中，和分别表示为t时刻第l层对应的接收分子数和分子探测器每回合所运动的步数；首先分子探测器探索N1个初始回合，利用平均接收分子数得到分子数阈值、运动步数阈值的初值Φ0、Ψ0；步骤4：分子探测器根据Φt和Ψt设置奖励r并更新Q表；每隔N2个回合更新分子数阈值Φt；直至找到目标则训练停止；步骤5：输出分子探测器最优运动路径，即从初始位置O出发，在训练得到的Q表中选择当前位置对应的Q值最大的方向进行运动，直至运动到目标位置，该路径即为最优运动路径；分子数初值Φ0和步数初值Ψ0的具体设置步骤如下：步骤201：设置N1个初始回合，令每个回合接收分子数为其中表示当前回合N中第W步的接收分子数；记当前回合数N＝1；步骤202：若N＞N1，跳转至步骤206；设置分子探测器当前位置s＝O，步数W＝0；步骤203：分子探测器按照下式所示的概率从Q表中选择当前位置s对应的动作aj：其中，表示si状态下选择aj的概率，argmaxQi,j表示从Q表的第i行找到能使得Qi,j最大的j；若6个方向对应的Q值全部相等，则从A中以等概的方式随机选择一个方向运动；步骤204：分子探测器执行动作aj，当前位置更新为s←s+aj，当前步数W←W+1，当前步数的接收分子数记为步骤205：若满足所述步骤2中3个回合终止条件，则开始一个新的回合，N←N+1并跳转至步骤206；否则，跳转至步骤203；步骤206：对N1个回合的接收分子数mN取平均得：记表示中从第l-1·tin·Wmax+1个到第l·tin·Wmax个数据中的最大值，该最大值在中的位置记为φl，其中l＝1,···,L；步骤207：令第l层步数阈值初值并得到第l层接收分子数阈值计算方法为：表示中第W个数值，从而得到所述步骤4中，分子数阈值和运动步数阈值Φt、Ψt以及Q表的更新，步骤如下：步骤301：令Φt＝Φ0，Ψt＝Ψ0，记当前回合数N＝1；令其中表示当前回合N第W步的接收分子数，N＝1,···,∞；步骤302：设置分子探测器当前位置s＝O，步数W＝0，当前回合接收的总分子数若N＞N2且可以被N2整除，则更新分子数阈值Φt；令当前回合分子数阈值层数lN＝1；步骤303：根据步骤203选择动作aj，分子探测器执行动作aj，当前位置更新为s←s+aj，当前步数W＝W+1，当前步数W的接收分子数记为更新当前回合接收的总分子数步骤304：计算奖励r，并按照如下公式更新Q表其中，Qi′,j′表示在下一状态si′＝s+aj做出动作aj′时所对应的Q值；步骤305：若满足所述步骤2中3个回合终止条件，则开始一个新的回合，N←N+1并跳转至步骤302；步骤306：开始新的一步，并跳转至步骤303；所述步骤302中更新分子数阈值Φt的步骤如下：步骤401：令表示第l层分子数阈值对应的更新指标，其中表示第N-N2+1个回合中前步的接收分子数；步骤402：选取ml中最大的数值作为第l层分子数阈值，即l＝1,···,L，并更新分子数阈值所述步骤304中，奖励r的计算步骤如下：步骤501：令r←0；步骤502：若达到分子数阈值，则设置分子数奖励r←r+rMol，其中rMol表示达到分子数阈值的奖励，并且若则同时设置步数奖励r←r+rW，其中rW表示达到运动步数阈值的奖励；步骤503：若碰到障碍物，则r←efail，其中efail表示碰到障碍物的惩罚值；步骤504：若找到目标，则r←esus，其中esus表示找到目标的奖励值；所述步骤502中，分子数奖励和步数奖励的计算方法如下：步骤601：rMol＝0，rW＝0；步骤602：若lN＞L，则结束奖励值计算，否则，执行步骤603；步骤603：若表示为t时刻第lN层对应的接收分子数，则结束奖励值计算；否则，执行步骤604；步骤604：令其中，为满足分子数阈值时获得的奖励值；若当前步数时，则令其中，为满足运动步数阈值时获得的奖励值；步骤605：令lN←lN+1，跳转至步骤602。

全文数据：

权利要求：

百度查询：江苏大学一种扩散分子通信环境下的多层自适应奖励目标溯源方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

下一篇：磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

相关技术

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

再生废液处理系统_山东荣信集团有限公司_202322260404.1

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

自适应相关技术

一种自适应标定系统_深圳市光鉴科技有限公司_202211283789.7

一种自适应式绕管机构_恩格尔机械(上海)有限公司_202320875638.4

一种自适应启动时间补偿装置_漳州立达信光电子科技有限公司_202322145239.5

通过使用自适应颜色空间变换处理视频信号的方法和设备_韦勒斯标准与技术协会公司_202080081442.7

一种LED电源的电流自适应调节电路_珠海市圣昌电子有限公司_202420576390.6

一种自适应缝隙调节可变弯度导叶设计方法及其装置_中国人民解放军空军工程大学_202111472323.7

一种基于快速傅里叶变换的自适应滤波方法_有研(广东)新材料技术研究院_202311611317.4

导水家用器具中自由流泵的自适应转速调整_BSH家用电器有限公司_202311356684.4

一种自适应土层承载力要求的结构平台体系_煤炭工业合肥设计研究院有限责任公司_201910092510.9

一种考虑自适应邻域的耕地连片度计算方法及系统_中国测绘科学研究院_202410141743.4

环境相关技术

一种建筑环境调节装置_安徽工商职业学院_202320948347.3

一种环境检测器_国能唯真(山东)测试分析有限公司_202322509781.4

确定环境亮度的方法及装置_北京小米移动软件有限公司_202110797441.9

室内机及空气环境机_深圳市英维克健康环境科技有限公司_202322467679.2

一种电厂用环境监测装置_华能辛店发电有限公司_202322718987.8

一种新型环保用环境检测装置_中科光生(苏州)智能环境科技有限公司_202322410996.0

用于分析乳房托环境的系统和方法_通用电气精准医疗有限责任公司_202311258611.1

一种环境工程排水截污装置_唐溢楠_202322573409.X

一种生态环境修复装置_南京云涧环境科技有限公司_202322734893.X

一种汽车试验环境仓用温度调节系统_中汽研汽车检验中心(呼伦贝尔)有限公司_202322195587.3

奖励相关技术

一种基于轨迹优化奖励的云计算任务自动调度方法_天翼云科技有限公司_202311712673.5

奖励模型处理方法、电子设备、介质和计算机程序产品_腾讯科技(深圳)有限公司_202011407855.8

一种贸易问题线上问答积分奖励管理方法及系统_成都信通信息技术有限公司_202410275693.9

一种交易系统中奖励金额发放的测试方法及装置_云账户技术(天津)有限公司_202410269929.8

游戏中奖励发放方法、装置、设备及计算机可读存储介质_网易(杭州)网络有限公司_201911338709.1

基于示教奖励状态机与残差强化学习的机器人装配学习方法_华南理工大学_202410096459.X

一种基于情景记忆深度Q网络的奖励获得方法_北京师范大学_202311560148.6

一种基于双评论家网络的多奖励辅助训练方法及其应用_浙江工业大学_202311852949.X

一种科技奖励形式审查系统_中国烟草总公司郑州烟草研究院_202311410228.3

基于环境奖励模糊自适应的强化学习方法、装置及介质_国网智能电网研究院有限公司_202311595879.4

龙图腾网&IPTOP

【发明授权】一种扩散分子通信环境下的多层自适应奖励目标溯源方法_江苏大学_202210040801.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务