买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种扩散分子通信环境下的多层自适应奖励目标溯源方法_江苏大学_202210040801.5 

申请/专利权人:江苏大学

申请日:2022-01-13

公开(公告)日:2024-03-22

公开(公告)号:CN114531647B

主分类号:H04W4/02

分类号:H04W4/02;H04W4/029;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2022.06.10#实质审查的生效;2022.05.24#公开

摘要:本发明公开一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法。首先输入算法所需的参数,设计多层阈值模型和分子探测器的运动方式;然后,让分子探测器探索若干回合获取阈值的初始值并更新奖励信息;最后,以固定回合数更新多层阈值,接收机经过若干次迭代之后找到目标。本发明能够解决复杂扩散分子通信环境下分子探测器的路径规划问题。该方案具有定位精度高、复杂度低、快速定位等优点。

主权项:1.一种扩散分子通信环境下基于强化学习的多层自适应奖励目标溯源方法,其特征在于,能够引导分子探测器避开障碍物找到目标位置,具体步骤如下:步骤1:设定分子探测器起点位置坐标O,可行位置集合S,分子探测器每步的运动距离d和动作集合A={0,0,±d,0,±d,0,±d,0,0},学习率α,衰减因子γ,分子探测器每回合的运动时间ttot,探测目标释放分子的时间周期tin,分子探测器每步的运动时间间隔ts,选择运动方向的概率ε∈[0,1],每回合的最大运动步数Wmax=ttotts,初始迭代回合数N1,最大更新迭代回合数N2,碰到障碍物给予的惩罚值efail,达到分子数阈值给予的奖励值达到步数阈值给予的奖励值,成功找到目标给予的奖励值esus,设置Q表的初值全为0,Qi,j表示Q表第i行、第j列的值,其分别对应第i个状态si∈S,i=1,···,|S|和第j个动作aj∈A,j=1,···,|A|,其中|S|和|A|分别表示集合|S|和|A|的大小;步骤2:每个训练回合内,分子探测器从初始位置O出发,满足以下3个条件之一则回合终止:1运动步数达到Wmax;2分子探测器碰到障碍物;3分子探测器找到目标;步骤3:令多层自适应奖励阈值方案的层数为代表向上取整;分子数阈值Φt和运动步数阈值Ψt表示为: 其中,和分别表示为t时刻第l层对应的接收分子数和分子探测器每回合所运动的步数;首先分子探测器探索N1个初始回合,利用平均接收分子数得到分子数阈值、运动步数阈值的初值Φ0、Ψ0;步骤4:分子探测器根据Φt和Ψt设置奖励r并更新Q表;每隔N2个回合更新分子数阈值Φt;直至找到目标则训练停止;步骤5:输出分子探测器最优运动路径,即从初始位置O出发,在训练得到的Q表中选择当前位置对应的Q值最大的方向进行运动,直至运动到目标位置,该路径即为最优运动路径;分子数初值Φ0和步数初值Ψ0的具体设置步骤如下:步骤201:设置N1个初始回合,令每个回合接收分子数为其中表示当前回合N中第W步的接收分子数;记当前回合数N=1;步骤202:若N>N1,跳转至步骤206;设置分子探测器当前位置s=O,步数W=0;步骤203:分子探测器按照下式所示的概率从Q表中选择当前位置s对应的动作aj: 其中,表示si状态下选择aj的概率,argmaxQi,j表示从Q表的第i行找到能使得Qi,j最大的j;若6个方向对应的Q值全部相等,则从A中以等概的方式随机选择一个方向运动;步骤204:分子探测器执行动作aj,当前位置更新为s←s+aj,当前步数W←W+1,当前步数的接收分子数记为步骤205:若满足所述步骤2中3个回合终止条件,则开始一个新的回合,N←N+1并跳转至步骤206;否则,跳转至步骤203;步骤206:对N1个回合的接收分子数mN取平均得: 记表示中从第l-1·tin·Wmax+1个到第l·tin·Wmax个数据中的最大值,该最大值在中的位置记为φl,其中l=1,···,L;步骤207:令第l层步数阈值初值并得到第l层接收分子数阈值计算方法为: 表示中第W个数值,从而得到所述步骤4中,分子数阈值和运动步数阈值Φt、Ψt以及Q表的更新,步骤如下:步骤301:令Φt=Φ0,Ψt=Ψ0,记当前回合数N=1;令其中表示当前回合N第W步的接收分子数,N=1,···,∞;步骤302:设置分子探测器当前位置s=O,步数W=0,当前回合接收的总分子数若N>N2且可以被N2整除,则更新分子数阈值Φt;令当前回合分子数阈值层数lN=1;步骤303:根据步骤203选择动作aj,分子探测器执行动作aj,当前位置更新为s←s+aj,当前步数W=W+1,当前步数W的接收分子数记为更新当前回合接收的总分子数步骤304:计算奖励r,并按照如下公式更新Q表 其中,Qi′,j′表示在下一状态si′=s+aj做出动作aj′时所对应的Q值;步骤305:若满足所述步骤2中3个回合终止条件,则开始一个新的回合,N←N+1并跳转至步骤302;步骤306:开始新的一步,并跳转至步骤303;所述步骤302中更新分子数阈值Φt的步骤如下:步骤401:令表示第l层分子数阈值对应的更新指标,其中表示第N-N2+1个回合中前步的接收分子数;步骤402:选取ml中最大的数值作为第l层分子数阈值,即l=1,···,L,并更新分子数阈值所述步骤304中,奖励r的计算步骤如下:步骤501:令r←0;步骤502:若达到分子数阈值,则设置分子数奖励r←r+rMol,其中rMol表示达到分子数阈值的奖励,并且若则同时设置步数奖励r←r+rW,其中rW表示达到运动步数阈值的奖励;步骤503:若碰到障碍物,则r←efail,其中efail表示碰到障碍物的惩罚值;步骤504:若找到目标,则r←esus,其中esus表示找到目标的奖励值;所述步骤502中,分子数奖励和步数奖励的计算方法如下:步骤601:rMol=0,rW=0;步骤602:若lN>L,则结束奖励值计算,否则,执行步骤603;步骤603:若表示为t时刻第lN层对应的接收分子数,则结束奖励值计算;否则,执行步骤604;步骤604:令其中,为满足分子数阈值时获得的奖励值;若当前步数时,则令其中,为满足运动步数阈值时获得的奖励值;步骤605:令lN←lN+1,跳转至步骤602。

全文数据:

权利要求:

百度查询: 江苏大学 一种扩散分子通信环境下的多层自适应奖励目标溯源方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。