买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度强化学习优化Volterra均衡器结构的方法和系统_上海交通大学_202111572693.8 

申请/专利权人:上海交通大学

申请日:2021-12-21

公开(公告)日:2023-07-25

公开(公告)号:CN114338309B

主分类号:H04L25/03

分类号:H04L25/03;G06N3/0442;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2023.07.25#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要:本发明提供了一种基于深度强化学习优化Volterra均衡器结构的方法和系统,包括:初始化智能体Agent、经验回放池、Volterra均衡器的记忆长度状态;对Agent随机产生动作,Volterra均衡器更新其记忆长度状态直至结束状态,根据Volterra均衡器的复杂度和对信号均衡后的误码率计算奖励值,并将转移过程作为经验,存入经验回放池;从经验回放池中采样经验,对Agent进行训练和软更新;根据收敛值确定Volterra均衡器的各阶记忆长度。本发明实现了在给定计算资源的情况下,不同类型Volterra均衡器最优结构的自动搜索方法,相比传统贪心搜索,不仅可以进一步提升均衡效果,而且大幅降低了均衡器的复杂度。

主权项:1.一种基于深度强化学习优化Volterra均衡器结构的方法,其特征在于,包括:步骤S1:初始化智能体Agent,初始化经验回放池,初始化Volterra均衡器的记忆长度状态并定义状态转移过程;步骤S2:从Volterra均衡器的初始记忆长度状态开始,对Agent随机产生动作,Volterra均衡器更新其记忆长度状态直至结束状态,根据Volterra均衡器的复杂度和对信号均衡后的误码率计算奖励值,并将转移过程作为经验,存入经验回放池中,再次从初始状态循环,直至产生指定数量的经验;步骤S3:从经验回放池中采样经验,对Agent进行训练,然后每隔预设步数,对Agent进行软更新;步骤S4:对更新后的Agent从Volterra均衡器的初始记忆长度状态开始产生确定性动作,直至状态转移过程结束,计算奖励值并将转移过程存入经验回放池,然后重复步骤S3和步骤S4,直至奖励值和Agent输出的动作收敛,最后根据收敛值确定Volterra均衡器的各阶记忆长度;所述步骤S1包括:步骤S11:定义Agent中的四个神经网络:Actor网络μθ,Critic网络Qw,TargetActor网络和TargetCritic网络使用随机参数θ,w初始化Actor网络μθ和Critic网络Qw,使用随机参数初始化TargetActor网络和TargetCritic网络Qw,其中,设置的初始值等于θ,设置的初始值等于w;步骤S12:初始化经验回放池,其存储经验的格式为si,ai,ri,si+1,done,其中,si表示当前Volterra均衡器的记忆长度状态;ai表示Agent根据当前状态si产生的动作,为每一阶记忆长度占最大记忆长度限制的比例;ri表示Agent面对状态si时采取动作ai获得的奖励;si+1表示Agent采取动作ai后,Volterra均衡器更新后的记忆长度状态;done是整个状态转移过程是否结束的标志;步骤S13:根据Volterra均衡器的类型来初始化Volterra均衡器的记忆长度状态并定义状态转移过程;所述步骤S2包括:步骤S21:根据Volterra均衡器类型选定状态转移过程,Agent从初始状态开始,产生服从[0,1]上均匀分布的随机动作,更新Volterra均衡器的记忆长度状态,Agent继续根据当前状态产生随机动作,直到Volterra均衡器的记忆长度状态更新至结束状态;步骤S22:计算奖励值,根据Volterra均衡器各阶最大记忆长度限制和Agent的动作确定各阶记忆长度,对信号数据做2折交叉验证,用当前均衡器的复杂度和均衡后的平均误码率计算奖励值;步骤S23:将状态转移过程si,ai,ri,si+1,done作为经验,存入经验回放池中;步骤S24:重复步骤S21至步骤S23,直至产生预设数量的经验;所述步骤S4包括:更新后的Agent从Volterra均衡器的初始状态开始产生动作,更新Volterra均衡器的记忆长度状态,Agent继续根据当前状态产生动作,直到Volterra均衡器的记忆长度状态更新至结束状态,Agent每次产生的动作都要添加服从均值为0,方差为σ2的高斯分布的探索噪声e;根据Volterra均衡器各阶最大记忆长度限制和Agent的动作确定各阶记忆长度,对信号数据做2折交叉验证,用当前均衡器的复杂度和均衡后的平均误码率计算奖励值;将状态转移过程si,ai,ri,si+1,done作为经验存入经验回放池中;然后执行步骤S3;每次更新结束后,对探索噪声e的方差进行衰减:σ2←σ2ξn,式中ξ为衰减率,n为更新次数;重复上述操作,直至当前奖励值与上一次奖励值之差的绝对值小于χ1,当前Agent输出动作与上一次Agent输出动作之差的绝对值小于χ2,则判断训练结果已经收敛,其中,χ1≥0,χ2≥0为设定的判决阈值,最后根据Agent输出动作的收敛值和各位置的最大记忆长度限制来确定Volterra均衡器各位置的记忆长度,完成对Volterra均衡器最优结构的确定。

全文数据:

权利要求:

百度查询: 上海交通大学 基于深度强化学习优化Volterra均衡器结构的方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。