买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的稳定平台伺服控制方法_北京理工大学_202410033173.7 

申请/专利权人:北京理工大学

申请日:2024-01-10

公开(公告)日:2024-04-02

公开(公告)号:CN117539145B

主分类号:G05B11/42

分类号:G05B11/42

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.03.01#实质审查的生效;2024.02.09#公开

摘要:本发明公开了一种基于深度强化学习的稳定平台伺服控制方法,涉及伺服控制技术领域。本发明与之前的PID控制器相比,改进了其快速性与抗干扰能力不足、性能依赖设计人员经验且自适应能力欠缺的问题,通过设计并训练深度强化学习智能体,使其在与环境的不断交互中学习出最佳控制策略,构成深度强化学习自适应PID速度环、经典PID位置环的双闭环校正稳定平台控制器,并将之应用于基于斜置稳定平台的过顶控制策略中。仿真验证结果显示,该方法动态性能良好、抗干扰能力强,能够稳定跟踪高速机动的目标,满足稳定平台伺服控制系统的工程应用要求。

主权项:1.一种基于深度强化学习的稳定平台伺服控制方法,其特征在于,具体包括以下步骤:S1、建立伺服稳定平台控制系统模型,引入力矩电机模型,搭建位置速度双闭环校正模型;S2、建立基于深度强化学习的深度确定性策略梯度算法网络,记作深度确定性策略梯度智能体网络;S3、根据S2中所得的深度确定性策略梯度智能体网络设计智能体控制器的状态观测值,作为环境对智能体的反馈;S4、利用S2中所得的深度确定性策略梯度智能体网络设计智能体对环境采取的动作;S5、基于S2中所得的深度确定性策略梯度智能体网络,结合实际控制需求设计合适的奖赏函数,引导智能体学习最佳控制策略,具体包括以下内容:所述奖赏函数为组合式函数,由允许偏差带奖赏函数R1t、偏差变化率奖赏函数R2t、输出范围奖赏函数R3t构成,具体公式表示如下: 将上述奖赏函数进行组合,得到:Rt=R1t+R2t+R3t7;S6、将S3-S5中所述智能体状态观测值设计、智能体动作设计、奖赏函数设计与智能体组合得到自适应PID控制器,应用于稳定平台的速度环控制中,获得速度环校正回路;S7、利用S6中所得的速度环校正回路分别训练各个框架通道的深度确定性策略梯度智能体网络,直至平均奖赏值达到目标奖赏值时停止训练;S8、将S7中训练完毕的深度确定性策略梯度速度环校正回路与采用经典PID的位置环校正串联,构成完整的双闭环校正回路稳定平台控制系统模型;S9、将S8所得的控制器应用于斜置稳定平台过顶奇异控制策略中,实现目标跟踪。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于深度强化学习的稳定平台伺服控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。