买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于近端策略优化的强化学习水泥生产过程控制方法_北京国鼎源创智能科技有限公司_202311751549.X 

申请/专利权人:北京国鼎源创智能科技有限公司

申请日:2023-12-19

公开(公告)日:2024-04-09

公开(公告)号:CN117850355A

主分类号:G05B19/418

分类号:G05B19/418

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.26#实质审查的生效;2024.04.09#公开

摘要:本发明揭示了基于近端策略优化的强化学习水泥生产过程控制方法,包括以下步骤:建立PPO智能体训练环境,建立PPO智能体,构造PPO训练方法,结束。本发明实现了提高水泥生产的质量与能源利用效率,实现生产过程的最优控制,维持生产过程在最佳状态,从而能保证生产的质量与效率。

主权项:1.基于近端策略优化的强化学习水泥生产过程控制方法,其特征在于,包括以下步骤:1建立PPO智能体训练环境,收集水泥生产过程中多种工况下的数据,建立一个时间序列预测模型,训练预测模型,构造步进函数,以预测模型为基础,根据智能体输出的动作预测受控对象在下一时间步的状态,构建观测器,从受控对象的状态中输出受控对象状态的微分、积分,构造奖励函数,对每一时间步内的控制效果给出评价,以引导智能体的优化方向;2建立PPO智能体,构建智能体的演员模型与评论家模型,并为其中各全连接层分配合适数量的神经元,根据观测器输出的状态向量维数与智能体输出的控制量维数设置演员模型的输入输出端向量的数量;3构造PPO训练方法,按照 其中,θ是actor网络的参数,是新旧策略之比,表示当前策略在状态st下采取动作at的概率与旧策略在状态st下采取动作at的概率之比,cliprtθ,1-ε,1+ε是一个剪裁函数,将rtθ限制在区间[1-ε,1+ε]内,ε是超参数,用于控制剪裁幅度,和 其中,表示在状态st下采取动作at的价值,表示在状态st下的平均价值,构造演员模型的损失值函数,按照 其中,Vωst表示当前价值网络在状态st下输出的价值估计,表示旧策略在状态st下的平均价值,构造评论家模型的损失值函数,初始化超参数c1和c2,按照 其中,近端比率裁剪损失LCLIPθ与价值函数损失LVFω,近端比率裁剪损失用于限制策略更新幅度,价值函数损失用于优化策略,函数中c1和c2是超参数,用于控制不同损失函数的权重,构造智能体的总体损失值函数,设置PPO的经验池大小与最大训练次数,设置梯度寻优算法及其学习率,设置保存模型权重的奖励值阈值,达到该阈值之后即将智能体模型的权重保存为预训练模型,设置终止训练的奖励值阈值,当奖励值达到该阈值时即认为智能体的性能已达到预期指标;4结束。

全文数据:

权利要求:

百度查询: 北京国鼎源创智能科技有限公司 基于近端策略优化的强化学习水泥生产过程控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。