买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种深度强化学习中基于涡量光滑的奖励机制_上海理工大学_202311524947.8 

申请/专利权人:上海理工大学

申请日:2023-11-15

公开(公告)日:2024-03-22

公开(公告)号:CN117742138A

主分类号:G05B13/02

分类号:G05B13/02;G06N3/006;G06N3/045;G06N3/092;G06N3/084;G06N3/0985

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明涉及一种深度强化学习中基于涡量光滑的奖励机制,通过将翼型表面阻力系数、升力系数和探针点获取的涡量统计值结合构成奖励函数;根据该奖励函数对神经网络进行训练,获取合适的控制策略π,从而实现神经网络的主动流动控制,以期获得抑制流动分离最佳优化效果。解决了翼型流动分离的闭环主动控制的稳定性不足的问题,综合考虑了翼型表面阻力系数、升力系数和以探针获取的涡量统计值;通过人工深度神经网络与流场数值模拟环境不断交互,动态更新神经网络参数,获取最优策略,控制翼型射流装置,改变流场流动状态,实现翼型增升减阻的目的。通过涡量光滑抑制的翼型分离现象可实现有效减小和消去,稳定尾流振荡,翼型增升减阻效果更优。

主权项:1.一种深度强化学习中基于涡量光滑的奖励机制,其特征在于,通过将翼型表面阻力系数、升力系数和探针点获取的涡量统计值结合构成奖励函数;根据该奖励函数对神经网络进行训练,获取合适的控制策略π,从而实现神经网络的主动流动控制,以期获得抑制流动分离最佳优化效果,具体包括如下步骤:1搭建翼型绕流数值模拟与人工深度神经网络的深度强化学习框架;对翼型绕流进行数值模拟,通过提前设置于流场内不同数量、位置的探针,获取不同控制周期内最后一个瞬时时刻的速度与压力值并计算该周期内翼型表面的平均升阻力系数与涡量统计值作为智能体更新所需数据;人工深度神经网络作为框架内的智能体,包含策略神经网络π与价值神经网络;策略神经网络π根据流场提供的状态值输出动作分布参数;价值神经网络根据流场信息以及熵值评估当前状态的价值;2翼型绕流数值模拟环境提供智能体所需要的状态,首先获取无控制条件下不同攻角的流动情况,当流动发展至稳定状态的时刻,将该时刻作为不同攻角环境的初始状态,该时刻下,数值模拟流场中设置的探针所获得的速度或压力值作为初始状态值S0;3智能体根据当前时刻t环境输送的状态值St,输出动作值At,该动作值用来改变t时刻的翼型上表面所设有的主动流动控制装置所需参数,该控制装置根据该参数控制环境,进入到t+1时刻;4建立一种基于涡量光滑奖励函数,将翼型表面阻力系数、升力系数、涡量统计值考虑进奖励函数中,如下公式1: 其中Rt表示t时刻的瞬时奖励值,α、β为涡量统计值大小变化的权重,根据不同流动条件而决定;表示初始时刻下的值;·T表示不同轨迹下的值;CD、CL分别表示翼型表面的阻力系数与升力系数;Ωmax、Ωmean分别为涡量最大值与涡量平均值;计算不同时刻获得的价值函数,记录n个轨迹后,获得当前瞬时时刻的累计回报Ut,组成经验池;5从经验池采用数据对价值神经网络进行更新。

全文数据:

权利要求:

百度查询: 上海理工大学 一种深度强化学习中基于涡量光滑的奖励机制

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。