买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的电网实时自适应决策方法_国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司_202111368913.5 

申请/专利权人:国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司

申请日:2021-11-18

公开(公告)日:2024-03-19

公开(公告)号:CN114217524B

主分类号:G05B13/02

分类号:G05B13/02;G05B13/04;G06N3/092;G06N3/006;G06N3/096;G06N3/09

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2022.04.08#实质审查的生效;2022.03.22#公开

摘要:本发明涉及一种基于深度强化学习的电网实时自适应决策方法,包括如下步骤:步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程;步骤2、研究SAC算法的基础原理,求解使得步骤1中MDP模型累计奖励值最大的策略;步骤3、设计基于IL中行为克隆的神经网络预训练方案,模拟专家经验,优化原始动作空间,提出IL‑SAC算法,并基于IL‑SAC算法以及105个真实电网场景数据训练相应的电网优化调度智能体,在测试时该智能体应对不同的电网场景数据能够输出实时决策方案,实现新型电网系统的智能调控。本发明能够实时地输出电网调度策略。

主权项:1.一种基于深度强化学习的电网实时自适应决策方法,其特征在于:包括如下步骤:步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程;步骤2、研究SAC算法的基础原理,包括其5个网络即策略Actor网络、“软”V网络、2个“软”Q网络、目标V网络的更新流程和更新公式,并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α和网络宽度深度,求解使得步骤1中MDP模型累计奖励值最大的策略;步骤3、设计基于IL中行为克隆的神经网络预训练方案,模拟专家经验,优化原始动作空间,提出IL-SAC算法,并基于IL-SAC算法以及105个真实电网场景数据训练相应的电网优化调度智能体,在测试时该智能体应对不同的电网场景数据能够输出实时决策方案,实现新型电网系统的智能调控;所述步骤1的具体步骤包括:用4维元组描述S,A,P,R,其中S表示该电网系统的状态集,A表示该电网系统的动作集,P:S×A×S→[0,1]表示状态转移概率,R:S×A→R表示奖励机制:1-1状态变量S在t时段的Grid2Op电网系统状态st∈S如式1所示 其中,N,J,K分别表示该电网系统中有N条电力传输线,J个发电机组节点,K个负载节点;分别表示第j个发电机组节点上的有功出力、无功出力以及电压大小;表示第m个新能源机组节点上下一时刻的有功出力上限预测值,M表示J个机组种有M个新能源机组,M<J;分别表示第k个负载节点上的有功需求、无功需求以及电压大小;表示第k个负载节点上下一时刻的有功需求预测值,以上变量都是可以通过Grid2Op电网系统仿真模型直接观测或调用的系统观测状态量;Fi表示第i条电力传输线上的开断状态,是一个布尔值变量,当Fi=1时表示传输线为断开状态,当Fi=0时表示传输线为连接状态;rhoi表示第i条电力传输线上的负载率;1-2动作变量A动作变量即系统可调整变量,t时刻该系统的动作变量at∈A如式2所示 其中,X表示该电网系统有X个可控机组;表示第x个机组节点上的有功出力调节值;表示第x个机组节点上的电压调整值;由于机组的有功出力和电压皆是连续变化的动作,欲将其离散化;设离散化的最小间隔分别为ΔDp和ΔDv,则 其中,y,z都为整数;根据式3和4,将动作变量at离散化之后可以表示为 1-3状态转移概率P状态转移概率表示给定当前状态st∈S以及动作at∈A,状态从st变换到st+1的概率值,可以表示为 采用深度强化学习算法从历史数据中采样从而隐式学习得到该概率分布;1-4奖励机制R设置了6个类型奖励r1,r2,r3,r4,r5,r6∈R,具体描述如下:1根据输电线路越限情况设置奖励函数r1, 其中,rhomax表示N条传输线路上最大的rho值;2根据新能源机组消纳总量设置正奖励函数r2, 其中,表示新能源机组m当前时间步的实际有功出力,表示新能源机组m在当前时间步的最大出力;3根据平衡机组功率越限情况设置负奖励r3, 其中,U表示平衡机个数,表示平衡机u的实际有功出力,分别表示平衡机的出力的上下限;4根据机组运行费用设置负奖励r4, 其中,aj,bj,cj表示为对应不同机组的发电成本曲线系数;5根据机组的无功出力越限情况设置负奖励r5, 其中,分别表示机组无功出力的上下限;6根据机组节点和负载节点电压越限情况设置负奖励r6, 其中,分别表示各个发电机节点和负载节点电压的上下限;对上述奖励函数r4,r5,r6使用如下公式进行归一化处理r=er-117综上所述,奖励函数r1的值域为-1,1、r1的值域为[0,1],r3,r4,r5,r6的域值为-1,0,奖励函数r3属于该取值范围是由于该仿真环境中U=1;故t时时刻的整体奖励函数rt∈R如下所示rt=c1r1+c2r2+c3r3+c4r4+c5r5+c6r618其中,ci,i=1,2,..,6表示各奖励函数的系数,将各个系数具体取值为c2=4,c3=2,c1=c4=c5=c6=1,该取值说明了模型构建过程中的奖励侧重点在于新能源消纳以及有功功率平衡。

全文数据:

权利要求:

百度查询: 国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司 一种基于深度强化学习的电网实时自适应决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。