买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种微电网储能协调控制的方法_北京工业大学_202110753902.2 

申请/专利权人:北京工业大学

申请日:2021-07-03

公开(公告)日:2024-03-22

公开(公告)号:CN113555888B

主分类号:H02J3/32

分类号:H02J3/32;H02J3/38

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2021.11.12#实质审查的生效;2021.10.26#公开

摘要:一种微电网储能协调控制的方法涉及电力系统微电网领域。本发明针对微电网系统,提出了UCBA3C深度强化学习的微电网储能协调控制方法。在算法学习过程中,利用UCB动作探索机制来选择当前状态下微电网负荷组件、储能组件以及与电网进行电量交易的控制动作,可以提高微电网学习迭代过程中的鲁棒性,且能够提高微电网控制效率,从而提升微电网的经济效益。

主权项:1.一种基于深度强化学习的微电网储能协调控制方法,其特征在于,包括以下实现步骤:步骤1:初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数θ,ω,当前线程A3C神经网络结构对应参数θ',ω',一次训练所选取的样本数d,全局共享的迭代次数T,当前线程总的迭代时间步数Nt,初始时间t,设定开始时刻tstart,设定最大迭代次数Tmax;这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数;步骤2:重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;步骤3:从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω;步骤4:微电网系统观测当前系统状态st;这里系统状态完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价;步骤5:基于策略πat|st,θ选择动作at,并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;这里,策略πat|st,θ为在st和θ条件下选择at的概率,动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件电网优先级的动作,微电网电量过剩时确定储能组件电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;步骤6:计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt;步骤7:微电网系统观测下一时刻其所处状态st+1;步骤8:微电网系统在经验池D中存储所得到的向量集st,at,rt,st+1;步骤9:若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层为80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则;Actor网络的损失函数公式如下: θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'st,at表示在st和θ'条件下选择at的概率;πst,θ'表示在st条件下选择θ'的概率;Ast,t表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:Ast,t=rt+κrt+1+...+κn-1rt+n-1+κnVst+1,ω'-Vst,ω'式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;Vst,ω'表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层为1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;Vst+1,ω'表示Critic网络在st+1和ω'条件下的价值取值;步骤10:更新动作获取概率矩阵其中τ是调整置信因子的常系数,此处τ为0.003;第二项是置信因子;ε是不断减小的参数;此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小;在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用;步骤11:微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmaxp;这里的p是指上一步骤中得到的动作获取概率矩阵;步骤12:更新迭代时间t=t+1,迭代次数T=T+1;步骤13:判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤6;步骤14:计算最后一个时刻t对应状态st的Critic网络输出Qst,t,如下式所示: 式中Vst,ω'表示Critic网络的价值取值;步骤15:更新迭代时间t=t-1;步骤16:计算当前时刻t所对应状态st的Critic网络输出Qst,t,如下:Qst,t=rt+γQst,t+1;γ是一个常数,其取值为0.5;步骤17:更新当前线程A3C神经网络Actor的梯度: 式中Vst,ω'表示Critic网络的价值取值;dθ1表示dθ更新后的参数;步骤18:更新当前线程A3C神经网络Critic的梯度: 式中表示求偏导运算;dω1表示dω更新后的参数;步骤19:观测当前时间t是否是开始时刻tstart,若是则进行下一步骤,否则回到步骤15;步骤20:利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:θ1=θ-αdθ1,ω1=ω-αdω1;这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数;步骤21:如果TTmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤3;并输出此时动作对应的{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件电网优先级的动作,微电网电量过剩时确定储能组件电网优先级的动作}。

全文数据:

权利要求:

百度查询: 北京工业大学 一种微电网储能协调控制的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。