【发明授权】一种基于深度强化学习的电网实时自适应决策方法_国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司_202111368913.5

申请/专利权人：国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司

申请日：2021-11-18

公开（公告）日：2024-03-19

公开（公告）号：CN114217524B

主分类号：G05B13/02

分类号：G05B13/02;G05B13/04;G06N3/092;G06N3/006;G06N3/096;G06N3/09

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2022.04.08#实质审查的生效;2022.03.22#公开

摘要：本发明涉及一种基于深度强化学习的电网实时自适应决策方法，包括如下步骤：步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程；步骤2、研究SAC算法的基础原理，求解使得步骤1中MDP模型累计奖励值最大的策略；步骤3、设计基于IL中行为克隆的神经网络预训练方案，模拟专家经验，优化原始动作空间，提出IL‑SAC算法，并基于IL‑SAC算法以及105个真实电网场景数据训练相应的电网优化调度智能体，在测试时该智能体应对不同的电网场景数据能够输出实时决策方案，实现新型电网系统的智能调控。本发明能够实时地输出电网调度策略。

主权项：1.一种基于深度强化学习的电网实时自适应决策方法，其特征在于：包括如下步骤：步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程；步骤2、研究SAC算法的基础原理，包括其5个网络即策略Actor网络、“软”V网络、2个“软”Q网络、目标V网络的更新流程和更新公式，并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α和网络宽度深度，求解使得步骤1中MDP模型累计奖励值最大的策略；步骤3、设计基于IL中行为克隆的神经网络预训练方案，模拟专家经验，优化原始动作空间，提出IL-SAC算法，并基于IL-SAC算法以及105个真实电网场景数据训练相应的电网优化调度智能体，在测试时该智能体应对不同的电网场景数据能够输出实时决策方案，实现新型电网系统的智能调控；所述步骤1的具体步骤包括：用4维元组描述S,A,P,R，其中S表示该电网系统的状态集，A表示该电网系统的动作集，P：S×A×S→[0,1]表示状态转移概率，R:S×A→R表示奖励机制：1-1状态变量S在t时段的Grid2Op电网系统状态st∈S如式1所示其中，N,J,K分别表示该电网系统中有N条电力传输线，J个发电机组节点，K个负载节点；分别表示第j个发电机组节点上的有功出力、无功出力以及电压大小；表示第m个新能源机组节点上下一时刻的有功出力上限预测值，M表示J个机组种有M个新能源机组，M＜J；分别表示第k个负载节点上的有功需求、无功需求以及电压大小；表示第k个负载节点上下一时刻的有功需求预测值，以上变量都是可以通过Grid2Op电网系统仿真模型直接观测或调用的系统观测状态量；Fi表示第i条电力传输线上的开断状态，是一个布尔值变量，当Fi＝1时表示传输线为断开状态，当Fi＝0时表示传输线为连接状态；rhoi表示第i条电力传输线上的负载率；1-2动作变量A动作变量即系统可调整变量，t时刻该系统的动作变量at∈A如式2所示其中，X表示该电网系统有X个可控机组；表示第x个机组节点上的有功出力调节值；表示第x个机组节点上的电压调整值；由于机组的有功出力和电压皆是连续变化的动作，欲将其离散化；设离散化的最小间隔分别为ΔDp和ΔDv,则其中，y,z都为整数；根据式3和4，将动作变量at离散化之后可以表示为 1-3状态转移概率P状态转移概率表示给定当前状态st∈S以及动作at∈A，状态从st变换到st+1的概率值，可以表示为采用深度强化学习算法从历史数据中采样从而隐式学习得到该概率分布；1-4奖励机制R设置了6个类型奖励r1,r2,r3,r4,r5,r6∈R，具体描述如下：1根据输电线路越限情况设置奖励函数r1，其中，rhomax表示N条传输线路上最大的rho值；2根据新能源机组消纳总量设置正奖励函数r2，其中，表示新能源机组m当前时间步的实际有功出力，表示新能源机组m在当前时间步的最大出力；3根据平衡机组功率越限情况设置负奖励r3，其中，U表示平衡机个数，表示平衡机u的实际有功出力，分别表示平衡机的出力的上下限；4根据机组运行费用设置负奖励r4，其中，aj,bj,cj表示为对应不同机组的发电成本曲线系数；5根据机组的无功出力越限情况设置负奖励r5，其中，分别表示机组无功出力的上下限；6根据机组节点和负载节点电压越限情况设置负奖励r6，其中，分别表示各个发电机节点和负载节点电压的上下限；对上述奖励函数r4,r5,r6使用如下公式进行归一化处理r＝er-117综上所述，奖励函数r1的值域为-1，1、r1的值域为[0,1]，r3,r4,r5,r6的域值为-1，0，奖励函数r3属于该取值范围是由于该仿真环境中U＝1；故t时时刻的整体奖励函数rt∈R如下所示rt＝c1r1+c2r2+c3r3+c4r4+c5r5+c6r618其中，ci,i＝1,2,..,6表示各奖励函数的系数，将各个系数具体取值为c2＝4，c3＝2，c1＝c4＝c5＝c6＝1，该取值说明了模型构建过程中的奖励侧重点在于新能源消纳以及有功功率平衡。

全文数据：

权利要求：

百度查询：国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司一种基于深度强化学习的电网实时自适应决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

下一篇：一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

相关技术

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

电网相关技术

一种电网运行场景动态判定方法及系统_北京科东电力控制系统有限责任公司_202010410473.4

有源配电网的动态调控方法、装置、设备及介质_北京智芯微电子科技有限公司_202410176101.8

一种多能源配电网用户数据优化分类方法_国网山东省电力公司经济技术研究院_202410114975.0

一种通信延时下微电网分布式的平均电压观测方法_合肥工业大学_202210418787.8

一种用于电力系统的电网目标检测方法及装置_云南电网有限责任公司电力科学研究院_202110034245.6

移动储能参与的主动配电网无功优化调度方法及系统_南京理工大学_202111514660.8

用于电网频率控制的充电站控制方法及系统_天津大学_202410175861.7

一种面向用户的电网调度方法及装置、计算设备_国网安徽省电力有限公司天长市供电公司_202311064082.1

一种配电网最大供电能力计算方法及系统_国网天津市电力公司电力科学研究院_202311770334.2

一种智能电网的网络切换方法及相关设备_北京中电飞华通信有限公司_202410179684.X

实时相关技术

可实时监测压缩空气压力的喷枪_杜而特涂装设备科技(苏州)有限公司_202322296075.6

一种电力线路实时视频监控装置_山东鲁发科技有限公司_202322511747.0

实时网络威胁检测方法及功能设备_江苏开博科技有限公司_202410166977.4

一种基于热平衡计算的水泥回转窑温度实时估计方法_浙江大学_202310211711.2

一种运动实时视频自动剪辑推送方法与系统_杭州锐颖科技有限公司_202410118700.4

一种实时定量检测的污染源有机气体检测装置_陕西省环境监测中心站_202410217936.3

基于二分缩减的实时目标检测方法及系统_中科方寸知微(南京)科技有限公司_202410150166.5

日志等级实时修改方法、装置、电子设备及可读存储介质_新奇点智能科技集团有限公司_202010532002.0

可固定式胃出血监测胶囊内窥镜及胃出血实时监测系统_上海长海医院_201910484319.9

用于配置和验证对实时以太网数据网络的介入的装置_大陆汽车科技有限公司_201980070201.X

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

龙图腾网&IPTOP

【发明授权】一种基于深度强化学习的电网实时自适应决策方法_国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司_202111368913.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务