买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于优势函数分解的电力系统暂态稳定预防控制方法_国网山西省电力公司电力科学研究院;太原理工大学_202410063892.3 

申请/专利权人:国网山西省电力公司电力科学研究院;太原理工大学

申请日:2024-01-17

公开(公告)日:2024-04-05

公开(公告)号:CN117578466B

主分类号:H02J3/00

分类号:H02J3/00;G06F18/15;G06F18/214;G06F18/2415;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要:本发明公开了一种基于优势函数分解的电力系统暂态稳定预防控制方法,涉及电力系统的人工智能应用领域。该预防控制方法为基于CNNMLP‑优势函数分解的多智能体算法,首先对CNNMLP中样本生成、模型结构、输入特征等进行计算,然后对优势函数分解的多智能体算法中涉及到的状态设置、输入特征、奖励函数以及模型训练流程进行了计算;之后将两者结合作为本发明暂态稳定预防控制方法,最后通过IEEE39节点系统算例验证了本发明方法的有效性。本发明有效提高了准确率、降低了严重错误率;同时降低了深度强化学习训练成本;最终使得该方法训练稳定性更优,且控制策略调整总量最小。

主权项:1.一种基于优势函数分解的电力系统暂态稳定预防控制方法,其特征在于:包括如下步骤:S1:提出将CNN-MLP与时域仿真方法结合的暂态稳定分析方法,将稳态数据与暂态数据相结合的综合数据作为暂态稳定分析的输入样本,通过调参训练CNN-MLP模型,在测试集上评估模型输出结果的可信度,若达到阈值则作为最终预测结果,否则以时域仿真结果为准,为后续暂态预防控制提供状态评估结果支撑;具体如下:S1-1:样本生成:在暂态稳定分析中,为提高暂态稳定分析的准确性,提取相应的特征量,所述特征量不仅包括故障发生前的稳态量,还加入了故障数据,即特征量中包括发电机有功功率以及故障后1s内发电机功角差数据,所以,特征量包含故障前、故障中和故障后数据;首先确定系统的故障集F,之后在95%、100%和105%负荷水平下抽取部分线路N-1三相断线运行方式进行暂态计算,获取特征量;采用简单随机抽样方法SRS,在预先设定的范围进行多次采样,得到不同运行方式的多个数据;简单随机抽样进行发电机有功出力抽样的表达式为: (1)式中:为节点i处发电机有功功率;、分别为节点i处发电机有功功率设定的上限、下限;k为区间[0,1]上服从均匀分布的随机数;在抽样得到的发电机有功功率的基础上,进行暂态仿真计算获取特征量,并标注样本标签,仿真时间取为5s,暂态功角失稳的判据为: (2)式中:为仿真结束时刻各个发电机组之间的最大功角差;为发电机功角差的最大允许值,取360°;S1-2:模型构建:S1-2-1:获得样本数据以后,首先采用以下公式对样本数据进行归一化处理,用于提高训练的稳定性: (3)S1-2-2:构建CNN-MLP模型:对于CNN模型,二维暂态数据进入卷积层提取特征,该特征与发电机有功数据拼接后进入全连接层,由全连接层输出分类结果,隐藏层包括三个二维卷积层和两个池化层,与一维数据拼接输入全连接层中,激活函数采用sigmoid函数,将预测值映射到(0,1)上,得到暂态稳定预测值;而对于MLP模型,暂态数据被拉平后与发电机有功数据拼接,经过四层全连接层和ReLU激活,加快模型收敛速度,最终经过sigmoid得到暂态稳定评估结果;对训练后的模型进行模型评价,采用混淆矩阵计算二分类任务的评价指标,混淆矩阵是一种用于评估分类模型效果的工具,设定为一个二维的表格,行表示实际类别,列表示预测类别,每个单元格是真正类别与预测类别的匹配数,通过混淆矩阵中的数据计算出分类精度、召回率、准确率;表格中TP和TN代表分类器正确预测样本稳定或失稳的数量,FN代表稳定样本被误判为失稳的数量,FP代表失稳样本被误判为稳定的数量,根据需求,减少FP出现的概率;设置出的表格用于综合反映暂态稳定分类器的准确度;根据表格中的指标,计算正确率AR指标,表示正确预测的样本数与样本总数的比值,公式如下: (4)再计算安全率SR指标,表示分类器准确预测为稳定的样本数与实际稳定的样本总数的比值,公式如下: (5)之后计算严重误判率SMR指标,表示分类器误判失稳样本为稳定与实际失稳样本总数的比值,公式如下: (6)根据分类器的性能会影响控制策略的正确生成,采用CNN-MLP结合时域仿真的方法降低SMR;S1-3:评估模型可信度:通过引入Sigmoid函数,输出层输出两种类别的概率,当其中一种类别概率达到90%以上时,认为分类器做出了预测分类的判断;利用CNN与MLP并行式判别,进一步提高模型正确率,排除当两者均做出分类预测且预测结果一致的情况以外,剩余情况由暂态仿真进一步判断系统是否稳定;当对一个给定初始状态的电力系统进行暂态稳定分析时,将CNN-MLP与时域仿真方法相结合的方式,并将这种方式的CNN-MLP分类器作为深度强化学习交互环境的一部分;若存在由CNN-MLP数据驱动方法无法确定状态的样本,采用时域仿真计算的方法来确定其状态;CNN-MLP输出经Sigmoid函数得到的概率与阈值Th进行比较,当输出概率大于Th,且预测结果一致,则采用此判断结果;否侧,使用时域仿真法进行判断;S2:提出优势函数分解的多智能体算法,进行神经网络和经验池的初始化,对电力系统进行初始化设置,开始交互学习;在每一次交互学习中,智能体根据当前环境状态输出动作;环境执行动作后,根据CNN-MLP结合时域仿真的方法计算奖励值,并将数据存入经验池,更新中心Q网络,将结果反馈给策略网络,通过训练不断更新智能体的策略网络,以提高每个智能体的优势函数,最终获得最优控制策略,具体如下:S2-1:基于优势函数分解的多智能体算法:优势函数是将强化学习中的Q值“归一化”到V值的基准上,优势函数如式(7)所示: (7)根据SAC算法,强化学习过程中的Q值函数、V值函数及累计奖励为以下定义: (8) (9) (10) (11)策略网络更新后的累计奖励与更新前的累计奖励相比,在不含熵的情况下,差值为优势函数;引入策略熵以后,差值中增加了策略熵部分,如公式(12)所示: (12)式中:为更新后新策略函数;当等式右边大于0,则认为新策略函数优于更新前策略函数;推广至多智能体,根据优势函数分解理论,定义Q值函数和优势函数,当多个智能体中,其中1-m号智能体已经选择动作,此时计算对应动作Q值如式所示: (13)式中:和表示除m个智能体以外的其他智能体的动作和策略;多智能体优势函数分解MAAD定义如式(14)所示,表示计算动作的优势函数; (14)由式(14)得到优势分解函数,如式(15)所示,它是智能体策略网络按顺序更新的理论依据;引入策略熵提高智能体探索能力,如式(16)所示,则第j个智能体策略网络更新如式(17)所示: (15) (16) (17)提出的含最大熵的优势函数分解多智能体算法,在CTDE范式下,假设有m个智能体,则包含m+4个神经网络,包括1组中心Q网络,分别是2个中心Q网络和2个中心目标Q网络,其中,中心目标Q网络的作用是稳定训练;此外,还有m个策略网络,策略网络的输出需要与状态一起进入中心Q网络计算Q值,之后中心Q网络将结果反馈给策略网络,用于评价动作的优劣;根据优势函数分解理论,在MAAD-DRL学习中用策略网络依次更新的方法,逐个计算每个智能体的优势函数:首先,随机生成策略网络的更新顺序;然后,依次将环境状态和更新后的策略网络产生的新动作作为中心Q网络的输入,来计算优势函数;当优势函数为正数时,则认为该动作为优;反之,则认为该动作为差;最后,根据优势函数,并利用Adam算法更新策略网络;通过训练不断更新智能体的策略网络,以提高每个智能体的优势函数,最终获得最优策略;S2-2:深度强化学习环境的构建:暂态稳定预防控制中,采取多智能体深度强化学习方法,由m个智能体互相合作,共同学习暂态稳定预防控制策略,其中,深度强化学习要素包括状态空间、动作空间和智能体奖惩机制;S2-2-1:状态空间:当前状态应当反应电力系统运行情况,当正常运行时系统结构一定,线路参数确定,则节点电压幅值和相角中包含了系统运行信息,因此设置观测变量包括节点电压幅值和相角差,状态空间如下式所示: (18)式中:表示节点n的电压幅值;表示节点n与参考节点相角差;S2-2-2:动作空间:根据暂态稳定预防控制过程,各个智能体动作控制所属区域的发电机有功功率,调整范围是给定值70%-130%的连续空间;动作空间表示为: (19)式中:为节点m发电机的有功出力;S2-2-3:智能体奖惩机制:暂态稳定预防控制的要求为满足故障集中暂态功角稳定,故智能体采取一个动作后,依次遍历故障集所有故障情况,每当满足暂态功角稳定则获得奖励1,否则奖励为0;暂态稳定预防控制有功潮流调整所采用的目标函数为: (20)式中:为可调发电机集合;、分别是发电机节点i调整前、后的有功出力;选式(20)作为智能体目标函数,将之融入奖励函数,奖励函数如式(21)所示: (21)式中:K为调整后潮流不收敛惩罚;s为故障集中暂态稳定的数目;t为故障集中暂态失稳的数目;为有功功率变化量的权重,选取为0.02;S2-3:智能体训练流程:采用的优势函数分解的多智能体算法训练流程为:在训练之前,首先进行神经网络和经验池的初始化,并设置小批量数和学习的轮次训练参数;同时设置所选故障集、优化函数以及其学习率;然后,对电力系统进行初始化设置,开始交互学习;在每一次交互学习中,智能体观察当前环境状态st,并分别输出动作at,i;环境执行动作后,根据CNN-MLP结合时域仿真的方法计算奖励值rt,并将经验数据存入经验池,更新中心Q网络;当经验池中累计一定数据后,开始更新策略网络;每次更新前,打乱智能体的顺序,并依次更新;对于未更新的策略网络更新,利用之前已经更新的策略网络输出新的动作,然后计算优势函数来更新策略网络;直到训练轮次达到最大时,训练结束。

全文数据:

权利要求:

百度查询: 国网山西省电力公司电力科学研究院;太原理工大学 一种基于优势函数分解的电力系统暂态稳定预防控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。