首页 > 论文范文 > 工程工业论文 > 电力工业论文 > 基于深度强化学习的有源配电网电压分层控制策略

基于深度强化学习的有源配电网电压分层控制策略

2024-09-02 45 上传者：管理员

摘要：【目的】分布式电源发电的随机性和波动性，给有源配电网(active distribution network,ADN)的电压控制带来了严峻的挑战，在此背景下，亟需一种高效的电压控制策略来保证ADN的安全运行。【方法】基于深度强化学习方法，提出了一种双层区域配电网电压控制策略。首先，以调压设备的调节特性和可控元素复杂化的特点为前提，针对ADN辐射网架结构，设计了区域协调控制区域和本地自治控制区域，分别构建每个区域的电压控制模型；然后，通过深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法对该模型进行求解，以实现实时跟踪电压变化的目的，有效解决了ADN运行过程中电压控制问题；最后，通过IEEE33节点仿真算例对该方法进行了验证。【结果】利用DQN算法和DDPG算法分别求解协调控制区域和本地自治区域的控制变量，实现了ADN系统电压调节的实时决策，解决了ADN潮流双向流动、电压复杂多变的问题。【结论】所提控制策略控制电压偏差效果明显，具有很强的准效性和实用性。

关键词：
区域协调控制
有源配电网(ADN)
本地自治控制
深度强化学习
电压控制策略
加入收藏

与传统的被动配电网不同，有源配电网(active distribution network,ADN)可以实现电网的双向流动和信息的互联互通[1]，同时，ADN还能提高分布式电源的利用效率和经济性，促进可再生能源开发，符合国家能源转型的发展方向[2-7]。但是，该方法也对电网的电压控制提出了更高的要求[8]，因为不恰当的电压水平会导致设备发生过电流，进而引起用户设备的损坏[9-10]。所以，应当将有效控制ADN的电压波动作为后续研究的重点之一[11-12]。

ADN电压波动控制问题较为复杂，是拥有众多目标函数、变量和约束条件的高维非线性问题[8]。目前，高维非线性问题的解决思路主要采用启发式搜索算法[13-15]和二阶锥松弛技术[16-17]。文献[18-19]采用启发式搜索算法中的粒子群算法和遗传算法对配电网进行协调控制，以改善配电网运行过程中的电压偏移现象，但是，该方法计算量大，时间成本较高，需要耗费大量的计算资源；文献[20-21]利用二阶锥技术求解可控设备模型来实现电压偏差最小化，但是，此类技术依赖于源荷预测数据和精确的电力系统优化模型，难以实现配电网电压实时调控的要求。

人工智能技术有望解决先前诸多方法的局限性，所以，诸多学者探讨了基于新一代人工智能技术[22]的配电网电压波动调控方法[23-24]。其中，强化学习(reinforcement learning,RL)方法作为人工智能技术的重要分支被广泛应用。文献[25-26]研究了单层尺度RL方法在配电网中的应用问题，该方法可以实时提供灵活的控制决策，针对电压波动问题控制效果良好。但是，文献[27]的研究发现，单层尺度RL容易受到环境变化的影响，出现过拟合现象。针对此问题，文献[28-29]基于长短时间尺度RL开展了研究，在配电网电压控制方面具有灵活性、自适应性。然而，上述方法均未考虑控制变量和AND拓扑结构的特点，所以存在模型不确定性，导致算法的控制效果不稳定。

因此，基于上述电压波动控制技术中所存在的问题，本文提出了基于深度强化学习的有源配电网电压分层控制策略。分层建立有功-无功协调优化模型后，采用深度强化学习算法求解；此外，考虑控制变量和AND拓扑结构的类型，提出利用深度Q网络(deep Q-network,DQN)算法求解区域协调控制的离散型设备变量，利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法求解本地自治区域的连续型设备变量，以达到算法和物理模型有机整合。最后，基于IEEE 33节点划分多层次电压控制区域，验证了本文所提出的算法的有效性。

1、电压分层协调控制总框架

1.1控制指标

将配电网的电压可以分为3个不同的状态区间：正常状态区间、预警状态区间和紧急状态区间，如图1所示。

图1 配电网电压分布状态图

1）正常状态

安全阈值设置为[0.95 pu,1.05 pu]。

2）紧急状态

紧急状态表达式为

式中：fVSmin,i和fVSmax,i分别为第i个区域上紧急状态下限值和上限值；fVXmin,i和fVXmax,i分别为第i个区域下紧急状态下限值和上限值。

3）预警状态

预警状态表达式为

式中：fYVSmin,i和fYVSmax,i分别为第i个区域上预警状态下限值和上限值；fYVXmax,i和fYVXmin,i分别为第i个区域下预警状态上限值和下限值。

1.2控制框架

本文核心是分区对不同类型的控制设备进行控制，图2为配电网分层控制方法的结构图。

主动配电网电压分层协调控制系统由主动配电网管理系统(active distribution management system,ADMS)、区域协调控制器和本地自治控制器3部分组成。控制器被安装在每个区域中，并且各个负荷节点处的电压传感器与控制器通信网络相邻布置。ADMS通过采集到的节点电压数据进行计算，当判断电压偏差平均标幺值处于紧急状态时，将信号传给区域协调控制器，采用DQN进行训练，得出调压器分接头的最佳档位位置；若区域协调控制器没有收到信号或者通过区域协调控制器控制以后，电压仍然处于非正常状态，则通过本地自治控制器对光伏逆变器、静态无功补偿装置(static var compensator,SVC)和储能进行调节，采用DDPG算法进行训练，获得最优控制策略后将控制信号下达到各个调压设备，实现电压实时自治控制，整体控制流程如图3所示。

图2 配电网分层控制方法结构图

图3 整体控制流程图

2、深度强化学习算法

2.1 DQN算法

DQN算法通过使用神经网络来估计当前状态下每个行动的Q值，输入是一个状态s，输出是一个向量，其中每个元素表示一个可能的动作a的Q值：

式中：θ为神经网络的权重参数；Q(s,a)为真实的Q值；Q(s,a;θ)为神经网络估计的Q值。

目标是最小化Q值的平方误差损失，即：

式中：r(t)为当前状态和行动的奖励；γ为折扣因子；s′为下一个状态；a′为下一个状态下所有可能行动的最大Q值对应的行动；θ＿target为目标网络的权重参数。

DQN算法使用随机梯度下降来更新神经网络的权重参数θ。可以计算损失函数L(θ)的梯度：

式中：s'＿i为第i组数据的下一个状态；a＿i为第i组数据下一个状态下所有可能行动的最大Q值对应的行动；r＿i为第i组数据下状态和行动的奖励。

根据梯度下降算法，更新神经网络的权重参数θ，即

式中α为学习率。

DQN算法使用ε-greedy策略来选择行动，该策略以ε的概率选择随机行动。其中，ε为探索率，通常在训练早期设置较高的值，然后逐渐降低到一个较小的值。

2.2深度确定性策略梯度算法

DDPG算法将经验数据(st,at,rt,st+1)存储到经验池中，通过同时建立Actor目标网络和Critic目标网络来输出目标Q值，并通过最小化目标Q值和Critic网络输出Q值的差值完成模型的优化训练。

使用高斯分布表示输出的概率分布，即

式中：a为输出的动作；μ为策略网络；ε(1)为高斯噪声；θμ为策略网络的权重参数。

使用策略梯度算法来训练策略网络，即最大化长期回报的期望值J(θμ)：

式中：Eπ表示在策略π下的期望；Q(s,a|θQ)是值函数网络，即状态-动作值函数；θQ为Critic目标网络的权重参数公式；∇aQ(s,a|θQ)表示状态-动作值函数相对于动作a的梯度。

值函数网络是一个连续函数，使用均方误差(mean squared error,MSE)作为损失函数，即

式中y=r+γQ[s′,μ(s′|θμ)|θQ]表示目标值。

使用梯度下降算法来更新权重参数θQ，即

式中∇θL[θQ(t)]是损失函数相对于θQ(t)权重参数的梯度。

3、基于深度强化学习算法的分层调压控制模型

3.1电压控制数学模型

在调节区域协调控制节点电压时，将控制的目标设置为：最小全域配电网母线节点电压越限值平均值，表达式为

式中：为全域配电网母线节点电压平均值；为配电网平均电压额定值。

在调节本地自治区域部分节点电压时，将控制目标设置为最小自治区域母线节点电压越限值，表达式为

式中：Ui为第i个节点的节点电压；UN为该区域配电网额定电压值；M为该区域配电网母线节点数。

约束条件如下。

1）潮流平衡约束

潮流平衡约束为

式中：Pi,L(t)和Qi,L(t)分别为在t时刻节点i上负荷消耗的有功和无功功率；PLoss(t)和QLoss(t)分别为t时刻线路中的有功损耗和无功损耗；PM(t)和QM(t)分别为t时刻从主配网上传输的有功和无功功率；Pi,PV(t)和Qi,PV(t)分别为t时刻分布式光伏的输出有功和无功功率；Pi,ES(t)为t时刻节点i上储能输出有功功率；Qi,SVC(t)为t时刻节点i上SVC输出无功功率。

2）光伏逆变器约束

光伏逆变器约束为

式中：分别为光伏逆变器输出有功的上限和下限值；表示逆变器的容量。

3）储能出力约束

储能出力约束为

式中：为t时刻节点i上储能输出有功变化量；和分别为t时刻节点i上储能输出有功的最小值和最大值；和分别为t时刻节点i上储能输出有功最小和最大变化量。

4)SVC出力约束

SVC出力约束为

式中：为节点i上SVC输出无功变化量；和分别为节点i上SVC输出无功上下限；和分别为t时刻节点i上SVC输出无功爬坡上下限。

5）有载调压变压器约束

有载调压变压器分接头调节范围的计算公式如下：

式中：ntpmin为有载变压器分接头最小调节值；ntpmax为有载变压器分接头最大调节值；xpromin为有载变压器最小可调比例；xpromax为有载变压器最大可调比例；ntpnow为有载变压器分接头当前所处位置；n为区域数量；Ueq,i为等效电压。

3.2深度强化学习算法设计

将深度强化学习应用于配电网的电压控制中，将电压控制问题转化为马尔科夫决策过程，并通过对智能体在环境中进行探索和学习来获得最优的控制行为。该算法将配电网潮流系统状态映射到控制动作，同时利用奖励函数和控制变量映射来实现控制目标，在满足约束条件的前提下确保配电网系统的安全运行。

3.2.1区域协调控制的DQN算法

1）状态空间

将母线节点电压作为被控制对象，则状态空间为节点电压的集合SDQN:

式中：vi表示节点i电压的标幺值；N为全域配电网母线节点数。

2）动作空间

将有载变压器分接头的位置设置为DQN算法的动作空间ADQN，假设每个设备有n个档位，设置相同的调节范围：i×1%pu,-n≤i≤n；档位调节的总范围±n×1%pu，即

3）奖励函数

将点电压越限量作为控制目标，奖励函数设计为rDQN,i:

式中：β为权重系数；为全局配电网母线节点电压的平均标幺值超过正常状态的数值。

3.2.2本地自治控制的DDPG算法

1)DDPG算法的状态空间

将各节点电压、有功功率和无功功率波动作为状态变量，构建配电网电压控制的状态空间的：

式中：dvi为节点i电压的波动；pi为节点i的有功功率；dpi为节点i有功功率波动；qi为节点i的无功功率；dqi为节点i无功功率波动；1≤i≤M。

2)DDPG算法的动作空间

将并入的设备动作出力集合{ADDPG.i}可以定义为动作空间：

3)DDPG算法的奖励函数

将节点电压越限量和设备出力调节量作为奖励函数RDDPG,i来更新DDPG算法的策略网络和值函数网络，即

式中：Δvi为母线节点i的电压标幺值的越限值；表示母线节点i的无功变化量；B1表示电压偏差项的惩罚系数；C1和C2表示分布式光伏输出有功、无功调节量项的惩罚系数；D1表示储能输出有功调节量项的惩罚系数；E1表示SVC输出无功调节量项的惩罚系数。

4、仿真验证

4.1仿真分析

采用标准IEEE 33节点配电网系统进行仿真，拓扑图如图4所示。系统中调压器位于节点1，额定容量为100 MV⋅A，调节范围根据具体情况确定，该算例具体包括分布式光伏、储能电池、SVC，设备参数如表1所示。

通过配电网控制区域划分方法，将配电网按图4中的划分结果进行划分，结果如表2所示。

图4 IEEE 33节点配电网拓扑图

表1 设备参数

表2 控制区域划分结果

4.2结果分析

IEEE 33节点配电网在某一时刻引入功率扰动，部分节点越过正常状态区域限值，首先根据有载调压器的调节范围对DQN算法进行设计。

使用DQN智能体进行训练，每次训练290个样本，共进行500次训练。初始阶段，智能体奖励值较低，经过230次训练episode后，DQN智能体逐渐收敛于最优策略，其奖励值稳定且震荡幅度减小。最终，DQN智能体学习到了调节调压器分接头对电压控制的最优策略，具有良好的控制性能。DQN智能体训练结果如图5所示。

图5 DQN智能体训练过程

图6为区域协调控制前后节点电压图。由此可见，各母线电压幅值有所下降，但仍然有部分母线节点电压标幺值处于非正常状态安全阈值之间，因此，需要通过DDPG算法对电压越限节点所在区域做进一步的处理。DDPG智能体训练结果如图7所示。

DDPG智能体训练1 000个episodes，每个episode在训练300个样本后结束，经过70个episode后DDPG智能体的奖励值稳定，表明算法已收敛。图8为未削减光伏有功情况下节点10—17的控制效果。可见，控制区域内的节点电压并未控制到正常状态内，因此需要进一步削减有功功率。图9为通过光伏有功削减后节点10—17节点的电压，可快速有效地将母线节点电压控制在安全阈值内。

图6 区域协调控制前后节点电压图

图7 DDPG智能体训练结果

为了验证本文方法控制的优越性，将本文方法与传统的麻雀搜索(sparrow search algorithm,SSA)算法和粒子群优化(particle swarm optimization,POS)算法进行对比，不同策略下的控制结果如表3所示。SSA在控制调节上响应时间为5.52 s，平均电压偏差0.002 9 pu,POS在控制调节上响应时间为4.84 s，平均电压偏差0.003 1 pu.。而采用强化学习控制方法进行调节时响应时间为0.11 s，平均电压偏差0.002 3 pu.，可以看出，本文控制策略虽然与其他算法在平均电压偏差上相差不大，但是大幅度缩短了算法响应的时间，充分显示了该强化学习算法的高效性和准确性。

图8 无有功削减情况下的电压控制效果

图9 加入有功削减情况下电压控制效果

表3 不同策略下的控制结果

5、结论

针对有源配电网内不同时间响应的调压设备特性，提出一种基于深度强化学习的有源配电网电压分层控制策略，具体结论如下：

1）针对有源配电网电压特性，将有源配电网电压等级划分为3个不同的区域，有助于有源配电网系统的实时监测和管理，便于后续开展有源配电网电压控制。

2）针对不同控制对象的响应特点，利用DQN算法和DDPG算法分别求解协调控制区域和本地自治区域的控制变量，实现了ADN系统电压调节的实时决策。

3）经IEEE 33节点实验结果表明，所提方法可以有效保证电压稳定在正常状态之内；与SSA算法和POS算法相比，所提方法在响应时间和响应效果方面均有更大的优势。

参考文献:

[1]江道灼,徐宁,江崇熙,等.蜂巢状有源配电网构想､关键技术与展望[J].电力系统自动化,2019,43(17):1-11.

[2]刘建伟,李学斌,刘晓鸥.有源配电网中分布式电源接入与储能配置[J].发电技术,2022,43(3):476-484.

[3]于淼,闫旻睿,万克厅,等.数据驱动的有源配电网运行态势智能感知方法[J].电力建设,2024,45(7):34-53.