电力数据知多少 ——电力数据分析与建模
发布时间:2019-02-15 浏览次数:532
作者: 潘睿、丁玲洁 、裴曼如
随着科技发展,“电”已经成为我们日常生活中不可缺少的一部分,如何从电力数据中挖掘信息以预测未来是至关重要的。因此我们从数据可视化和建模的角度对电力数据进行分析,得到了一些结论。
一、数据可视化
数据来自于A市2015年1月1日-2017年12月31日5分钟间隔的电力有功负荷,由时间、电力值组成,为一组时间序列数据。其中缺失值和异常值利用ARIMA模型进行预测填充。
图1年电力数据图
可以观察出每年的走势大致相同,电力峰值出现在夏季七、八月。这也提醒相关供电部门在高温天气下一定要注意供电设备的维护和检修。
表1年电力数据的数值描述
| 2015年 | 2016年 | 2017年 |
最大值 | 8月4日20:10365.47 | 7月30日11:29417.17 | 7月24日20:19482.04 |
最小值 | 2月20日4:1071.65 | 2月13日4:10分76.00 | 1月29日4:3195.77 |
均值 | 171.45 | 189.20 | 191.71 |
标准差 | 31.18 | 42.94 | 50.93 |
由上表可知电力数据的均值在180左右,最小值出现在冬季,且集中在冬季凌晨四点多,可直观看出数值描述均随着年份的增加而增大,即用电量逐年上升,波动幅度变大,说明近几年家家户户都用起了空调、冰箱、洗衣机等各种家电,生活水平不断变好。
图2年电力数据频率图
可以观察到出现频率最高的电力值不断增大,说明随着年份增加,A市整体用电量增加。在最近几年科技和互联网发展的影响下,手机、平板、电脑等电子产品的使用日渐频繁以及网购、直播等的兴起也是除了家电耗电量增加以外导致居民用电量增加的重要因素。
图3四季电力数据图
由上图知夏季的数值描述是四季里最大的,其次冬季除了最小值最小,其余三项仅次于夏季排名第二,说明夏季和冬季是居民的用电高峰且用电跨度较大。
图4日电力数据图
随机选取每年2月15日、5月27日、11月23日的电力数据,可以观察到日用电高峰集中在早7点,午11点,晚6点,这三个时间点恰好为居民做饭、吃饭的时间。
由于季节的变迁与温度息息相关,因此很自然的想到将季节与电力数据结合。
图5电力最大负荷日均气温图
上图中上半部分为每日电力最大负荷图,下半部分为每日平均气温图,横轴为年份。电力最大负荷的峰值均出现在气温最高和最低处,说明取暖和制冷设备对电力负荷有显著影响。
二、时间序列模型
对三年的日最大负荷数据建立ARIMA模型。建模过程为:1.平稳性检验:对序列1阶差分消除趋势效应,365步差分消除周期效应;2.模型定阶:对差分后序列利用AIC最小准则确定模型阶数p=1,q=1;3.参数估计:利用最小二乘估计参数;4.模型检验:对参数进行显著性检验,对残差进行白噪声检验。最终得到的模型为:
图6模型拟合效果图
表2模型预测误差
利用此模型可以预测未来一段时间的电力数据并利用最新的数据对模型进行更新。
三、日最高负荷与气温关联化量化关系分析
随着经济发展和生活水平的提高,降温设备和取暖设备的拥有率和使用率稳步增长,使得气象条件对电力负荷的影响日趋明显,因此考虑建立负荷与气温变化之间的关联影响关系。
表3日最高负荷与气温相关系数
可以看出,日最高负荷与日最高气温表现出较大的关联性,尤其在7、8月份,日最高负荷与日最高温度的相关系数达到0.89和0.79。所以考虑气温因素对电力负荷的影响是很有必要的。于是选取对A市7、8月份日最高负荷与日最高气温数据建立回归模型:日最大负荷=4.82exp(0.11
日最高气温)+ 116.61。
图77、8月份日最高气温与最高负荷图
利用得到的回归模型,对温度求导,得出在各种温度条件下,单位温升的负荷变化效应,即在各个温度点,温度每升高(或降低)1度时,负荷增加(或减少)的兆瓦数,如下表所示。可以看出随着日最高温的增加,单位温升对应的最高负荷增长幅度呈现指数增长的趋势,即日最高温越高,用电量增加幅度越大,在酷暑下开空调的居民人数增加。
表4各温度下单位温升变化
四、极值模型在电力数据中的应用
1、条件检验
对电力数据进行简单的统计分析,结果如表5所示。
表5电力有功负荷基本统计特征
| 偏度 | 峰度 | J-B值 | ADF值 | LB值 |
统计量 | 1.718759 | 4.781436 | 1687767.3751 | -28.473 | 1165500 |
P值 | | | <2.2e-16 | 0.01 | <2.2e-16 |
由上表可得,电力有功负荷是偏态、平稳、非独立的序列。满足BMM模型、POT模型条件。
2、参数估计
(1)BMM模型
时间序列数据多为非独立数据,Lead-better等学者研究发现在平稳序列中,可以将间隔足够远的极值事件当作近似独立的条件。以月为时间间隔,对极值样本进行GEV分布拟合,对参数进行假设推断,估计总体分布:
(2)POT模型
阈值模型对超过某一充分大的临界值(阈值)的所有观测数据进行建模,渐近地刻画分布的尾部特征。利用经验平均剩余函数图可考虑阈值选取区间在400~450。为更加准确地选取阈值,作参数估计量随阈值的变化,利用估计量稳定性判断法选取最大的阈值。
图8电力负荷序列参数估计量随阈值变化图
从图8,形状参数和尺度参数在阈值为415之后有较大的波动,在此之前呈现一个平稳的状态,因此确定阈值为415。对极值样本进行GPD分布拟合,结果如下:
3、模型效果分析
图9 BMM模型拟合效果
图10POT模型拟合效果
从图9、图10知POT模型即广义Pareto分布与原电力序列的拟合效果更好,拟合的残差符合正态分布,从重现水平图可以得出电力序列在1年达到1次480兆瓦的极值高峰。
4、极值风险
风险价值指在某一给定的置信水平下,组合在未来特定的一段时间内可能遭受的最大损失,得到下表。
表6VaR风险值
| BMM | POT | ||
99.99% | 99.999% | 99.99% | 99.999% | |
分位数 | 587.8187 | 613.6350 | 468.7117 | 474.4832 |
考虑到POT模型与电力数据拟合更好,由上表,电力数据在未来一个月内99.99%的概率损失不会超过468.7117,99.999%的概率损失不会超过474.4832。