问题预测性维护方案 ——基于某石油公司真实产量数据
发布时间:2019-01-10 浏览次数:153
作者:王可、陈重林、方锦涛
今天要介绍的内容听起来很贵:和挖石油有关。
项目组的目的是,利用生产动态数据和原油性质数据来预测和预防可能产生的原油问题,给原油生产过程降本增效。所用数据是某石油公司的真实生产动态数据,业界数据和toy data不同,不仅仅要弄明白背后的数字逻辑,还要弄明白其背后的业务逻辑——就让我们一点点来揭开这些数据背后的真相吧~
一、背景介绍与研究意义
可能身处象牙塔的各位对于原油开采并没有什么概念,但实际上,原油开采并非只有钻个洞,油就冒上来这么简单。首先让我们先来了解一下原油开采的基本流程吧~
图1采油流程图
1.2 研究意义
1.2.1 原油开采过程中的问题
(1).
(2).
(3).
(4).
二、数据说明
2.1
表1产量数据
| 日期 | 日产液 | 日产气 | 日产油 | 含水 | 日产水 | 气油比 |
| 2015-09-05 | 3.08 | 0.02 | 2.68 | 13.00 | 0.40 | 66.52 |
| 2015-09-06 | 2.14 | 0.01 | 1.87 | 12.63 | 0.27 | 70.69 |
| 2015-09-07 | 2.32 | 0.01 | 2.12 | 8.61 | 0.20 | 46.19 |
| …… | …… | …… | …… | …… | …… | …… |
表2生产数据
| 日期 | 泵频率 | 泵电流 | 油嘴 | 油压 | 流压 | 井口温度 | 流温 |
| 2015-09-05 | 50.00 | 14.00 | 5.80 | 1.10 | 1.84 | 25.80 | 46.01 |
| 2015-09-06 | 50.00 | 14.00 | 5.80 | 1.10 | 1.88 | 24.10 | 46.56 |
| 2015-09-07 | 50.00 | 14.00 | 5.80 | 1.10 | 1.89 | 25.30 | 46.56 |
| …… | …… | …… | …… | …… | …… | …… | …… |
| 日期 | 事件类型 | 大事简要 |
| 2016-11-29 | 热洗解堵作业 | 热洗解堵作业,8:00-10:00召开JSA,10:00-17:00连接热洗管线,下一步计划进行热洗解堵作业。 |
| 2016-09-12 | 钢丝通井作业 | 钢丝通井作业。9:00-12:00Φ46mm通井规通井至371m(已折算成管柱深度),继续下放无速度,起出通井工具串,恢复井口,与作业主管沟通后作业结束。流压由7.827MPa降至4.543MPa,流温由51.14℃降至47.65℃,现场加密观察中。 |
| 2016-09-11 | 加热车解堵作业 | 热车解堵作业。热洗设备检修完毕后,0:45-6:00以15方/时反循环热洗,套压1.5MPa、流压9.061MPa,计量产液量36方/天;6:00过载停泵,与作业主管沟通后改为正循环洗井,8:00-14:30倒管线、开循环滑套正洗;14:30-17:00关循环滑套正洗,共正洗地热水35方;17:00-20:00正循环2方柴油和8方地热水;20:00 启泵后缓慢提频至50Hz,计量产液量156方/天,含水99%,现场加密观察中。 |
| …… | …… | …… |
的含量这些数据。水常规性质中主要是各种离子的含量。
三、数据分析与探索
3.1数据清洗
1.
2.
图2单井生产动态数据可视化
(1.
结蜡所带来的直观影响就是产量突然下降。如果产量陡减,但还未降到0,这时会优先考虑钢丝通井,如果钢丝通井时带出了蜡,则说明产生了结蜡问题。
(2.
如果通井不成功,说明井下结蜡已经非常严重了,这时就会采取热洗作业。所以一般来说,采取热洗作业就一定代表着出现了结蜡问题。
(3.
图3单井日产油、日产水、日产气与结蜡事件发生时间序列图
1.
2.
这其中,红色的点代表正样本,而蓝色的点代表随机抽取的负样本。
图3
图4日产油、流压、油温和流温在正负样本的分布上有较大的差异
表4流压数据ANOVA
| Df | SumSq | MeanSq | Fvalue | Pr(>F) | |
| A | 1 | 42.7 | 42.74 | 4.518 | 0.0378 |
| Residuals | 58 | 548.7 | 9.46 |
ANOVA检验的P值小于0.05,所以拒绝原假设,认为二者之间存在显著差异。
表5流温数据ANOVA
| Df | Sum Sq | MeanSq | Fvalue | Pr(>F) | |
| A | 1 | 485 | 485.4 | 2.288 | 0.136 |
| Residuals | 58 | 12305 | 212.2 |
图5找出的特征点&事件发生点
![]()
4.1
图6结蜡事件和前14天区别明显
4.3 XGBoost分类器
Logistic的结果虽然可以挑选出比较重要的变量,但是从结果来看,它的分类结果并不是很理想。所以我们又尝试使用XGBoost对所有事件进行分类,考虑到因变量是结蜡/不结蜡,故而我们首先将所有结蜡的数据放在一起,利用之前从一口井的数据中构造的样本作为训练集,用另一口井中的30个不结蜡数据和30个结蜡数据放在一起当做验证集。得到变量重要性排序图7
图7 XGBOOST方法变量重要性
图8XGBOOST方法AUC和ROC曲线
图9 XGBOOST变量选择结果
图10加入前续时间后对XGBOOST的ROC曲线和AUC
五、后续工作
图11生产周期
12生产周期长度分布图
图 12是生产周期的长度分布图,可以发现,生产周期长度分布很集中,大部分都在100天到200天内。
图13生产周期头尾产量差异图
图14生产周期产量方差图
得到了这些信息之后,我们有理由相信,生产周期是存在一定的共通性的,每一段时间序列之间具有相似的特征。基于这个结论,如果将工程中的MTBF概念(Mean Time Between Failure,衡量一个产品的可靠性指标)类比到油井的生产周期上来,利用已知信息来预测一个生产周期可以持续多久,以此来做到提前预防,也是一个可行的思路。下一步,项目组会向这个方向继续研究。
