地铁停准问题研究 ——以某市某号地铁线为例

发布时间:2019-03-01 浏览次数:72

                                                                                                 作者:周宇璇、虞水磊、郑琳

一、   项目背景

ATO(列车自动驾驶)系统是地铁列车准确、平稳停车的重要保障。ATO子系统可以完成列车驾驶员的工作,这些工作包括列车平稳运行,速度调整,在站台的适当停车位平稳停车。ATO辅助ATP(列车自动保护装置)工作,接受来自ATP的信息。ATO通过牵引/制动线控制列车,使其维持在一个参考速度上运行,并实现准确停车。

地铁运行时,要求每次停车,车门与屏蔽门能够对齐在±0.5m范围内,称为停准;越过停准区域称为过冲,未达到停准区域称为欠停。而地铁在采用ATO模式运行时,会发生某一列车在多站停站不准和个别车站多次列车停站不准现象。由于信号系统故障高发、后果严重且难以侦测,且一旦发生故障后果严重、人为检修成本高,因此本课题意在利用统计学方法预测列车的停车情况,以帮助驾驶员及时掌握列车运行信息,减少列车停不准的情况。

 

二、   数据来源

本课题数据是某城市某号线8辆列车在2018678月的行车记录,具体数据是行车记录系统每个70毫秒采集的169个变量的信息。表1是部分关键变量。

1列车行驶记录系统采集的部分关键变量

变量字段名

变量含义

commAtp_dataToSend.effort

牵引/制动力

commAtp_recvdData.vobcId

列车的唯一标识ID

commAtp_recvdData.rawAlignment

接近盘信号,表示是否处于停准位置

asc_distToStoppingPoint

距离停车点的距离,负值代表超出停车点

asc_measuredAcceleration

速度

asc_refAccel

参考加速度

asc_mode

列车运行模式:0-8

 

列车从一个站点出发到另一个站点停车称为一个cycle,原始数据的记录是按70毫秒的间隔排列的,没有划分cycle,考虑到列车行驶时有mode这个变量,可以指示列车的行驶状态,在一个cylemode的情况如图一所示,因此我们依据接近盘信号的变化,对数据做cycle切分。后续的处理都将以一个cycle为一条数据记录处理。


1列车在一个cycle内的速度变化曲线

 

从图1可以看到,brakeflarecreep这三个阶段对列车停准影响最大。Brake阶段表示开始减速阶段,flare表示骤然失去制动力、creep表示停车前的滑行阶段。

 

三、   数据探索

为了更好地了解数据,我们对数据进行了探索,绘制了速度-加速度曲线图。从图二能明显看到,列车行驶数据是有明显的周期性的(cycle),验证了我们上文所提的以cycle作为数据记录研究列车停准问题。


2速度于加速度之间的曲线图

 

由于在数据采集过程中,可能会存在缺失或者不符合逻辑的数据,因此在利用该数据及进行分析时,首先对数据进行清洗。清洗过程中对下列异常值进行了处理:

1)  缺失值:数据缺失是因为用于记录数据的传感器设备发生故障,记录的不完整回导致后续处理无法进行,因此去除缺失数据;

2)  速度突变:列车的数据采集系统是每70ms采集一次,理论上速度是不会发生100单位以上的突变,速度的突变是因为记录错误,因此有速度突变的cycle应该去掉;

3)  人工驾驶数据:本课题研究的是自动驾驶的停准问题,人工驾驶的数据对此没有帮助,因此将人工驾驶的记录从样本中剔除。

 

四、   特征工程

由于数据原本的变量是基于时间的,且有些变量与列车停准问题关联并不明显,因此我们需要对原始变量进行特征工程,生成与研究问题高度相关的特征,去掉与研究问题不相关的变量。

地铁列车停不准的原因主要分为两个方面:可控因素和不可控因素。可控因素是指列车设备、列车行驶过程中对车辆的控制;不可控因素包括天气、时间、站点位置等。由于不可控因素无法控制,在选取特征时,我们着眼于可控因素构造的特征。

我们首先进行了cycle划分,然后在每个cycle内进行特征工程,最终构造了49个与停准问题相关的特征。


3 特征工程生成的部分变量

1.  特征重构

为了展示49个变量与列车停准距离(a_braking_dist)直接的直观关系,我们对49个变量进行了主成分分析,这样做的效果是显著的,得到的第一主成分的贡献率为0.97418342,可以将49个特征降到一维空间。


4 特征的第一主成分与停车距离的散点图

由特征的第一主成分与停车距离的散点图我们发现,有少量的数据(图像右边)与大部分数据的分布不一样,这些数据有可能是异常数据,也有可能是未停准的数据,这些数据对我们十分重要。因此我们将这些cycle提取出来,绘制了其中一个cycle的重要变量的曲线图,如图5所示。


5 outliercycle重要变量的曲线图

由图5,这些cycle除了在刚开始的时候由数据记录,其余点的速度(红色)、加速度(蓝色)都为0,而且接近盘信号(绿色)一直为1,表示在站点内,其mode(灰色)也一直处于0的状态(park)。因此该数据不是未停准数据,结合业务逻辑,和其时间点,我们发现,这些数据是由于列车夜间自检产生的。列车员在夜间为了检查列车硬件是否有故障,会将列车开一段距离,然后停下,因此会产生这些记录。在确认了是列车夜间自检后,我们将这些记录都剔除。

2.  特征Screening

目前我们有49个变量,但并不知道这些变量与我们研究的问题是否相关,需要进行筛选,我们选择利用互信息的方法探究各个特征与停车距离的关系。

在概率论和信息论中,两个随机变量的互信息(MutualInformation,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布p(X,Y)和分解的边缘分布的乘积p(X)p(Y)的相似程度。互信息(MutualInformation)是度量两个事件集合之间的相关性(mutualdependence)。互信息是点间互信息(PMI)的期望值。个离散随机变量XY的互信息可以定义为:



6 49个特征与停车距离的互信息

49个特征与停车距离的互信息绘制在图上后,可以较显著地看出,变量stopping_aIsMode2IsMode1v_ref_meancreep_ctrlcmd2_sumcreep_ctrlcmd1_sumcycle_lengthIsEb_state1stopping_racreep_aSign_0sumcreep_ctrlcmd0_sumIsMode8与停车距离相关性较小。在接下来的建模过程中去掉。

 

五、   建立样本集

在原始数据中,并未给出每个cycle的标签,需要我们自行判断。判断停准或未停准的逻辑如下:理论上,列车在每个cycle中只有一个停车点,有多个停车点的cycle可能是欠停或者过冲,我们将有多个停车点的cycle寻找出来,观察其重要变量,由此来判断其是否是未停准样本,最终筛选出停准样本样本量为80946,未停准样本样本量为42,正负样本在数量上存在着严重的不均衡情况,如果在这样的状态下进行分析,可以想见会对我们的结果造成很大的影响,因此,需要对样本集进行均衡处理。


7 正常cycle的重要变量曲线图


8 过冲cycle的重要变量曲线图

通常,处理不平衡样本集的方法有上采样,我们利用下采样的方式,将停准样本缩减至42个。

本课题研究的是列车员可控制的影响地铁停不准的原因。时间(是否高峰期、天气等)、列车号等客观原因不可控。对停准样本进行下采样。控制星期和列车号相同,进行分层抽样。最终得到42个停准和42个未停准记录。未停准样本中星期和列车号的样本数见图9、图10


9 未停准样本在各个列车上的分布


10 未停准样本在星期上的分布

 

六、   列车未停准原因分析

为了探究停准样本与未停准样本在各个特征上的差异,我们对停准与未停准样本做假设假设检验。

n  原假设:停准记录与未停准记录的特征X的均值M1相等

n  备择假设:停准记录与未停准记录的特征X的均值M2不相等

构造检验统计量为:


其中

最终假设检验的重要结果见表2

2 重要变量假设检验结果

变量

停准记录均值

未停准记录均值

P

creep_time

22.14286

12.14286

0

flare_time

27.57143

24.90476

0.228654

creep_arange

87.2381

54.97619

0.000016

creep_vrange

46.28571

51.38095

0.564605

flare_vrange

347.5952

274.881

0.000003

 

未停准记录的creep阶段时间比停准记录的creep时间短许多,加速度的极差比停准记录也小许多,说明在creep阶段加速度绝对值较大,但由于在进入creep阶段之前(flare阶段)速度偏大,因此在creep阶段速度未降到指定值,列车停不准。

因此,可以得出结论:未停准原因包括Flare阶段速度过大、creep阶段制动力不足等。

七、   展望与建议

在本文的研究中,我们发现了未停准是由于列车行驶中的flare阶段速度过大,列车驾驶员在驾驶过程中应多关注改阶段的速度控制,由于数据量的限制,我们无法得出一个精确的模型建立flare阶段的速度和停准与否之间的关系,这也是之后的研究可以加以补充之处。但针对已有的分析成果,我们可以对驾驶员给出以下的建议:

驾驶员应关注列车运行的flare阶段,若列车在进入flare阶段的速度超过432km/h,并且加速度的值处在[-221,-82]之间,那么该列车就有较大的在下一站停不准的风险,需要驾驶员手动控制列车以保证停准。