地铁停准问题研究 ——以某市某号地铁线为例

发布时间：2019-03-01 浏览次数：72

作者：周宇璇、虞水磊、郑琳

一、 项目背景

ATO(列车自动驾驶)系统是地铁列车准确、平稳停车的重要保障。ATO子系统可以完成列车驾驶员的工作，这些工作包括列车平稳运行，速度调整，在站台的适当停车位平稳停车。ATO辅助ATP(列车自动保护装置)工作，接受来自ATP的信息。ATO通过牵引/制动线控制列车，使其维持在一个参考速度上运行，并实现准确停车。

地铁运行时，要求每次停车，车门与屏蔽门能够对齐在±0.5m范围内，称为停准；越过停准区域称为过冲，未达到停准区域称为欠停。而地铁在采用ATO模式运行时，会发生某一列车在多站停站不准和个别车站多次列车停站不准现象。由于信号系统故障高发、后果严重且难以侦测，且一旦发生故障后果严重、人为检修成本高，因此本课题意在利用统计学方法预测列车的停车情况，以帮助驾驶员及时掌握列车运行信息，减少列车停不准的情况。

二、 数据来源

本课题数据是某城市某号线8辆列车在2018年6、7、8月的行车记录，具体数据是行车记录系统每个70毫秒采集的169个变量的信息。表1是部分关键变量。

表1列车行驶记录系统采集的部分关键变量

变量字段名	变量含义
commAtp_dataToSend.effort	牵引/制动力
commAtp_recvdData.vobcId	列车的唯一标识ID
commAtp_recvdData.rawAlignment	接近盘信号，表示是否处于停准位置
asc_distToStoppingPoint	距离停车点的距离，负值代表超出停车点
asc_measuredAcceleration	速度
asc_refAccel	参考加速度
asc_mode	列车运行模式:0-8

列车从一个站点出发到另一个站点停车称为一个cycle，原始数据的记录是按70毫秒的间隔排列的，没有划分cycle，考虑到列车行驶时有mode这个变量，可以指示列车的行驶状态，在一个cyle内mode的情况如图一所示，因此我们依据接近盘信号的变化，对数据做cycle切分。后续的处理都将以一个cycle为一条数据记录处理。

图1列车在一个cycle内的速度变化曲线

从图1可以看到，brake、flare、creep这三个阶段对列车停准影响最大。Brake阶段表示开始减速阶段，flare表示骤然失去制动力、creep表示停车前的滑行阶段。

三、 数据探索

为了更好地了解数据，我们对数据进行了探索，绘制了速度-加速度曲线图。从图二能明显看到，列车行驶数据是有明显的周期性的（cycle），验证了我们上文所提的以cycle作为数据记录研究列车停准问题。

图2速度于加速度之间的曲线图

由于在数据采集过程中，可能会存在缺失或者不符合逻辑的数据，因此在利用该数据及进行分析时，首先对数据进行清洗。清洗过程中对下列异常值进行了处理：

1) 缺失值：数据缺失是因为用于记录数据的传感器设备发生故障，记录的不完整回导致后续处理无法进行，因此去除缺失数据；

2) 速度突变：列车的数据采集系统是每70ms采集一次，理论上速度是不会发生100单位以上的突变，速度的突变是因为记录错误，因此有速度突变的cycle应该去掉；

3) 人工驾驶数据：本课题研究的是自动驾驶的停准问题，人工驾驶的数据对此没有帮助，因此将人工驾驶的记录从样本中剔除。

四、 特征工程

由于数据原本的变量是基于时间的，且有些变量与列车停准问题关联并不明显，因此我们需要对原始变量进行特征工程，生成与研究问题高度相关的特征，去掉与研究问题不相关的变量。

地铁列车停不准的原因主要分为两个方面：可控因素和不可控因素。可控因素是指列车设备、列车行驶过程中对车辆的控制；不可控因素包括天气、时间、站点位置等。由于不可控因素无法控制，在选取特征时，我们着眼于可控因素构造的特征。

我们首先进行了cycle划分，然后在每个cycle内进行特征工程，最终构造了49个与停准问题相关的特征。

图3 特征工程生成的部分变量

1. 特征重构

为了展示49个变量与列车停准距离（a_braking_dist）直接的直观关系，我们对49个变量进行了主成分分析，这样做的效果是显著的，得到的第一主成分的贡献率为0.97418342，可以将49个特征降到一维空间。

图4 特征的第一主成分与停车距离的散点图

由特征的第一主成分与停车距离的散点图我们发现，有少量的数据（图像右边）与大部分数据的分布不一样，这些数据有可能是异常数据，也有可能是未停准的数据，这些数据对我们十分重要。因此我们将这些cycle提取出来，绘制了其中一个cycle的重要变量的曲线图，如图5所示。

图5 outliercycle重要变量的曲线图

由图5，这些cycle除了在刚开始的时候由数据记录，其余点的速度（红色）、加速度（蓝色）都为0，而且接近盘信号（绿色）一直为1，表示在站点内，其mode（灰色）也一直处于0的状态（park）。因此该数据不是未停准数据，结合业务逻辑，和其时间点，我们发现，这些数据是由于列车夜间自检产生的。列车员在夜间为了检查列车硬件是否有故障，会将列车开一段距离，然后停下，因此会产生这些记录。在确认了是列车夜间自检后，我们将这些记录都剔除。

2. 特征Screening

目前我们有49个变量，但并不知道这些变量与我们研究的问题是否相关，需要进行筛选，我们选择利用互信息的方法探究各个特征与停车距离的关系。

在概率论和信息论中，两个随机变量的互信息（MutualInformation，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布p(X,Y)和分解的边缘分布的乘积p(X)p(Y)的相似程度。互信息(MutualInformation)是度量两个事件集合之间的相关性(mutualdependence)。互信息是点间互信息（PMI）的期望值。个离散随机变量X和Y的互信息可以定义为：

图6 49个特征与停车距离的互信息

将49个特征与停车距离的互信息绘制在图上后，可以较显著地看出，变量stopping_a，IsMode2，IsMode1，v_ref_mean，creep_ctrlcmd2_sum，creep_ctrlcmd1_sum，cycle_length，IsEb_state1，stopping_ra，creep_aSign_0sum，creep_ctrlcmd0_sum，IsMode8与停车距离相关性较小。在接下来的建模过程中去掉。

五、 建立样本集

在原始数据中，并未给出每个cycle的标签，需要我们自行判断。判断停准或未停准的逻辑如下：理论上，列车在每个cycle中只有一个停车点，有多个停车点的cycle可能是欠停或者过冲，我们将有多个停车点的cycle寻找出来，观察其重要变量，由此来判断其是否是未停准样本，最终筛选出停准样本样本量为80946，未停准样本样本量为42，正负样本在数量上存在着严重的不均衡情况，如果在这样的状态下进行分析，可以想见会对我们的结果造成很大的影响，因此，需要对样本集进行均衡处理。

图7 正常cycle的重要变量曲线图

图8 过冲cycle的重要变量曲线图

通常，处理不平衡样本集的方法有上采样，我们利用下采样的方式，将停准样本缩减至42个。

本课题研究的是列车员可控制的影响地铁停不准的原因。时间（是否高峰期、天气等）、列车号等客观原因不可控。对停准样本进行下采样。控制星期和列车号相同，进行分层抽样。最终得到42个停准和42个未停准记录。未停准样本中星期和列车号的样本数见图9、图10。

图9 未停准样本在各个列车上的分布

图10 未停准样本在星期上的分布

六、 列车未停准原因分析

为了探究停准样本与未停准样本在各个特征上的差异，我们对停准与未停准样本做假设假设检验。

n 原假设：停准记录与未停准记录的特征X的均值M₁相等

n 备择假设：停准记录与未停准记录的特征X的均值M₂不相等

构造检验统计量为：

其中。

最终假设检验的重要结果见表2。

表2 重要变量假设检验结果

变量	停准记录均值	未停准记录均值	P值
creep_time	22.14286	12.14286	0
flare_time	27.57143	24.90476	0.228654
creep_arange	87.2381	54.97619	0.000016
creep_vrange	46.28571	51.38095	0.564605
flare_vrange	347.5952	274.881	0.000003

未停准记录的creep阶段时间比停准记录的creep时间短许多，加速度的极差比停准记录也小许多，说明在creep阶段加速度绝对值较大，但由于在进入creep阶段之前（flare阶段）速度偏大，因此在creep阶段速度未降到指定值，列车停不准。

因此，可以得出结论：未停准原因包括Flare阶段速度过大、creep阶段制动力不足等。

七、 展望与建议

在本文的研究中，我们发现了未停准是由于列车行驶中的flare阶段速度过大，列车驾驶员在驾驶过程中应多关注改阶段的速度控制，由于数据量的限制，我们无法得出一个精确的模型建立flare阶段的速度和停准与否之间的关系，这也是之后的研究可以加以补充之处。但针对已有的分析成果，我们可以对驾驶员给出以下的建议：

驾驶员应关注列车运行的flare阶段，若列车在进入flare阶段的速度超过432km/h，并且加速度的值处在[-221,-82]之间，那么该列车就有较大的在下一站停不准的风险，需要驾驶员手动控制列车以保证停准。