地铁停准问题研究 ——以某市某号地铁线为例
发布时间:2019-03-01 浏览次数:72
作者:周宇璇、虞水磊、郑琳
一、 项目背景
ATO(列车自动驾驶)系统是地铁列车准确、平稳停车的重要保障。ATO子系统可以完成列车驾驶员的工作,这些工作包括列车平稳运行,速度调整,在站台的适当停车位平稳停车。ATO辅助ATP(列车自动保护装置)工作,接受来自ATP的信息。ATO通过牵引/制动线控制列车,使其维持在一个参考速度上运行,并实现准确停车。
地铁运行时,要求每次停车,车门与屏蔽门能够对齐在±0.5m范围内,称为停准;越过停准区域称为过冲,未达到停准区域称为欠停。而地铁在采用ATO模式运行时,会发生某一列车在多站停站不准和个别车站多次列车停站不准现象。由于信号系统故障高发、后果严重且难以侦测,且一旦发生故障后果严重、人为检修成本高,因此本课题意在利用统计学方法预测列车的停车情况,以帮助驾驶员及时掌握列车运行信息,减少列车停不准的情况。
二、 数据来源
本课题数据是某城市某号线8辆列车在2018年6、7、8月的行车记录,具体数据是行车记录系统每个70毫秒采集的169个变量的信息。表1是部分关键变量。
表1列车行驶记录系统采集的部分关键变量
| 变量字段名 | 变量含义 |
| commAtp_dataToSend.effort | 牵引/制动力 |
| commAtp_recvdData.vobcId | 列车的唯一标识ID |
| commAtp_recvdData.rawAlignment | 接近盘信号,表示是否处于停准位置 |
| asc_distToStoppingPoint | 距离停车点的距离,负值代表超出停车点 |
| asc_measuredAcceleration | 速度 |
| asc_refAccel | 参考加速度 |
| asc_mode | 列车运行模式:0-8 |
列车从一个站点出发到另一个站点停车称为一个cycle,原始数据的记录是按70毫秒的间隔排列的,没有划分cycle,考虑到列车行驶时有mode这个变量,可以指示列车的行驶状态,在一个cyle内mode的情况如图一所示,因此我们依据接近盘信号的变化,对数据做cycle切分。后续的处理都将以一个cycle为一条数据记录处理。
图1列车在一个cycle内的速度变化曲线
从图1可以看到,brake、flare、creep这三个阶段对列车停准影响最大。Brake阶段表示开始减速阶段,flare表示骤然失去制动力、creep表示停车前的滑行阶段。
三、 数据探索
为了更好地了解数据,我们对数据进行了探索,绘制了速度-加速度曲线图。从图二能明显看到,列车行驶数据是有明显的周期性的(cycle),验证了我们上文所提的以cycle作为数据记录研究列车停准问题。
图2速度于加速度之间的曲线图
由于在数据采集过程中,可能会存在缺失或者不符合逻辑的数据,因此在利用该数据及进行分析时,首先对数据进行清洗。清洗过程中对下列异常值进行了处理:
1)
2)
3)
四、 特征工程
由于数据原本的变量是基于时间的,且有些变量与列车停准问题关联并不明显,因此我们需要对原始变量进行特征工程,生成与研究问题高度相关的特征,去掉与研究问题不相关的变量。
地铁列车停不准的原因主要分为两个方面:可控因素和不可控因素。可控因素是指列车设备、列车行驶过程中对车辆的控制;不可控因素包括天气、时间、站点位置等。由于不可控因素无法控制,在选取特征时,我们着眼于可控因素构造的特征。
我们首先进行了cycle划分,然后在每个cycle内进行特征工程,最终构造了49个与停准问题相关的特征。
图3 特征工程生成的部分变量
1.
为了展示49个变量与列车停准距离(a_braking_dist)直接的直观关系,我们对49个变量进行了主成分分析,这样做的效果是显著的,得到的第一主成分的贡献率为0.97418342,可以将49个特征降到一维空间。
图4 特征的第一主成分与停车距离的散点图
由特征的第一主成分与停车距离的散点图我们发现,有少量的数据(图像右边)与大部分数据的分布不一样,这些数据有可能是异常数据,也有可能是未停准的数据,这些数据对我们十分重要。因此我们将这些cycle提取出来,绘制了其中一个cycle的重要变量的曲线图,如图5所示。
图5 outliercycle重要变量的曲线图
由图5,这些cycle除了在刚开始的时候由数据记录,其余点的速度(红色)、加速度(蓝色)都为0,而且接近盘信号(绿色)一直为1,表示在站点内,其mode(灰色)也一直处于0的状态(park)。因此该数据不是未停准数据,结合业务逻辑,和其时间点,我们发现,这些数据是由于列车夜间自检产生的。列车员在夜间为了检查列车硬件是否有故障,会将列车开一段距离,然后停下,因此会产生这些记录。在确认了是列车夜间自检后,我们将这些记录都剔除。
2.
目前我们有49个变量,但并不知道这些变量与我们研究的问题是否相关,需要进行筛选,我们选择利用互信息的方法探究各个特征与停车距离的关系。
在概率论和信息论中,两个随机变量的互信息(MutualInformation,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布p(X,Y)和分解的边缘分布的乘积p(X)p(Y)的相似程度。互信息(MutualInformation)是度量两个事件集合之间的相关性(mutualdependence)。互信息是点间互信息(PMI)的期望值。个离散随机变量X和Y的互信息可以定义为:
图6 49个特征与停车距离的互信息
将49个特征与停车距离的互信息绘制在图上后,可以较显著地看出,变量stopping_a,IsMode2,IsMode1,v_ref_mean,creep_ctrlcmd2_sum,creep_ctrlcmd1_sum,cycle_length,IsEb_state1,stopping_ra,creep_aSign_0sum,creep_ctrlcmd0_sum,IsMode8与停车距离相关性较小。在接下来的建模过程中去掉。
五、 建立样本集
在原始数据中,并未给出每个cycle的标签,需要我们自行判断。判断停准或未停准的逻辑如下:理论上,列车在每个cycle中只有一个停车点,有多个停车点的cycle可能是欠停或者过冲,我们将有多个停车点的cycle寻找出来,观察其重要变量,由此来判断其是否是未停准样本,最终筛选出停准样本样本量为80946,未停准样本样本量为42,正负样本在数量上存在着严重的不均衡情况,如果在这样的状态下进行分析,可以想见会对我们的结果造成很大的影响,因此,需要对样本集进行均衡处理。
图7 正常cycle的重要变量曲线图
图8 过冲cycle的重要变量曲线图
通常,处理不平衡样本集的方法有上采样,我们利用下采样的方式,将停准样本缩减至42个。
本课题研究的是列车员可控制的影响地铁停不准的原因。时间(是否高峰期、天气等)、列车号等客观原因不可控。对停准样本进行下采样。控制星期和列车号相同,进行分层抽样。最终得到42个停准和42个未停准记录。未停准样本中星期和列车号的样本数见图9、图10。
图9 未停准样本在各个列车上的分布
图10 未停准样本在星期上的分布
六、 列车未停准原因分析
为了探究停准样本与未停准样本在各个特征上的差异,我们对停准与未停准样本做假设假设检验。
n
n
构造检验统计量为:
其中。
最终假设检验的重要结果见表2。
表2 重要变量假设检验结果
| 变量 | 停准记录均值 | 未停准记录均值 | P值 |
| creep_time | 22.14286 | 12.14286 | 0 |
| flare_time | 27.57143 | 24.90476 | 0.228654 |
| creep_arange | 87.2381 | 54.97619 | 0.000016 |
| creep_vrange | 46.28571 | 51.38095 | 0.564605 |
| flare_vrange | 347.5952 | 274.881 | 0.000003 |
未停准记录的creep阶段时间比停准记录的creep时间短许多,加速度的极差比停准记录也小许多,说明在creep阶段加速度绝对值较大,但由于在进入creep阶段之前(flare阶段)速度偏大,因此在creep阶段速度未降到指定值,列车停不准。
因此,可以得出结论:未停准原因包括Flare阶段速度过大、creep阶段制动力不足等。
七、 展望与建议
在本文的研究中,我们发现了未停准是由于列车行驶中的flare阶段速度过大,列车驾驶员在驾驶过程中应多关注改阶段的速度控制,由于数据量的限制,我们无法得出一个精确的模型建立flare阶段的速度和停准与否之间的关系,这也是之后的研究可以加以补充之处。但针对已有的分析成果,我们可以对驾驶员给出以下的建议:
驾驶员应关注列车运行的flare阶段,若列车在进入flare阶段的速度超过432km/h,并且加速度的值处在[-221,-82]之间,那么该列车就有较大的在下一站停不准的风险,需要驾驶员手动控制列车以保证停准。
