新冠疫情聚类初步分析

发布时间：2020-09-01 浏览次数：589

蔓延全球的新冠病毒已然成为一个不可忽视的全球问题，并且严重影响着社会和经济的发展。我们这里基于每日的死亡率，将国内各省的疫情数据和国内外的疫情数据分别进行分析，对死亡率曲线进行了聚类，以探索新冠病毒的死亡率是否具有明显的特征。

1. 数据介绍

1.1.1国内各省数据

对于国内的数据，我们对于各省份取累计确诊人数超过100后的100天的死亡率数据进行绘制死亡率曲线（累计确诊人数未超过100的省份不参与统计），经过筛选最终保留了21个省份。我们将每日的累计死亡数据除以每日的累计确诊，得到每日的死亡率，并围绕这些不同省份的死亡率展开分析。各省份死亡率关于时间（天）的变化图如下：

1.1.2 国内外数据

我们在2020年2月21日至5月17日累计确诊达到2000例的81个国家中，分别选取从确诊人数达到200例开始起共39天的数据进行分析，经过筛选后保留了73个国家。我们将每日的累计死亡数据除以每日的累计确诊，得到每日的死亡率，并围绕这些不同国家的死亡率展开分析。各国死亡率关于时间（天）的变化图如下：

1.2 数据来源

国内各省疫情数据:

r-package“nCov2019”:https://github.com/GuangchuangYu/nCov2019

国内外疫情数据:

约翰斯·霍普金斯大学（JHU）全球疫情:https://hub.jhu.edu/novel-coronavirus-information/

人民日报新媒体:http://media.people.com.cn/

2. 分析方法

2.1函数型主成分分析（FPCA，Functional Principal Component Analysis）

由于数据是跟时间有关的时间序列数据，因此我们假设各个国家的死亡率是关于时间点t（单位：天）的函数f (t)，这里我们选择使用函数型数据分析（FDA，Functional Data Analysis）的方法来分析数据。

我们选用B-spline基函数来拟合关于时间点t的死亡率曲线，为了防止过拟合，我们在最小化均方误差的时候，加入了惩罚项。这里我们用二阶导数来定义粗糙度惩罚，光滑参数λ选取为1。

拟合结果如下图：

国内各省和国内外的结果分别如下图所示：

然后我们对这些光滑后的死亡率曲线进行主成分分析，如下图所示：

可见，前四个主成分均解释了超过99%的方差。因此我们选取四个主成分。

2.2 聚类分析

我们分别将以上得到的四个主成分的得分(score)进行聚类，这里采用K-means的方法。

2.2.1 国内各省聚类情况

首先确定最佳聚类数

选择平方和变为平滑的拐点，即k=6为聚类数。

然后我们将曲线聚类。

由图可知，各省份根据累计死亡率曲线聚类如下：

第一类：北京、河北、贵州、河南

第二类：黑龙江

第三类：四川、广东、湖南、江西、浙江、安徽、福建

第四类：辽宁、陕西、山东、重庆、广西、上海、云南

第五类：海南

第六类：湖北

将聚类后的省份的死亡率的散点图与平滑曲线分别绘制出，如下：

湖北是疫情爆发的中心，截至北京时间5月20日，湖北省累计确诊人数为68135人，累计死亡人数为4512人，死亡率达到了6.62%。而全国非湖北省份截至5月20日，累计确诊人数为16371人，死亡人数为133人，死亡率仅为0.81%。但同时相比于欧洲各国，由于全国资源的支援以及我国政府各类强有力的措施，湖北省的死亡率得到了较为有效的措施。

由于12月至1月期间正为海南省的旅游旺季，湖北省人口大量的流入，并且相对来言，海南省的医疗条件较差，导致了海南省的死亡率也较高。

同样，疫情爆发时也正是黑龙江的旅游旺季，在2019年12月末到2020年1月，哈尔滨接待了湖北籍的游客大约7万多人，并且由于北方较为寒冷，北方民众在家里一般都是关紧门窗，通风情况极其不好，这也为病毒的传播提供了较大的便利。再者黑龙江的老龄化较为严重，老龄人口较多，而新冠肺炎病毒对老龄人口的致死率较高，因此黑龙江的死亡率也较高。

由于疫情爆发以来，各地政府对疫情都高度重视，展开了严格的防控措施，其余省份死亡人数均为10人以下，死亡率曲线聚类后并没有展现出较为明显的特征。

2.2.2 国内外聚类情况

如下图所示：

我们的得到最优聚类数为4类。

聚类结果如图所示：

分类情况如下：

第一类：伊朗，印度尼西亚，菲律宾，埃及，摩洛哥，阿尔及利亚，伊拉克

第二类：俄罗斯，德国，沙特阿拉伯，巴基斯坦，瑞士，智利，新加坡，白俄罗斯，卡塔尔，阿联酋，以色列，奥地利，韩国，南非，科威特，捷克，挪威，澳大利亚，马来西亚，芬兰，哈萨克斯坦，巴林，加纳，卢森堡，阿曼，亚美尼亚，泰国，阿塞拜疆，乌兹别克斯坦，克罗地亚

第三类：美国，巴西，土耳其，中国，加拿大，印度，秘鲁，厄瓜多尔，葡萄牙，爱尔兰，波兰，日本，乌克兰，罗马尼亚，哥伦比亚，多米尼加，丹麦，塞尔维亚，巴拿马，阿根廷，摩尔多瓦，阿富汗，尼日利亚，希腊，喀麦隆，波多黎各，波黑

第四类：西班牙，英国，意大利，法国，比利时，荷兰，墨西哥，瑞典，匈牙利

我们将每一类对应的原始数据曲线汇总在一张图上：

对于第三类异常曲线我们单独绘制出来：

其中阿根廷的异常点是由于当日数据在统计上出现了问题，因此我们可以忽略阿根廷这一天死亡率数据的异常。

其中荷兰的异常点也是由于当日数据在统计上出现了问题。

根据上述聚类结果我们首先可以发现：

第一类主要将一些中东地区国家(伊朗,埃及,伊拉克，摩洛哥，阿尔及利亚)聚成一类。

第二类涵盖了大量欧洲(俄罗斯，德国，瑞士等)，中东(巴基斯坦，阿联酋等)，东亚(韩国等)以及东南亚(新加坡，马来西亚，泰国等)的代表国家。

第三类将一些国土面积较大的国家聚在了一类。例如：6个被称为巨型国家(国土面积大于500万平方千米)的国家中，有4个被聚在了这一类，分别为加拿大，中国，美国，巴西。23个被称为超大型国家(国土面积介于100万平方千米到500万平方千米之间)的国家，有4个被聚在了这一类，分别为：印度，秘鲁，哥伦比亚，阿根廷。这可能说明国土面积较大的国家对于新冠疫情死亡率的趋势变化上存在着某种共性。

第四类则是欧盟成员国一些代表性的国家。

另外通过对比死亡率的增长趋势，我们明显可以发现第四类的死亡率曲线增长幅度最快。我们对这些欧洲国家在应对新冠疫情时，采取的各种政策进行分析，得到了如下可能的原因：

1.检测政策不同

由于死亡率是由每日的累计死亡数据除以每日的累计确诊得到的，因此“每日的累计确诊”这一部分起了很大的作用，而这一部分和实际被检测的人数和群体息息相关。如果检测的人数很少，则死亡率的分母也就越小，那么死亡率就会随之而高。相反如果，检测的人数很多，则分母变大，并各种轻微症状甚至无症状的患者来降低死亡率。其中，英国和法国都是只对病情严重的高风险人群进行测试，死亡率的分子增大，且分母减小，因此导致了很高的死亡率。

2.新冠感染死亡人数的统计方式不同

死亡人数作为死亡率的分母自然也对死亡率大小起了决定性作用，比如比利时将一些还没有做病毒检测的疑似感染病亡人数一并统计到死亡人数中去了。

3.政府防疫措施不同

以意大利为例：

(1)政府对于传播途径的查明不重视，2020年2月22日，意大利新冠确诊开始突增，新增59例，死亡2例，全部位于意大利北部米兰、威尼斯和都灵所在的大区。但是零号病人始终没有查明身份和来源。

(2)对于疫情严重的地区没有做到重点管控，米兰所在的伦巴第大区，是意大利的重要经济枢纽，每天来往人流量巨大，但意大利并没有及时着重管控。对于一些封城措施也执行得不彻底，虽然国内限制了交通，但对通往国外的航班没有约束，另外酒吧和餐厅每天可营业至18时。

(3)医疗资源缺乏以及医疗资源的调配存在问题。伦巴第大区作为疫情重灾区其医疗资源也最丰富，但当地在3月1日检出984名患者时，就只能在全区900个床位中提供120个传染病床位用于救治患者。于是只能要求51%的新冠轻症患者“回家隔离”，然而在回家隔离的途中一些患者由轻症转为重症的概率大大增加了。

最后，通过第四类的死亡率曲线的分析，我们大致了解了死亡率发生变化的重要原因。因此各个国家之间的死亡率的高和低，很大程度上都是在上述的这些原因中存在显著的差异。我们会在后面的工作中进一步考察更多造成新冠死亡率变化的原因，进行更彻底和细致的分析。