全球范围内的疫情数据,每日都处于变化状态中,然而,若想要获取到一套既完整,又干净,还能够直接用于分析工作的历史数据,实则并非易事。在本文当中,将会一步一步地指导你,怎样从毫无基础开始,借助Excel软件,把那些杂乱无序呈现的公开数据,精心打造成一个完全归属于你独自所有的、有关疫情的动态分析仪表板。
数据的获取与整理
想开展分析,首先要有数据。当下存在不少开源项目持续从事这项辛苦工作,它们借助自动化脚本从各国卫生部门官网采集数据,且在GitHub上提供每日更新的时间序列文件。这些文件一般从2020年1月22日左右起记录,格式规整,极为适配下载使用。尽管官方很少径直提供打包好的Excel历史数据,然而这些由爱好者整理的项目,在遵循其数据使用协议之际,是我们最为优渥的数据源。
当你拿到原始文件之后,你会发觉数据根本就不是那么“干净纯粹”。日期有可能呈现为“2020/01/22”这般的文本格式,致使Excel没办法识别成日期;累计确诊数当中兴许夹杂着“暂无数据”这类的汉字。在这个时候就需要运用到Excel“数据”选项卡之下的“分列” functioning,它能够一键把文本型日期转变成真正的日期序列值。与此同时,要认认真真地检查数值列,将所有并非数字的文本统一替换成为标准的空值。
清洗中的取舍与估算
在数据清洗里头,处理缺失值属于最为关键的环节状态。要是以简单方式去删除存在缺失值的整行数据样本,极有可能会对时间序列的连续性造成破坏影响,进而致使分析结果出现偏差状况。有一种更为科学的办法举措,是运用线性插值法来进行估算操作。举例来讲,要是某一天的数据出现了缺失情形,你能够基于前后几天数据所形成的趋势线,推算出那一天的近似数值情况。Excel的“数据分析”工具库当中的“回归”功能选项,能够为这种估算手段提供数学方面的支持帮助。
除缺少的值外,重复的记录亦是平常会碰到的问题,当你设法合并源自多个地方的数据之际,有可能会导入全然一样的两行数据,运用“删除重复项”功能之时务必谨慎留意,要依据像“日期”以及“国家”这般的关键列组合去判定重复情形,并非在毫无头绪的状况下一概而全地实施删除操作,更稳当可靠的办法即为首先借助“条件格式”里的“突出显示重复值”功能,把头绪不明但有可能重复的数据标记出来,经过用眼睛仔细查看一番之后再开展应对之举。
构建核心分析指标
原始数据里的“新增确诊”,虽能直接体现出疫情的波动状况,可直接去看其绝对值,容易遭受误导,这是由于在周末时,很多国家所报告的相关数字会偏低呀。此时,计算“七日移动平均”就显得极为必要了,它能够把这种周期性波动给平滑掉,进而让我们清晰地看清真实的传播趋势呢。另外,仅仅依靠“累计死亡/累计确诊”计算得来的死亡率,在疫情刚开始的阶段会非常高,原因在于从确诊到死亡存在着时间差。
更科学的指标是预估病毒的传播速度,就比如说去近似算出周增长率。计算那种专业的R0值是需要运用复杂的数学模型的,不过呢我们能够借助简易的Excel公式,瞧瞧一周里病例总数增长了多少倍数,凭借这个来大略判断疫情到底是在加速还是减速。对于那些想要深入进行分析的朋友而言,数据透视表可是绝对的王牌工具,它能够让你轻轻松松地把“日期”拖动到行那里,把“国家”拖动到列那里,一下子就生成一张展现疫情发展情况的对比矩阵。
可视化与动态仪表板
当数据被整理妥当,指标也已计算得出后,便能够着手进行可视化了。有一个建议是运用双 Y 轴图表去同时呈现确诊数与死亡数,不过要留意这两个数值的量级不可相差过多,不然死亡数的曲线会被挤压成一条直线。在给图表增添趋势线时,选择“多项式”类型通常比线性趋势线更能够契合疫情发展过程中那些繁杂的波动以及拐点。
要使你的分析报告更具高级感,可增添切片器功能。于数据透视表之上,添加“日期范围”以及“地区选择”这两个切片器,如此一来,你的静态表格便会转变为一个交互式的动态仪表板。领导或者同事若想看某一国家、某一时间段的数据,只需点击一下按钮,图表以及表格便会自动进行刷新,极大地提升了数据分析的效率以及展示效果。
深度挖掘与交叉验证
若数据源单一,那其中或许就会有偏差出现,所以交叉验证在这种情况下绝对是必定不可缺少的。你能够将从GitHub那儿进行下载的数据,拿去和世界卫生组织以及霍普金斯大学等那些公开的数据相互作对比。于Excel之中去设置一个条件格式规则,比如说要是两个来源把同一国家单日新增数据所报告出来的差异超出了20%的时候,能够自行进行标红。这样一种简单的验证能够帮你迅速地发现数据质量方面的问题。
发现录入错误,异常值检测也能够帮你做到。像是某个地区猛一下报告出了上千万的新增病例,这种情况极有可能是小数点点错了。借助计算Z分数,要是某个数值跟平均值的偏离程度超出3个标准差,那它便是一个得要重点核查的异常点。这些作为基础的数据质量检查,是得出可靠分析结论的基石。
数据思维的价值延伸
学会这些办法,你不但能够剖析疫情数据,还能够把它运用到平常工作里面。举例来说,把疫情数据跟城市的交通拥堵指数、零售业销售额等构建关联剖析,运用Excel的CORREL函数算出相关系数,你便能够试着量化疫情对经济的作用。这样的势力让你从一个仅仅接收信息的旁观者,变为了能够掌控数据、发觉问题并且支持决策的参与者。
想要借助经由这篇文章所阐述的办法,能够助力你将那些看上去枯燥不已的数字,转变成为支撑理性判断的强有力工具。最终想要询问诸位,你于处理此类时间序列数据之际,遭遇过最为头疼的数据质量问题究竟是什么?欢迎在评论区域分享你的“坑”以及解决方式,同样不要忘记点赞以及分享,使得更多人学会运用数据去看清世界。


