点击量每日超过10亿次,致使经由一位博士生耗费数小时搭建而成的疫情地图,成为全球媒体以及卫生机构所离不开的一项参考工具。其背后并非高科技,而是一名年轻人每晚手动刷数据直至凌晨。
从麻疹地图到新冠仪表盘
对麻疹进行追踪的董恩盛,在2019年12月时,正与导师加德纳运用地理制图工具ArcGIS去做麻疹热点地区的预测,还要将建模结果进行可视化呈现,当时没有任何人想到,这样一套流程会在一个月之后派上全然不同的用场。
1月22日,董恩盛发布新冠仪表盘第一版,数据由其亲自手动输入。中国过年时,他要倒时差且需盯着新闻,将各卫健委及媒体报道的确诊数逐个敲入系统。其最初的受众仅为几十位流行病学同行,当时无人料到它能成全球疫情数据的基准。
数据来源五花八门全靠人工盯
仪表盘的数据源数量超出30个,世卫组织、美国疾控中心、欧洲疾控中心、中国国家卫健委构成主干,然而众多国家的早期病例得从当地媒体报道中挖掘出来,董恩盛与后续的志愿者学生需24小时轮流盯屏,有时当地卫生部门尚未通报,仪表盘却已先行完成更新。
这种由人工进行收集的模式持续了好多周,每一条数据都得去核对其来源、时间以及地点,同一个城市在不同国家的政府文件当中或许叫法并不相同,团队后来专门花费精力去统一地名,因为在世界上的确存在不少地方并没有一个通用的英文名称。
服务器几次濒临崩溃被硬扛下来
有这样一种情况,点击量呈现出从几百急剧飙升达到每小时10亿次的态势,而这是团队根本完全没有预料想到的。最开始的时候它被托管在普通的服务器之上,然而当流量峰值出现的时候页面就直接陷入卡死的状况。随后约翰斯·霍普金斯应用物理实验室以及Esri公司派遣人员紧急进行介入,接着重新开展设计后台架构的工作,并且连续多次实施给服务器扩容的举措。
即便处于这般状况,系统仍旧有好几次险些陷入瘫痪状态。加德纳讲道,要是当时不存在外部团队给予援助,仅仅依靠几个博士生是根本承受不住的。如今仪表盘处于稳定运行的状态,然而其背后是由24人所组成的团队以及多个机构的技术支撑在艰难维持着。
GitHub上近两万标星背后的协作
仪表盘中全部的底层数据,都公开存于GitHub之上。截止到4月中间时段,这个代码仓库,得到了将近两万次的标星,收到了将近1700条问题反馈,以及超过350条数据修改提议。来自全世界的程序员、流行病学家还有数据爱好者,都在帮他们修正错误、补充相关信息。
加德纳予以承认,反馈多得简直根本处理不过来,如果有100个人的话手部也许能够逐一进行回应,可现实情况是他们连读完所有评论的时间都不存在,即使这样,这些协作依旧让数据质量被快速提升,2月份发表于《柳叶刀-传染病》的方法论文已然被引用79次。
疫情过去后最想做的事是放假
团队全体持续以高强度工作状态历经了10周时间。董恩盛讲道,一直到最近的这一周,他们于数据分析方面所投入的时间才首次比数据收集用时还要超出。在之前,所有人都一门心思地致力于维护更新工作,完全没有空闲去认真瞧瞧这些数字究竟代表着怎样的意义。
加德纳承认自己身为地球上少数尚未从情感层面领会到疫情可怖程度之人,她太忙了,无暇顾及恐惧,董恩盛则不同,他的家人身处中国、朋友在武汉,他比任何人都明晰仪表盘上每个数字背后所蕴含的意义,待疫情结束能够社交旅行时,大家理应好好地放个假。
NASA资助背后是更远的规划
那仪表盘带来的并非仅仅是流量,NASA最近做出资助加德纳团队去研究季节性以及气候对于新冠病毒传播所造成影响的决定,团队当前的工作重心已然转移到对全美疫情风险去进行评估建模之上,分析究竟是哪些行为因素促使病毒得以扩散。
下周,病死率、检测率等更为精细的指标将会上线,加德纳表示,构建实时数据集其本身并非目的,真正具有价值的是运用这些数据去做出更为准确可判断的预测模型,这个在武汉疫情暴发之际偶然开始并启动的项目,正逐渐演变成传染病预警研究方面重要的基础设施。
你可曾运用约翰斯·霍普金斯那种疫情地图去查询数据?那时最为留意哪个国家的疫情动态变化?在评论区交流交流你的使用体会感受,认为这个用途工具对普通大众能有多大程度的帮助嗯?点击一下赞以使更多人得以看见疫情数据背后的这一群人士。



