简介:该博客是展示约翰·霍普金斯大学系统科学与工程中心发布的美国Covid-19日每日病例/死亡数据的管理和分析系列的第二部分。第一部分着重于数据管理,第二部分着重于管理,同时进行了更深入的分析。部署的技术由R出色的data.table软件包驱动。具有几个月R经验的分析师应该从下面的笔记本中受益。
上周,covid-19的死亡人数超过了10万人的严峻总数,现在这一数字已超过105
当前每天的CSSE数据可从每天10 CDT下载。有病例和死亡档案,每个档案都有相似的结构。粒度是地理,例如州内的县。每天都会添加一个新列,其中包含每个地理位置的累计计数。数据处理主要围绕将数据旋转或融合为R data.tables,并计算日计数作为连续累积记录的差异。
网站上指出的数据问题是:“如果在我们的历史数据中发现错误,则时间序列表可能会更新。在这些情况下,不会调整每日报告以保留原始数据的记录。 ” 我在下面显示问题的示例。经常遇到的一个问题是,有些州有时不更新计数。这将显示为连续几天相同的累积数字。另一个常见的异常情况是,某些计数最初归因于“未分配”的地理位置,后来又更新到已知位置。因此,累计的“未分配”类别减少了,从而导致每日负计数。我通常通过避免计算特定州的地理位置和日期来解决数据问题,
加载和整理数据后,我使用强大的data.table语法组装函数以报告病例/死亡。这些功能中的一些功能随后会提供ggplot视觉效果,以显示该疾病随时间的运行情况。data.table的groupby功能允许在一些语句中生成状态级别的死亡案例报告。
最后,我初步展示了汇总的数据如何用于估计繁殖数量,在流行病学中使用EpiEstim软件包称为R0(R- Naught )。但是,除了该领域的计算专业知识外,我没有任何要求,现在仅举一个简单的例子。总而言之,我希望读者能从中发现一些对自己的工作有用的思想和代码。
支持平台是具有128 GB RAM的Wintel 10笔记本电脑,以及软件JupyterLab 1.2.4和R 3.6.2。R data.table,tidyverse,pryr,plyr,fst和knitr软件包的功能以及我的个人藏匿处的功能,如下所述。
在此处阅读整个博客 。
关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!