楼主: 时光永痕
964 0

[数据挖掘新闻] Johns Hopkins Covid-19数据和R,第二部分,数据表功能和图形,以及R-Naught。 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

48%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Johns Hopkins Covid-19数据和R,第二部分,数据表功能和图形,以及R-Naught。
简介:该博客是展示约翰·霍普金斯大学系统科学与工程中心发布的美国Covid-19日每日病例/死亡数据的管理和分析系列的第二部分。第一部分着重于数据管理,第二部分着重于管理,同时进行了更深入的分析。部署的技术由R出色的data.table软件包驱动。具有几个月R经验的分析师应该从下面的笔记本中受益。   
上周,covid-19的死亡人数超过了10万人的严峻总数,现在这一数字已超过105
当前每天的CSSE数据可从每天10 CDT下载。有病例和死亡档案,每个档案都有相似的结构。粒度是地理,例如州内的县。每天都会添加一个新列,其中包含每个地理位置的累计计数。数据处理主要围绕将数据旋转或融合为R data.tables,并计算日计数作为连续累积记录的差异。
网站上指出的数据问题是:“如果在我们的历史数据中发现错误,则时间序列表可能会更新。在这些情况下,不会调整每日报告以保留原始数据的记录。 ” 我在下面显示问题的示例。经常遇到的一个问题是,有些州有时不更新计数。这将显示为连续几天相同的累积数字。另一个常见的异常情况是,某些计数最初归因于“未分配”的地理位置,后来又更新到已知位置。因此,累计的“未分配”类别减少了,从而导致每日负计数。我通常通过避免计算特定州的地理位置和日期来解决数据问题,
加载和整理数据后,我使用强大的data.table语法组装函数以报告病例/死亡。这些功能中的一些功能随后会提供ggplot视觉效果,以显示该疾病随时间的运行情况。data.table的groupby功能允许在一些语句中生成状态级别的死亡案例报告。
最后,我初步展示了汇总的数据如何用于估计繁殖数量,在流行病学中使用EpiEstim软件包称为R0(R- Naught )。但是,除了该领域的计算专业知识外,我没有任何要求,现在仅举一个简单的例子。总而言之,我希望读者能从中发现一些对自己的工作有用的思想和代码。  
支持平台是具有128 GB RAM的Wintel 10笔记本电脑,以及软件JupyterLab 1.2.4和R 3.6.2。R data.table,tidyverse,pryr,plyr,fst和knitr软件包的功能以及我的个人藏匿处的功能,如下所述。
在此处阅读整个博客  。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hopkins Pkins Johns John OVID

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 14:36