楼主: 时光永痕
1007 0

[数据挖掘新闻] Covid-19建模:丢失数据和忽略关键功能的影响许多数据科学家和流行病学家已经开发出各 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

4%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-8-10 19:22:12 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Covid-19建模:丢失数据和忽略关键功能的影响许多数据科学家和流行病学家已经开发出各种模型和预测,其中大多数令人震惊。在这里,我讨论了使大多数这些分析变得毫无意义的问题,以及如何解决这些问题。可悲的是,这些都是错误的错误,甚至专家统计学家在各种情况下也犯了这些错误,尤其是在处理行为与整个人群截然不同的小样本时。您不会看到数据中没有的内容,而只会看到其中的内容,并且必须开箱即用地思考才能想象狭窄数据集外部的外观。
下面讨论了几个缺陷。
1.大量审查的数据
删失数据是当您错过数据集中的重要部分时,因为根本不会捕获它。例如,如果您衡量购买枪支与犯罪之间的犯罪时间,那么还有许多枪支尚未造成犯罪,而且很多枪支永远不会构成犯罪。因此,在设计导致公共政策决策的模型时,您需要考虑到这一点。
我们在Covid-19上的情况与此相同。我很幸运(作为数据科学家)以及我的家人和一些朋友被感染了。我认识的10个人中,没有人经过测试,我们都康复了。因此,当阅读诸如20%的感染者最终进入医院之类的统计信息时,我知道这个数字有很大问题。我的推理是这样的:如果20个阳性中只有1个得到测试(可能是85个阳性中的一个,请阅读本文),并且该人有20%的机会去医院,而其他19个人则不需要则实际住院率为(19 x 0%+1 x 20%)/ 20 = 1.95%。与20%相差甚远。如果其中30%(在医院中)死亡,则意味着死亡率为0.65%。
现在,一些未经测试的人会死于该病毒(在医院或其他地方),无法为之辩护。因此,实际死亡率应高于0.65%,但不应高得多。  
然后,需要解决执行死亡归因的方式。您如何确定某人死于Covid-19?在测试人员的情况下很明显,而在其他情况下则不然。如果报告说所有正死者都死于该病毒,无论其真正原因是什么(车祸),这都会使数字激增,这可能解释了使用不同计数方法的国家之间的巨大差异。
最后,需要解决误报和误报的问题,因为这会使数据(以及模型和预测)变得非常混乱。混合各种数据源而不是依赖一个数据源可能会有所帮助。
2.使用错误的指标
如果平均垂死的患者为75岁,则死亡率不是一个好的指标。更好的指标是病毒导致的平均寿命降低。对于年轻而健康的人(少数)来说,寿命可能缩短60年。对于年轻,重病(癌症)或老年患者(绝大多数)而言,可能不到5年。值得一提的生物统计学家应该能够轻松进行这些计算(按人群细分)。请注意,一些未死亡的人可能会遭受永久性损害,并且可能会从现在起10年后死亡,而不是如果没有被感染则在20年后死亡。
另外,如果其他死亡(心脏病,流感等)的死亡人数显着减少,则必须怀疑Covid-19是否杀死了一些原本会因此类疾病而死亡的人,特别是健康状况较差的老年人。或者据报死于流感的人死于病毒,诸如此类。
大概了解情况的最好方法是:查明本周与上年同一周相比,本周还有更多的人死亡-一周又一周。在最高峰时,它的数量可能是它的两倍,这清楚地表明该病毒是致命的杀手。但是对于一个面积较大且每年变化很小的区域(在2020年与2019年美国的死亡人数)进行的12个月计算中,该因子很可能接近于1。但是,这可以人为地保证,因为限制因素正在推动该因子。远远低于其真正价值,它只是将问题延长了几年(希望疫苗在某些时候有所帮助)。
3.忽略关键指标
这是治愈可能比疾病更糟糕的地方。当我看到我最喜欢的餐厅解雇了所有员工时,我知道这将导致超过1000万人失业,其中许多人永久失业,因为许多小型企业将永远不会重新营业。具有多米诺骨牌效应:餐馆供应商,农民,房东等遭受了沉重打击。是时候大量做空股票了。这是高度可预测的。自杀,犯罪,药物滥用,内乱,绝望也可以通过“死亡率”度量标准来衡量。与老年人相比,这对年轻人的影响要大得多,而老年人大部分都靠退休金生存。有关更多信息,请阅读本文。另一消息来源称,经济不景气可能导致全世界数十万儿童丧生,请参见  此处。这里更多 。
在超过20百万的新失业者中,有多少人会失去健康保险?还是担心住院费用,或者担心在医院感染病毒?我希望看医生或去医院的人数会急剧减少。有些人可能将其视为流行病正在缓解的迹象,但实际上,原因却不同且令人担忧。如果跳过看病或接种疫苗(预计麻疹病例会增加),人们的健康状况将更差,因为他们没有钱。具有讽刺意味的是,有些人将变得无家可归,在街头游荡并传播病毒,破坏了隔离的目的,因为他们再也没有隔离的地方了。  
我的最后一句话是对您在新闻中读到的内容或从政府那里听到的内容非常谨慎。所要说的大部分是那些缺乏全局,无法正确解释甚至无法衡量数据的准专家或准统计学家。同样,两岸的许多政客可能都非常积极地资助他们的宣传议程,包括创建Facebook个人资料和向Facebook用户付费以散布其虚假信息。在Facebook或新闻中阅读的所有内容都应撒上大量盐!

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学家 流行病学 数据科学 OVID 流行病

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-27 00:43