R中具有简单解决方案的通用数据分析模式
在过去几个月中,我完成的许多数据分析工作似乎都遵循了“脚本”。首先,确定通常令人感兴趣的数据,这些数据通常由政府赞助且可免费获得。接下来,找到包含数据的网站,并将相关文件下载到我的笔记本中。这些下载最终可能是一次性的,或者包含在数据分析程序中。最后,将数据加载到R或python中,并具有查询,可视化和统计/学习模型。
我想到了最近工作的几个例子。第一个涉及劳动统计局关于1992-2017年工作和受教育程度的数据。在该网站上,有24个电子表格,详细列出了按4个教育程度划分的六个就业指标的每月统计数据。对于以前的博客,我下载了其中的12个文件,包括测量劳动力,受雇人员和受过教育程度的失业者(无HS,HS毕业生,某些大学和大学毕业生)。我在SSD上重命名了电子表格,以包含尺寸指标-例如“ clf_laborforce_collegegrad.xls”。
第二个示例(此博客的主题)与按医院和诊断相关的问题总结的Medicare费用有关。...此时,有五个文件(csv或电子表格)可供下载,代表2011-2015年。年份嵌入在网站文件名中。
第三个插图和即将到来的博客的主题围绕美国社区调查的人口普查数据展开。
这三种情况背后的模式包括:
易于下载的文件,通常为csv或xls。这些文件可以手动复制,也可以通过编程方式移动。
这些文件的倍数,通常以时间或其他变量为单位。
文件的通用一致格式,因此“读取”将在每个文件上类似地工作。
给定或分配的结构化文件命名约定,该约定为数据加载提供维度信息。日期/时间是最常见的补偿。
在本文中,我查看了由五个年度csv文件组成的Medicare收费数据。我希望在不久的将来发布该序列的第二年,即2016年。在这种情况下,我首先以编程方式下载了这五个文件。然后,我使用Jupyter Notebook和R 3.4通过利用通用性的代码分析数据。data.table软件包以及tidyverse生态系统和快速文件压缩,读/写库fst以及功能方法是这项工作的核心。
这不是您的较早兄弟姐妹的R。此处使用的高性能软件包均未包含在核心R中。相反,它们是一个富有才华和能力的R开发人员的赏金。顺便说一句,如果这个笔记本是用python编写的,我会给它的社区以类似的赞誉。
笔记本的其余部分详细介绍了R代码,以实现将这些数据加载到R中以及进行一些简单的后续分析。在这种情况下,代码的结构与引用的其他示例非常相似。
题库


雷达卡



京公网安备 11010802022788号







