在数据科学中,有80%的时间花在准备数据,20%的时间花在抱怨要准备数据。
这也说明数据探索的重要性,近期,看到国外网站上介绍一个DataExplorer包,转载并推荐一下:
- # 准备
- library(c("tidyverse", "DataExplorer"))
- mycars <- mtcars # 用一个大家熟悉的数据集
- mycars$cyl <- factor(mycars$cyl) # 把其中的一个变量转为factor
- plot_missing(mycars) # 看看缺失值
- plot_bar(mycars) # factor变量的频次
- plot_histogram(mycars)
- plot_boxplot(mycars, by = "cyl") # 针对不同cyl的箱型图
- plot_scatterplot(mycars, by = "cyl") # 针对不同cyl的散点图
- plot_correlation(mycars) # 各变量之间的相关性图
- # 最后,还可以自动生成一个报告
- create_report(mycars)