离开学校到公司,一路追随大数据的,也近2年了。2年来追数据,从最底层机器,网络,软件等安装管理,到数据挖掘、研究,一路走来。
数据分析到底要干什么?其实在在数据分析之前还有很多路,比如机器-网络--》数据库--》ETL-->数据仓库--》数据提取--》数据分析、挖掘、研究--》解决业务问题。
数据分析更偏描述统计、趋势、交叉分析之类的,包括预测等等。数据挖掘包括文本、网页、链接,是为了从数据中找到问题的解决。数据研究更多是更深层次的数据分析和挖掘。
现在在职读经济学,用经济学的一个简单东西来比方数据分析、挖掘、研究之前的差异。
数据分析就是我们那solow增长模型直接用数据套进去,然后得到全要素贡献率。
数据挖掘就是我们那solow增长模型考虑一下,资本要分真实资本和金融资本,然后要考虑到真实资本折旧等问题然后进行建立模型,验证的过程。
数据研究就是我们那solow增长模型考虑一下,不仅资本要分真实资本和金融资本,而且考虑到制度对其影响,制度怎么衡量,我们需要借助IV进行,那产权保护、市场成熟度、还是宏观调控做为IV,这个就是数据研究。
但无论是数据分析,还是数据挖掘、研究没有坚实的统计基础,可以做的就是overkill analytics. 也许有人问,为什么是统计,而不是数学,真正实战的时候,样本抽取等等都是要考虑,一步不周后续就问题多多。再说真的想打好统计基础,没有坚实的数学也是枉然。