提到使用Python进行数据分析,就不得不提到Pandas。
我们通常将使用Python进行数据分析核心流程分成以上四个阶段,即字段选择(Data Selection)、数据清洗(Data Manipulation)、数据探索与可视化(Data Visualization)、建模分析(Modeling)。
Pandas通常是用于数据挖掘和清理(Data Manipulation)阶段,也就是在数据采集和存储(data capturing and storage)和数据建模和预测(data modeling and predicting)之间的中间工具,它在数据科学中起到了关键作用。
对于一个典型的数据科学家来说,Pandas将在数据通过管道时扮演最重要的角色。量化这一点的一个指标是Stack Overflow APP上的趋势。
可以看出,Pandas在Stack Overflow的活动超过其他任何Python数据科学库,并占据整个站点上提交的所有新问题的1%。
口说无凭,为了带大家体验Pandas数据分析的魅力,本次我们邀请到了数据挖掘工程师 菊安酱带你了解目前Python生态系统中最流行的数据分析库—Pandas,并以去哪儿网文本数据清洗案例来实做Pandas涉及的知识点。
扫码参与直播: