俺老板让分析几个厂家冰箱的参数
主要变量为容积、体积、重量
老板想探索重量与泡料(‘容积’与‘体积’中间的空腔填充物)的关系
请大侠们支招,该怎么分析才好?
在线等……
数据探索 从广义上说,数据探索是很少或没有得到理论支撑的数据分析均可以视为数据探索的范畴。数据探索更多的是对数据进行初步分析的预处理,以便更好的了解数据特征,有助于针对不同的类型的数据或条件进行统计分析的一种技术。 数据探索或探索性数据分析是具有启发式、开放式等特点。 (1)启发式在于,我们可能对数据的类型或特点知之甚少,需要通过统计技术来探索数据内部的东西,就是通常我们说的让“让数据说话”。这时一般是由于某种原因我们可能对数据背后的理论信息掌握的很少,或缺少这方面的资料等原因。 (2)开放式在于,数据探索以数据清理为先导。数据清理工作往往要参考学科背景知识,例如对缺失值的处理,如果该学科数据对异常值的反应很灵敏,这时如果使用均值去填补的话,可能会丢失大量的信息(假如缺失值很多的话)。所以如果仅仅是数据探索的话,则很少需要考虑上述情况,可以完全根据数据特点来选择相应的处理方法,开放性也体现于此。 下面从几个大的方向上来了解数据探索的方法: 1. 描述统计 描述统计包括均值、频率、众数、百分位数、中位数、极差和方差等等,一般来说描述统计均可以用来探索数据结构,他们均用于探索数据的不同属性,各有千秋,不过本人最“看好”的是百分位数(尤其对于有序数据而言)。 百分位数就是一列数据按大小顺序排列,然后均分成100等份,每个等份就对应着不同的第几百分位,所以通常情况下百分位是用第几百分位来表示的,如第十百分位,它表示在所有测量数据中,测量值的累计频次达10%。经常关注的点是第一百分位、第二十五百分位、第五十百分位、第七十五百分位、第九十九百分位等。 百分位可以为数据探索提供的信息如下: (1)两两百分位间提供了数据密度的信息,这个两两间的距离由研究者根据需要而定。 (2)分布两端的百分位可以分析异常值的信息,例如,异常值在整个概率密度中的位置或特征,从而有利于判断异常值的处理对统计分析结果的影响情况。 (3)整体性数据探索阶段必须要了解的信息,提供数据整体特征是百分位数最明显的优点。 (4)提供的信息可以模拟原始数据,就是可以反推出样本信息,从而获得各种指标(当然,这与原始数据会有稍微偏差)。这个在数据探索阶段能提供的信息是很多的。 2. 数据的图表 在数据探索阶段表主要用于汇总数据的,所以呈现的是汇总后的数据,如均值、标准差等信息。 毫无疑问图形简明易懂,很多难以表达的情况使用图表顿时使问题变得简单,这也许就是所谓的一图胜千言,这个在数据探索中起到很重要的作用。 这里备受个人推崇的当然包括箱体图(因为这要与上文相呼应!),还有常用的散点图等。 另外,可视化技术在数据探索阶段也经常使用也是图形的一种,这种技术总结起来就是将数据的总体特点以图形的方式呈现,用以发现其中的模式。并可以根据一定的规则(标准差、百分数等信息)去拆分也好、合并也好等等进一步的处理。 这里我就介绍一下软件情况和数据探索功能:SAS、SPSS、Matlab、SigmaPlot。 (1)老大哥SAS长期给人一种印象,就是做出的图不尽如人意,相比其他统计软件来说,有点逊色,其实并不是这样的,SAS能做的图很美、很饱满,几乎无所不能,但与此相对应的是技术难度,尤其在调用复杂函数时费时费力,是需要花很大工夫的。有时感觉SAS公司确实有点孤芳自赏,不过这种傲视群雄的感觉很好。 SAS的数据探索功能丰富,如很专业的软件,SAS/insight,其数据探索的能力(就菜单操作而言)已经比较全面了。 (2)以SPSS20.0为例,能绘制的图形已经很多了,而且相对同类软件的性价比来说,做的非常不错(我指的是图形),容易上手,表面上看起来并不逊色。 其本身具有的数据库技术也可以完成大多数数据探索的要求,要是在加上其旗下的模块就更是了得了。 (3)Matlab其优势是有很多“包”,很多情况下可以直接用,做出的图形没得说,即漂亮又美观,而且也比较容易上手。 在数据探索方面的能力,与上面两个相比未显逊色。 (4)SigmaPlot这是一款专业的绘图软件(当然也包括很基本的统计分析功能),几乎能绘制所有图形,包括的函数很全可以直接调用,但输出的图形总感觉不够美观。大家可以试一试,也非常容易上手。 在图形方面,可以认为SigmaPlot本身就是数据探索的工具. 3. 数据探索的建模活动 一切可以用于建模的统计方法或计量模型均可以用于数据探索,不过模型之所以是模型,是因为其背后的理论或学科性质的支撑,所以从这层意义上说,数据探索更多是为分析人员提供感性的认识,所有的结果都有待于理论的验证,而只有在认识的边缘,理论才渐渐被淡化。
|