常用的数据标准化方法_数据标准化与数据共享
常用的数据标准化方法
数据标准化是统计学上常用的方法,是为了消除不同属性或样方间的不齐性,使同一样方内的不同属性间或同一属性在不同样方内的方差减小;有时是为了限制数据的取值范围,如[0,1]闭区间等。有些数量分析方法要求特殊的标准化过程,并将标准化作为其分析方法的一部分。比如,主分量分析(PCA)一般要求中心化,对应分析(CA)则要求对排序坐标进行标准化等。这些方法在应用前不必考虑标准化。现在说的标准化是指一般不特殊要求标准化的方法,即要不要进行标准化是由使用者自己决定。这样的标准化必须在数量分析前完成。标准化过程也是通过某一计算将原始数据变成新的值,但它与原始数据集合中的其他值有关而不同于数据转换。下面介绍一些常用的标准化方法。
1.数据中心化
数据中心化(centralization)就是将原始数据减去平均值,如果对种类(属性)中心化就分别减去各个种在所有样方中的平均值
,对原始数据矩阵而言,它是每一行的平均值;若对样方(实体)中心化,则分别减去一个样方内所有种的平均值
,在原始数据矩阵中,它是每一列的平均值,用公式表示,为
对种标准化
(i=1,2,…,P) (种类) (1)
对样方标准化
(j=1,2,…,N) (样方数) (2)
式中,Xij和
,分别为标准化前和标准化后的第i个种在第j个样方中的值;
为第i个种在所有样方中的平均值;
为第j个样方内所有种的平均值。
经中心化的数据很易于计算各种类(属性)间或样方(实体)间的方差和协方差。有时对种类和样方同时进行中心化,称为双重中心化。
2.离差标准化
离差标准化(deviation standardization)实际上等于经中心化的数据再除以离差,即对种类(属性)标准化:
(3)
对样方(实体)标准化:
(4)
式中,字母的含义同中心化,经离差标准化的数据很容易计算种类(属性)间或样方(实体)目的相关系数。
3.数据正规化
数据正规化(normalization)就是用标准差进行标准化。标准差等于离差除以自由度N-1或P-1,所以正规化方式如下。
对种类正规化
(5)
对样方正规化
(6)
对种类正规化后的数据,每行的平均值为0,方差为1;对样方正规化后,每列的平均值为0,方差也为1。
4.其他标准化
还有一些标准化方法,其做法是将原始数据除以某一值,如将原始数据除以行或列的和,称总和标准化;如果原始数据除以每行或每列中的最大值,叫做最大值标准化;如果原始数据除以行或列的和的平方根,则称为模标准化(norm standardization)(阳含熙和卢泽愚 1981)。
以上是主要标准化方法的基本计算。在实践中,标准化往往还需要考虑权重,以更好地反映生态关系。比如,在对应分析(CA/RA)坐标值标准化中,一般以原始数据矩阵列之和为权重。
数据标准化与数据共享
数据可以在多个级别上共享,在最低级,多个记录使用相同的数据项。在中级,多个应用使用相同的文件或数据项组合,多个数据项构成数据库,一个系统可以包含许多单独的数据库。在数据共享的最高级,每一个完整的数据库可以用于许多部门,同时也可以供其他行业乃至全社会使用。
应用数据库技术组织数据是实现数据共享的惟一的途径。数据库可以使数据与使用它们的各个应用程序相互独立,互不依赖。不论程序改变还是数据改变都不引起另一方的改变,能够很容易重新组织数据,加入新的数据。同样,在数据结构、数据内容或数据存储的物理介质发生改变,都不需要重写程序。
数据标准化是数据共享的前提,数据标准化的程度与数据共享的能力成正比。数据标准化能够使各个应用系统对客观实体的分类和描述手段一致,或者提供相应的转换接口。在理解一致的前提下,应用标准数据编码系统和统一的逻辑描述方式,使共享数据库中成为可能。


雷达卡





京公网安备 11010802022788号







