若C_{ij}表示变量X_i和X_j之间的相似系数,一般要求:
(1)C_{ij}=+-1 等价于 X_i=a*X_j ,a是不为0的常数
(2)|C_{ij}|<=1,对一切i,j成立。
(3)C_{ij}=C_{ij},对一切i,j成立。对称。
对于定量变量通常用夹角余弦和相关系数表示X_i和X_j之间的相似系数。
(1)夹角余弦:X_i的观测值看成n维空间中向量(x_1i,x_2,...,x_mi),X_i和X_j的夹角\alpha的余弦称为两向量的相似系数,
记为C_ij(1).当它们平行C_ij(1)=1说明它们完全相似;当它们垂直C_ij(1)=0,说明它们不相关。
\[C_{ij}(1)=cos \alpha_{ij}=\frac{\sum_{t=1}^{n}x_{ti}x_{tj}}{\sqrt{\sum_{t=1}^{n}{x_{ti}}^2}\sqrt{\sum_{t=1}^{n}{x_{tj}}^2}}, \, i,j=1,2,...,m\]
(2)相关系数:对数据做标准化处理之后的夹角余弦,记为r_ij,C_{ij}(2)。当C_ij(2)=1表示两变量线性相关。
\[C_{ij}(2)=cos \alpha_{ij}=\frac{\sum_{t=1}^{n}(x_{ti}-\bar{x_i})(x_{tj}-\bar{x_j})}{\sqrt{\sum_{t=1}^{n}{(x_{ti}-\bar{x_i})}^2}\sqrt{\sum_{t=1}^{n}{(x_{tj}-\bar{x_j})}^2}}, \, i,j=1,2,...,m\]
定性变量间的五种相似系数:
若X_i是一个定性变量,有p个类目,将X_i的p中取值记为r_1,r_2,...,r_p;X_j的q种取值t_1,t_2,...t_q;可以用一个表表示两个定性变量观测后的结果,其中的一个元素n_kl表示n个样品中X_i取第k个值r_k,且X_j取第l个值t_l的频数,n_kl组成的表叫做列联表。
可以利用列联表对两个定性变量进行独立性检验,经常要用到卡方统计量:
\[{\chi _{ij}}^2=n_{++}\left(\sum_{k=1}^{p}\sum_{l=1}{q}\frac{{n_kl}^2}{n_{k+}n_{l+}-1}\right)\\其中
n_{+l}=\sum_{k}n_{kl} ,\,n_{k+}=\sum_{l}n_{kl} ,\, n_{++}=\sum_{i}\sum_{j}n_{ij}\]
(1)联列系数
\[C_{ij}(3)=\sqrt{\frac{{\chi_{ij}}^2}{{\chi_{ij}}^2+n}}\]
(2)连关系数
\[C_{ij}(4)=\sqrt{\frac{{\chi_{ij}}^2}{n \max(p-1,q-1)}}\]
\[C_{ij}(5)=\sqrt{\frac{{\chi_{ij}}^2}{n \min(p-1,q-1)}}\]
\[C_{ij}(6)=\sqrt{\frac{{\chi_{ij}}^2}{n \sqrt{(p-1)(q-1)}}}\]
(3)点相关系数:如果p=q=2时使用,与定量变量的相关系数对应,abcd依次是n_{11},...,n_{22}。
\[C_{ij}(7)=\frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\]
(4)四分相关系数
\[C_{ij}(8)=\sin\left(90^。\frac{(a+d)-(b+c)}{a+b+c+d}\right)\]
(5)夹角余弦
\[C_{ij}(9)=\frac{a}{\sqrt{(a+b)(a+c)}}\]
\[C_{ij}(10)=\frac{ad}{(a+b)(a+c)(d+c)(d+b)}\]
三种变量间的距离:
(1)利用相似系数定义变量间距离:d_ij=1-|C_ij| 或 {d_ij}^2=1-{C_ij}^2
(2)利用样本协方差定义距离:d_ij=s_ii+s_jj-2s_ij, i,j=1,2,...,m
(3)类似样品间的距离定义方式定义。


雷达卡


京公网安备 11010802022788号







