相关系数怎么算,原理、方法与实例解析,相关系数的计算,原理、方法与实例解析
在统计学和数据分析领域,相关系数是一个至关重要的概念,它用于衡量两个变量之间线性关系的强度和方向,无论是在经济学中研究物价与需求的关系,还是在生物学里探究环境因素对物种生长的影响,相关系数都能帮助我们从数据中挖掘出变量间的内在联系,相关系数究竟怎么算呢?我们将详细介绍几种常见相关系数的计算方法。
皮尔逊相关系数
皮尔逊相关系数(Pearson correlation coefficient)是最常用的相关系数之一,它适用于衡量两个连续变量之间的线性关系,其计算公式为: [ r{xy} = \frac{\sum{i = 1}^{n}(x{i}-\bar{x})(y{i}-\bar{y})}{\sqrt{\sum{i = 1}^{n}(x{i}-\bar{x})^{2}\sum{i = 1}^{n}(y{i}-\bar{y})^{2}}} ] (x_i) 和 (y_i) 分别是变量 (X) 和 (Y) 的第 (i) 个观测值,(\bar{x}) 和 (\bar{y}) 分别是变量 (X) 和 (Y) 的均值,(n) 是观测值的数量。

计算步骤如下:
- 计算均值:分别计算变量 (X) 和 (Y) 的均值 (\bar{x}) 和 (\bar{y})。
- 计算离差:对于每个观测值 (x_i) 和 (yi),计算它们与各自均值的离差 ((x{i}-\bar{x})) 和 ((y_{i}-\bar{y}))。
- 计算分子:计算离差乘积的总和 (\sum{i = 1}^{n}(x{i}-\bar{x})(y_{i}-\bar{y}))。
- 计算分母:分别计算变量 (X) 和 (Y) 离差平方的总和 (\sum{i = 1}^{n}(x{i}-\bar{x})^{2}) 和 (\sum{i = 1}^{n}(y{i}-\bar{y})^{2}),然后将它们相乘并开平方。
- 计算相关系数:将分子除以分母,得到皮尔逊相关系数 (r_{xy})。
有一组数据:变量 (X = {1, 2, 3, 4, 5}),变量 (Y = {2, 4, 6, 8, 10})。
- 首先计算均值:(\bar{x}=\frac{1 + 2+3+4+5}{5}=3),(\bar{y}=\frac{2 + 4+6+8+10}{5}=6)。
- 接着计算离差乘积和:
((1 - 3)\times(2 - 6)+(2 - 3)\times(4 - 6)+(3 - 3)\times(6 - 6)+(4 - 3)\times(8 - 6)+(5 - 3)\times(10 - 6)=(-2)\times(-4)+(-1)\times(-2)+0\times0 + 1\times2+2\times4=8 + 2+0+2+8 = 20)。
- 然后计算离差平方和:
- (\sum{i = 1}^{5}(x{i}-3)^{2}=(1 - 3)^{2}+(2 - 3)^{2}+(3 - 3)^{2}+(4 - 3)^{2}+(5 - 3)^{2}=4 + 1+0+1+4 = 10)。
- (\sum{i = 1}^{5}(y{i}-6)^{2}=(2 - 6)^{2}+(4 - 6)^{2}+(6 - 6)^{2}+(8 - 6)^{2}+(10 - 6)^{2}=16+4+0+4+16 = 40)。
- 分母为 (\sqrt{10\times40}=\sqrt{400}=20)。
- 最后得到皮尔逊相关系数 (r_{xy}=\frac{20}{20}=1),这表明变量 (X) 和 (Y) 之间存在完全正线性相关关系。
斯皮尔曼相关系数
斯皮尔曼相关系数(Spearman's rank correlation coefficient)是一种非参数统计方法,用于衡量两个变量之间的单调关系,它不要求变量服从正态分布,适用于顺序数据或不满足线性关系的数据,其计算步骤如下:
- 对数据排序:分别对变量 (X) 和 (Y) 的观测值进行排序,得到它们的秩次 (R_x) 和 (R_y)。
- 计算秩次差:对于每个观测值,计算其在两个变量中的秩次差 (di=R{xi}-R{y_i})。
- 计算斯皮尔曼相关系数:使用公式 (rs = 1-\frac{6\sum{i = 1}^{n}d_{i}^{2}}{n(n^{2}-1)}),(n) 是观测值的数量。
有数据:变量 (X = {3, 1, 2}),变量 (Y = {5, 3, 4})。
- 对 (X) 排序得到秩次 (R_x={3, 1, 2}),对 (Y) 排序得到秩次 (R_y={3, 1, 2})。
- 秩次差 (d_i) 分别为 (3 - 3 = 0),(1 - 1 = 0),(2 - 2 = 0)。
- 则 (\sum{i = 1}^{3}d{i}^{2}=0),斯皮尔曼相关系数 (r_s = 1-\frac{6\times0}{3\times(3^{2}-1)}=1),说明变量 (X) 和 (Y) 之间存在完全单调正相关关系。
肯德尔相关系数
肯德尔相关系数(Kendall's tau correlation coefficient)也是一种非参数统计量,用于衡量两个变量之间的有序关联程度,其计算基于观测值对的一致性和不一致性。 设 (n) 为观测值的数量,(C) 为一致对的数量,(D) 为不一致对的数量,则肯德尔相关系数 (\tau=\frac{C - D}{\frac{n(n - 1)}{2}})。 一致对是指对于两对观测值 ((x_i,y_i)) 和 ((x_j,y_j))((i<j)),((x_i - x_j)) 和 ((y_i - y_j)) 同号;不一致对则是指 ((x_i - x_j)) 和 ((y_i - y_j)) 异号。
有数据 (X={1, 2, 3}),(Y={2, 3, 1})。
- 所有可能的观测值对有 ((1,2)) 与 ((2,3)),((1,2)) 与 ((3,1)),((2,3)) 与 ((3,1))。
- 对于 ((1,2)) 与 ((2,3)),((1 - 2)<0),((2 - 3)<0),是一致对;对于 ((1,2)) 与 ((3,1)),((1 - 3)<0),((2 - 1)>0),是不一致对;对于 ((2,3)) 与 ((3,1)),((2 - 3)<0),((3 - 1)>0),是不一致对。
- (C = 1),(D = 2),(n = 3),(\frac{n(n - 1)}{2}=\frac{3\times(3 - 1)}{2}=3),则 (\tau=\frac{1 - 2}{3}=-\frac{1}{3}),表明变量 (X) 和 (Y) 之间存在一定的负相关关系。
相关系数的计算方法有多种,每种方法都有其适用场景,皮尔逊相关系数适用于衡量连续变量之间的线性关系;斯皮尔曼相关系数和肯德尔相关系数则适用于非正态分布或顺序数据,用于衡量单调关系或有序关联程度,在实际应用中,我们需要根据数据的特点和研究目的选择合适的相关系数计算方法,以准确地分析变量之间的关系,通过对这些计算方法的理解和掌握,我们能够更好地从数据中提取有价值的信息,为决策提供有力支持。

