【相关系数公式】在统计学中,相关系数是衡量两个变量之间线性关系强度和方向的一个重要指标。常见的相关系数包括皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。它们分别适用于不同类型的变量数据,并具有不同的计算方法。
以下是几种常用的相关系数及其公式总结:
一、皮尔逊相关系数(Pearson Correlation Coefficient)
适用场景:两个连续变量之间的线性关系。
公式:
$$
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \cdot \sqrt{\sum (y_i - \bar{y})^2}}
$$
其中:
- $ x_i, y_i $ 是样本中的第i个观测值;
- $ \bar{x}, \bar{y} $ 是x和y的均值。
取值范围:-1 ≤ r ≤ 1
- r = 1 表示完全正相关
- r = -1 表示完全负相关
- r = 0 表示无相关
二、斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient)
适用场景:两个变量为有序数据或非正态分布数据时的相关性分析。
公式:
$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
其中:
- $ d_i $ 是两个变量对应等级的差值;
- n 是样本数量。
取值范围:-1 ≤ ρ ≤ 1
与皮尔逊类似,但基于变量的排序而非原始数值。
三、肯德尔等级相关系数(Kendall Rank Correlation Coefficient)
适用场景:多个评价者对同一组对象进行排序时的一致性分析。
公式:
$$
\tau = \frac{C - D}{\frac{1}{2}n(n - 1)}
$$
其中:
- C 是一致对数(即两个变量的排名顺序一致);
- D 是不一致对数(即两个变量的排名顺序相反);
- n 是样本数量。
取值范围:-1 ≤ τ ≤ 1
τ 接近1表示高度一致,接近-1表示高度不一致。
四、相关系数对比表
相关系数类型 | 适用数据类型 | 公式 | 特点 |
皮尔逊相关系数 | 连续变量 | $ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \cdot \sqrt{\sum (y_i - \bar{y})^2}} $ | 衡量线性相关性,要求数据呈正态分布 |
斯皮尔曼等级相关系数 | 有序变量或非正态数据 | $ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $ | 基于变量的排序,适合非参数分析 |
肯德尔等级相关系数 | 多个评价者的排序一致性 | $ \tau = \frac{C - D}{\frac{1}{2}n(n - 1)} $ | 适用于小样本和排序数据,衡量一致性 |
通过选择合适的相关系数公式,可以更准确地描述变量之间的关系,为数据分析提供有力支持。在实际应用中,应根据数据类型和研究目的合理选择相关系数类型。