本文介绍二列相关性概念并通过示例说明其计算过程。
二列相关性用于衡量二值变量x与连续变量y之间的关系。类似皮尔逊相关系数,二列相关性系数取值范围也在[-1,1]之间。
- -1 表示两个变量完全负相关
- 0 表示两个变量没有相关性
- 1 表示两个变量完全正相关
下面通过示例来说明如何计算二列相关性。假设有下面二值变量x,连续变量y:
x <- c(0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0)
y <- c(12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12)
我们可以使用R内置函数 cor.test() 计算两个变量的二列相关性:
cor.test(x, y)
# Pearson's product-moment correlation
#
# data: x and y
# t = 0.67064, df = 9, p-value = 0.5193
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
# -0.4391885 0.7233704
# sample estimates:
# cor
# 0.2181635
从输出可以看到:
- 二列相关系数为 0.218
- 对应p值为 0.5193
既然相关性系数为正,表示当变量x取值1
时,变量y趋向高于当变量x取值0
时对应的值。
但既然p值不小于0.05,没有统计意义上的显著性。同时注意到输出中95%置信区间为:
95% C.I. = (-0.439, 0.723)
既然置信区间包括零,进一步证明相关系数在统计上不显著。
本文参考链接:https://blog.csdn.net/neweastsun/article/details/122501175