Skip to main content
 首页 » 编程设计

R语言计算二列相关性

2022年07月19日150itcoder

本文介绍二列相关性概念并通过示例说明其计算过程。

二列相关性用于衡量二值变量x与连续变量y之间的关系。类似皮尔逊相关系数,二列相关性系数取值范围也在[-1,1]之间。

  • -1 表示两个变量完全负相关
  • 0 表示两个变量没有相关性
  • 1 表示两个变量完全正相关

在这里插入图片描述

下面通过示例来说明如何计算二列相关性。假设有下面二值变量x,连续变量y:

x <- c(0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0) 
y <- c(12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12) 

我们可以使用R内置函数 cor.test() 计算两个变量的二列相关性:

cor.test(x, y) 
 
# 	Pearson's product-moment correlation 
#  
# data:  x and y 
# t = 0.67064, df = 9, p-value = 0.5193 
# alternative hypothesis: true correlation is not equal to 0 
# 95 percent confidence interval: 
#  -0.4391885  0.7233704 
# sample estimates: 
#       cor  
# 0.2181635  

从输出可以看到:

  • 二列相关系数为 0.218
  • 对应p值为 0.5193

既然相关性系数为正,表示当变量x取值1时,变量y趋向高于当变量x取值0时对应的值。

但既然p值不小于0.05,没有统计意义上的显著性。同时注意到输出中95%置信区间为:

95% C.I. = (-0.439, 0.723)

既然置信区间包括零,进一步证明相关系数在统计上不显著。


本文参考链接:https://blog.csdn.net/neweastsun/article/details/122501175
阅读延展