Skip to main content
 首页 » 编程设计

R语言累积分布函数与概率密度函数的区别

2022年07月19日225虾米哥

本文简要介绍统计学中PDF (probability density function) 和 CDF (cumulative distribution function) 之间的差异。

随机变量

再讨论PDF 和 CDF之前,我们首先需要理解随机变量。

随机变量通常用x表示,表示一些随机过程中产生的数值类型结果,分为两类:离散和连续。

离散随机变量

离散随机变量(discrete random variable) 仅能够表示可数的离散值,如1,2,100,1000等。
离散随机变量的示例包括:

  • 抛20次硬币,正面朝上的次数
  • 扔骰子100次,其中为4点的次数

连续随机变量

连续随机变量(continuous random variable)有无数取值可能,举例:

  • 身高
  • 体重
  • 跑3公里所需时间

身高为170cm,170.01,169.98 等等,身高值有无限可能的值。

经验法则:如果你能够数出结果的个数,则为离散随机变量(例如,计算硬币正面落地的次数)。但如果你能够测量结果,则为连续的随机变量(例如测量,身高,体重,时间等)。

概率密度函数(Probability Density Functions)

概率密度函数(pdf)随机变量取某个值的概率。举例扔骰子,用x表示获得的点数,那么PDF可以描述结果的分布情况:

P(x < 1) : 0

P(x = 1) : 1/6

P(x = 2) : 1/6

P(x = 3) : 1/6

P(x = 4) : 1/6

P(x = 5) : 1/6

P(x = 6) : 1/6

P(x > 6) : 0

上面示例结果为离散变量,x只能为整数。对于连续随机变量,不能直接使用PDF,因为x取任何精确值的概率几乎为零。

假设想了解特定餐厅面包的重量为0.15公斤的概率,因为重量是连续变量,所以它有无限个值。如可能为0.15001,或0.148 等,完全为0.15的概率几乎为零。

累积分布函数(Cumulative Distribution Functions)

累积分布函数(CDF) 是随机变量取值小于或等于x的概率。举例扔骰子,用x表示获得的点数,那么CDF可以描述结果的分布情况:

P(x ≤ 0) : 0

P(x ≤ 1) : 1/6

P(x ≤ 2) : 2/6

P(x ≤ 3) : 3/6

P(x ≤ 4) : 4/6

P(x ≤ 5) : 5/6

P(x ≤ 6) : 6/6

P(x > 6) : 0

我们看到x概率小于等于6的概率为1,因为骰子的点数可能为1~6,所以概率为100%。上面示例是针对离散随机变量,CDF也可以用于连续随机变量。

CDF有下列一些属性:

  • 随机变量取值小于最小值的概率为零,上面示例中小于1的概率为零;

  • 随机变量取值小于或等于最大值的概率为1,扔骰子的点数只能为1~6中的一个;

  • CDF总为非递减函数。如骰子点数小于等于1的概率为1/6,小于等于2的概率为2/6,依此类推,总是非递减的。

下面示例展示如何计算正太分布的累积概率分布,以及特定范围内变量的累积概率分布:

# 计算正太分布中随机变量小于等于 1.96 的概率 
pnorm(1.96) 
 
# 0.9750021 
 
# 计算正太分布中随机变量大于 1.96的概率 
pnorm(1.96, lower.tail=FALSE) 
 
# 0.0249979 
 
# 定义序列范围 
x <- seq(-4, 4, .01) 
 
# 计算普通累积概率分布 
prob <- pnorm(x) 
  
# 图示累积概率分布 
plot(x, prob, type="l") 
abline(v = 1.96, col="red", lty=3)  

1.96处的红线,表示小于等于1.96的累积概率大概为97.5%
在这里插入图片描述

CDF 和 PDF 之间的关系

在计算角度来看,概率密度函数(pdf)是累积分布函数(cdf)的导数。

pdf曲线下的面积在负无穷到x之间等于cdf上x的值。

要深入解释pdf和cdf之间的关系,以及证明为什么pdf是cdf的导数,请参阅统计教科书。


本文参考链接:https://blog.csdn.net/neweastsun/article/details/124191560
阅读延展