3  概率论基础

3.1 古典概率

样本点(sample point)是每一次随机试验的结果,用 \(\omega\) 表示。

Code
# 假设随机试验是抛掷硬币
w1 <- "正面"
w2 <- "反面"

样本空间(sample space)是所有样本点的集合,用\(\Omega=\{\omega_{i};i=0,1,2,... \}\)表示。

Code
space<- c(w1=w1,w2=w2)
space
#>     w1     w2 
#> "正面" "反面"

随机事件(random event)是样本空间中满足一定条件的子集(\(\Omega\)的子集),用大写字母 \(A,B,C,...\)表示。

一个样本点的集合称为简单事件(simple event),用 \(\Omega=\{\omega\}\) 表示。

若干个简单事件的集合称为混合事件(composite event)。

全集 \(\Omega\) 称为必然事件(deterministic event)。

空集(null set) \(\emptyset\) 称为不可能事件(impossible event)。

3.1.1 事件的运算

  1. 包含关系(containment) :Venn diagram

    1. \(A\subseteq B\)

    2. \(A\supseteq B\)

  2. 并集(\(A\cup B\)

  3. 交集(\(A\cap B\)\(AB\)

  4. 补集(\(\bar A\)

  5. 互斥事件 \(A\cap B=\emptyset\)

  6. 对立(互补)事件 \(A\cap B=\emptyset\)\(A\cup B=\Omega\)

3.1.2 排列组合

组合(combination):\(C_n^k =\binom{n}{k} =\frac {n!}{k!(n-k)!}\)

Code
choose(5,3)
#> [1] 10

排列(permutation):\(P_n^k =k!\binom{n}{k} =\frac {n!}{(n-k)!}\)

3.1.3 概率的运算法则

加法定理

\[ P(A\cup B)=P(A)+P(B)-P(A\cap B) \]

条件概率 conditional probability

\[ P(B|A)=\frac{P(AB)}{P(A)} \]

推出乘法定理 \(P(A B)=P(A)\times P(B|A)\)

独立性(积的概率等于各自概率的积)

\[ P(B|A)=P(B) \ 或者\ P(A)=0\\ P(AB)=P(A) \times P(B) \]

3.1.4 全概率公式

(给定Ai发生,B的加权平均条件概率)

\[P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i)\]

3.1.5 贝叶斯公式

条件概率定义与全概率公式的推论

逆概率公式(后验概率)

\[P(A_k |B)=\frac{P(A_k)P(B|A_k)}{\sum_{i=1}^{n}P(A_i)P(B|A_i)}\]

3.2 离散型随机变量

离散型随机变量的全部可能取值只有有限多个或可列无穷多个。

离散型随机变量的概率分布列:

\[P(X=x_k)=p_k \ ,\ \ (k=1,2,…)\]

累计分布函数:

\[F(x) =P(X≤x)= \sum_{x_k≤x}p_k\]

随机变量的数学期望或均值:

\[E(X)=\sum_{k}x_k p_k\ ,\ \ (k=1,2,...)\]

方差:

\[Var(X)=\sum_{k}(x_k-\mu)^2 p_k\]

3.2.1 二项分布

二项试验

\[ X\sim B(n,\pi) \]

概率质量函数(pmf):

\[P(X=k)=p_k=C_n^k\pi^k(1-\pi)^{n-k} \ ,\ \ (k=0,1,...,n)\]

其中n表示独立试验的次数,\(\pi\) 表示成功概率。

累计概率:至多k0次成功的概率

\[F(X)=P(X≤k_0)=\sum_{k=0}^{k_0} p_k\]

至少k0次成功的概率

\[P(X≥k_0)=\sum_{k=k_0}^{n} p_k\]

期望:\(E(X)=n\pi\)

方差:\(Var(X)=n\pi(1-\pi)\)

Code
binom <- function(n,p){
    ggplot() +
        geom_line(data.frame(x = 0:n, 
                      y = dbinom(0:n, size = n, prob = p)), 
           mapping=aes(x = x, y = y),
           color="red")+
        geom_line(data.frame(x = 0:n, 
                      y = pbinom(0:n, size = n, prob = p)), 
           mapping=aes(x = x, y = y),
           color="blue")
}

binom(30,0.5)

3.2.2 超几何分布

概率分布律:

\[P(X=k)=p_k=\frac {\binom{r}{k}\binom{N-r}{n-k}}{\binom{N}{n}} \ ,\ \ (k=0,1,...,r)\]

r为N中表示合格的元素个数,N-r表示不合格的元素个数,超几何分布考虑在n次无放回的试验中,k个合格n-k个不合格的概率。

期望:\(E(X)=\frac{nr}{N}\)

3.2.3 多项式分布

概率:\(P(X_1=n_1,...,X_i=n_i,...,X_k=n_k)=\frac {n!}{n_1!...n_i!...n_k!}\pi_1^{n_1}...\pi_i^{n_i}...\pi_k^{n_k}\)

\[ X \sim M(n,\pi_1,\pi_2,...,\pi_k) \]

其中\(n=n_1+n_2+...+n_k\) 表示独立试验的次数,\(\pi_k\) 表示\(k\) 个互斥结果的成功概率。

期望(\(A_i 与 -A_i\)):\(\mu_{A_i}=n\pi_{A_i}\)

方差(\(A_i 与 -A_i\)):\(\sigma_{A_i}^2=n\pi_{A_i}(1-\pi_{A_i})\)

3.2.4 泊松分布

特定时间段或某空间段内事件发生的次数

\[ X\sim P(\lambda) \] 概率分布列:

\[P(X=k)=p_k=\frac {\lambda ^k}{k!}e^{-\lambda} \ ,\ \ (\lambda > 0;k=0,1,…)\]

其中\(\lambda\) 表示单位时间/空间罕见事件发生的期望值。

期望:\(\mu=\lambda\)

方差:\(Var(X)=\lambda\)

3.2.4.1 二项分布近似泊松分布

\(n(n≥100)\)足够大,\(\pi(\pi ≤0.01)\) 足够小,二项分布的均值 \(n\pi\) 与方差\(n\pi(1-\pi)\approx n\pi\) 近似相等,此时的二项分布近似\(\lambda=n\pi\) 的泊松分布。

\[ P(X=k)=C_n^k \pi^k(1-\pi)^{n-k} \approx \frac{\lambda ^k}{k!}e^{-\lambda} \]

3.3 连续型随机变量

对于随机变量X,如果存在一个定义在(-∞,+∞)上的非负函数f(x),使得对于任意实数x,总有:累计分布函数(cdf):

\[F(x)=P(X≤x)=\int_{-\infty}^{x}f(t)dt\]

概率:\(P(a≤X≤b)=\int_{a}^{b}f(x)dx\)

概率密度函数(pdf):\(f(x)\)

期望:\(E(X)\equiv\mu =\int_{-\infty}^{+\infty}xf(x)dx\)

方差:\(Var(X)\equiv \int_{-\infty}^{+\infty}(x-\mu)^2f(x)dx\)

3.3.1 正态分布

概率密度函数(pdf):\(f(x)=\frac {1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}(-\infty <x <+\infty)\)

累计分布函数(cdf):\(F(x)=P(X≤x)=\int_{-\infty}^{x}f(t)dt=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^2}{2\sigma^2}}dt\ (-\infty<x<+\infty)\)

\[ X \sim N(\mu,\sigma^2) \]

3.3.2 标准正态分布

\[ Z=\frac {X-\mu}{\sigma} \sim \ N(0,1) \]

pdf:\(\varphi (z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}} (-\infty<z<+\infty)\)

cdf:\(\Phi(z)=P(Z≤z)=\int_{-\infty}^{z}\varphi (\nu )d\nu =\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{z}e^{-\frac{\nu^2}{2}}dt\ (-\infty<z<+\infty)\)

Code
# 标准正态分布
norm <- function(mu=0,sigma=1,...){
  ggplot() + xlim(c(mu-4*sigma,mu+4*sigma)) +
    geom_function(fun = dnorm, args = list(mean = mu, sd = sigma), color="red")+
        scale_y_continuous(limits = c(0,1))+
    geom_function(fun = pnorm,color="blue")
}
norm()        # Area Under the Curve (AUC) = 1

3.3.3 正态性的检验

3.3.3.1 直方图/茎叶图

直方图:钟形分布(bell-shaped distribution)

Code
mtcars$mpg
#>  [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2 10.4
#> [16] 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4 15.8 19.7
#> [31] 15.0 21.4
h<-hist(mtcars$mpg,breaks = 12)
x<-seq(min(mtcars$mpg),max(mtcars$mpg),by=0.001)
y<-dnorm(x,mean=mean(mtcars$mpg),sd=sd(mtcars$mpg)) #密度曲线  f(x)=(F(i)/n)/ΔXi
y<-y*diff(h$mids[1:2])*length(mtcars$mpg)  # f(x)*ΔXi*n  正态分布
lines(x,y,col="blue")

茎叶图(Stem-and-Leaf Plot)

Code
stem(mtcars$mpg,scale = 1)
#> 
#>   The decimal point is at the |
#> 
#>   10 | 44
#>   12 | 3
#>   14 | 3702258
#>   16 | 438
#>   18 | 17227
#>   20 | 00445
#>   22 | 88
#>   24 | 4
#>   26 | 03
#>   28 | 
#>   30 | 44
#>   32 | 49
length(mtcars$mpg)
#> [1] 32

3.3.3.2 P-P图/Q-Q图

P-P图是累计相对频率的观测值(x轴)与理论值(y轴)的散点图;

Q-Q图是分位数的观测值(x轴)与理论值(y轴)的散点图。

Code
library(ggpubr)
ggqqplot(mtcars$mpg)  #  直线 

3.3.3.3 矩量法(Moment Method)

偏度=0 且 超值峰度=0

\[ H_0:总体偏度系数\gamma_1=0 或者总体峰度系数\gamma_2=0 \]

\[ z_i=\frac{g_i-0}{\sigma_{g_i}} \ \ \ \ 临界值z_{1-\alpha/2} \]

3.3.3.4 Shapiro-Wilk检验(小样本)

Code
shapiro.test(mtcars$mpg)  
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  mtcars$mpg
#> W = 0.94756, p-value = 0.1229

3.3.3.5 Kolmogorov-Smirnov检验(Lilliefors correction 大样本)

Code
ks.test(rnorm(1000),"pnorm")
#> 
#>  Asymptotic one-sample Kolmogorov-Smirnov test
#> 
#> data:  rnorm(1000)
#> D = 0.016935, p-value = 0.9366
#> alternative hypothesis: two-sided
Code
x <- rnorm(50) 
y <- runif(50) 
ks.test(x, y)  # perform ks test
#> 
#>  Exact two-sample Kolmogorov-Smirnov test
#> 
#> data:  x and y
#> D = 0.42, p-value = 0.000246
#> alternative hypothesis: two-sided

x <- rnorm(50)
y <- rnorm(50)
ks.test(x, y) 
#> 
#>  Exact two-sample Kolmogorov-Smirnov test
#> 
#> data:  x and y
#> D = 0.18, p-value = 0.3959
#> alternative hypothesis: two-sided

3.3.4 二项分布近似正态分布

\(n\pi(1-\pi)≥5 且X\sim B(n,\pi)\)时,\(P(a≤X≤b)近似等于X\sim N(n\pi,n\pi(1-\pi))在区间(a-0.5,b+0.5)上的曲线下面积\)

\[ Z=\frac{x-\mu}{\sigma}=\frac{x-n\pi}{\sqrt{n\pi(1-\pi)}} \]

Code
library(patchwork)
binom(30,0.5)|norm(mu=15,sigma = 7.5)

3.3.5 泊松分布近似正态分布

\(\lambda≥10 且X\sim P(\lambda)\)时,\(P(a≤X≤b)近似等于X\sim N(\lambda,\lambda)在区间(a-0.5,b+0.5)上的曲线下面积\)

\[ Z=\frac{x-\mu}{\sigma}=\frac{x-\lambda}{\sqrt{\lambda}} \]

3.3.6 医学参考区间