跳至主要內容
数据科学基础 笔记

数据科学基础 笔记

Neonscape大约 4 分钟notesProbability & Statistics

数据科学基础 笔记

一 概率空间、σ\sigma-代数

σ\sigma-代数

σ\sigma-代数 F\mathcal{F} 是一个集合的集合,满足以下条件:

  1. F\emptyset \in \mathcal{F}
  2. F\mathcal{F} 是闭包的,即如果 AFA \in \mathcal{F},则 AcFA^c \in \mathcal{F}
  3. F\mathcal{F} 是可列可并的,即如果 AiFA_i \in \mathcal{F},则 i=1AiF\bigcup_{i=1}^\infty A_i \in \mathcal{F}

例:

  • Σ=2Ω\Sigma = 2^\Omega
  • Σ={,Ω}\Sigma = \set{\empty, \Omega}
  • Σ={,A,Ac,Ω} for any AΩ\Sigma = \set{\empty, A, A^c, \Omega} \text{ for any } A \subseteq \Omega

以上均是Ω\Omega上的σ\sigma-代数。

误区

“任意一个自然数是偶数的概率为12\frac{1}{2}”的说法是 错误的

有限集合和无限集合上的概率计算方法不同:

  • 有限集合可以用事件的数量除以事件的总数量来计算;
  • 无限集合中,概率的计算是通过概率测度函数完成的(总事件数量是无限的,无法使用上述的除法方法)。

然而,自然数是一个 可数无限集合,不存在其上的均匀分布,因而无法定义一个合适的概率测度(如果有的话,每一个元素的测度都是0;但无限个0的和也是0,不满足概率测度的定义)。

可数性 和 有 / 无限性

一个 可数 的集合是一个能够和自然数集建立一一映射的集合;每个元素都能被分配一个唯一的自然数。

一个 无限 的集合是含有无穷多个元素的集合;集合中的元素无法被全部列举出来。

例子:

  • 可数无限集: 自然数集、整数集、有理数集
  • 不可数无限集: 实数集、实数区间、...

布尔不等式

集合上界(布尔不等式)

对于事件A1,A2,,AnΣA_1, A_2, \dots, A_n \in \Sigma, 有如下性质:

Pr(i=1nAi)i=1nPr(Ai) Pr\left(\bigcup_{i = 1}^{n}A_i\right) \leq \sum_{i = 1}^{n}Pr(A_i)

(也就是,事件的并的概率 小于等于 事件的概率的和)

布尔-邦费罗尼不等式 (有限个事件的并的概率)

对于某个正整数kk和若干事件A1,A2,,AnA_1, A_2, \dots, A_n, 定义

S1=i=1nP(Ai)S2=1i<jnP(AiAj)Sk=1i1<i2<<iknP(Ai1Ai2Aik) \begin{aligned} S_1 &= \sum_{i = 1}^{n} P(A_i)\\ S_2 &= \sum_{1 \leq i < j \leq n} P(A_i \cap A_j)\\ &\vdots\\ S_k &= \sum_{1 \leq i_1 < i_2 < \dots < i_k \leq n} P(A_{i_1} \cap A_{i_2} \cap \dots \cap A_{i_k})\\ \end{aligned}

则有如下不等式:

kk是奇数时: (加多了)

Pr(i=1nAi)S1S2+S3+(1)k+1Sk \begin{aligned} \text{Pr}\left(\bigcup_{i = 1}^{n}A_i\right) &\leq S_1 - S_2 + S_3 - \dots + (-1)^{k+1}S_k\\ \end{aligned}

kk为偶数时,有 (减多了)

Pr(i=1nAi)S1S2+S3+(1)k+1Sk \begin{aligned} \text{Pr}\left(\bigcup_{i = 1}^{n}A_i\right) &\geq S_1 - S_2 + S_3 - \dots + (-1)^{k+1}S_k\\ \end{aligned}

错排问题

错排问题 研究的是,将一个给定的元素重新排列,使得每个元素都不在原来的位置上的 排列方式有多少种 / 概率是多少。

错排问题一般使用递推关系解决。

DnD_n 表示 nn 个元素的错排数,假设nn排在了第kk位(nkn \neq k),对于第kk个元素进行讨论:

  • kk排在了第nn位,则剩下的元素有 Dn2D_{n - 2}种错排方式;
  • 假设第kk个元素并没有排在第nn位,则剩下的元素有Dn1D_{n - 1}种错排方式(将kk与其他元素一起计算)
  • 由于kk一共有n1n - 1种取法,因此有关系Dn=(n1)(Dn2+Dn1)D_n = (n - 1)(D_{n - 2} + D_{n - 1}).

Dn=n!MnD_n = n!M_n.

上式可转化为

n!Mn=(n1)((n2)!Mn2+(n1)!Mn1)nMn=Mn2+(n1)Mn1n(MnMn1)=(Mn1Mn2)(MnMn1)Mn1Mn2=1n \begin{aligned} & n!M_n = (n - 1)((n - 2)!M_{n - 2} + (n - 1)!M_{n - 1})\\ \xLeftrightarrow{} & nM_n = M_{n - 2} + (n - 1)M_{n - 1}\\ \xLeftrightarrow{} & n(M_n - M_{n - 1}) = -(M_{n - 1} - M_{n - 2})\\ \xLeftrightarrow{} & \frac{(M_n - M_{n - 1})}{M_{n - 1} - M_{n - 2}} = -\frac{1}{n} \end{aligned}

因此有

MnMn1=(1)n1n! \begin{aligned} M_n - M_{n - 1} &= (-1)^n\frac{1}{n!} \end{aligned}

拓展得

M2M1=12!M3M2=13!MnMn1=(1)n1n! \begin{aligned} M_2 - M_1 &= -\frac{1}{2!}\\ M_3 - M_2 &= \frac{1}{3!}\\ &\vdots\\ M_n - M_{n - 1} &= (-1)^n\frac{1}{n!} \end{aligned}

将上述式子累加得

Mn=i=2n(1)i1i!Dn=i=2n(1)in!i! \begin{aligned} & M_n = \sum_{i = 2}^{n}(-1)^i\frac{1}{i!}\\ \xLeftrightarrow{} & D_n = \sum_{i = 2}^{n} (-1)^i \frac{n!}{i!}\\ \end{aligned}

又因为nn个元素共有n!n!种排列方式,因此nn个元素全部错排的概率为MnM_n,且有

limn+Mn=1e. \lim_{n \to +\infty} M_n = \frac{1}{e}.

二 条件概率

用不平等的概率构造平等的结果

假设现在有一枚硬币,其每次抛掷出现正面的结果为pp未知),则可通过如下结果构造两个等概率的结果:

连续抛掷两次,统计两次投掷出现的结果。

  • HH / TT: 重新进行实验
  • HT : 结果1
  • TH : 结果2

贝叶斯定理

P(AB)=P(BA)P(A)P(B) \begin{aligned} &P(A|B) = \frac{P(B|A)P(A)}{P(B)} \end{aligned}

上式中,各项定义如下:

  • P(AB)P(A|B): A的 后验概率 (已知发生某个事件后的概率)
  • P(BA)P(B|A): B的 后验概率
  • P(A)P(A) / P(B)P(B): A / B 的 先验概率 (在相关信息未知的情况下发生的概率)

全概率定理

P(A)=i=1nP(ABi)=i=1nP(ABi)P(Bi) \begin{aligned} &P(A) = \sum_{i = 1}^{n}P(A \cap B_i) = \sum_{i = 1}^{n} P(A|B_i)P(B_i) \end{aligned}