数据科学基础 笔记
一 概率空间、σ-代数
σ-代数
σ-代数 F 是一个集合的集合,满足以下条件:
- ∅∈F
- F 是闭包的,即如果 A∈F,则 Ac∈F。
- F 是可列可并的,即如果 Ai∈F,则 ⋃i=1∞Ai∈F。
例:
- Σ=2Ω
- Σ={∅,Ω}
- Σ={∅,A,Ac,Ω} for any A⊆Ω
以上均是Ω上的σ-代数。
误区
“任意一个自然数是偶数的概率为21”的说法是 错误的。
有限集合和无限集合上的概率计算方法不同:
- 有限集合可以用事件的数量除以事件的总数量来计算;
- 无限集合中,概率的计算是通过概率测度函数完成的(总事件数量是无限的,无法使用上述的除法方法)。
然而,自然数是一个 可数无限集合,不存在其上的均匀分布,因而无法定义一个合适的概率测度(如果有的话,每一个元素的测度都是0;但无限个0的和也是0,不满足概率测度的定义)。
可数性 和 有 / 无限性
一个 可数 的集合是一个能够和自然数集建立一一映射的集合;每个元素都能被分配一个唯一的自然数。
一个 无限 的集合是含有无穷多个元素的集合;集合中的元素无法被全部列举出来。
例子:
- 可数无限集: 自然数集、整数集、有理数集
- 不可数无限集: 实数集、实数区间、...
布尔不等式
集合上界(布尔不等式)
对于事件A1,A2,…,An∈Σ, 有如下性质:
Pr(i=1⋃nAi)≤i=1∑nPr(Ai)
(也就是,事件的并的概率 小于等于 事件的概率的和)
布尔-邦费罗尼不等式 (有限个事件的并的概率)
对于某个正整数k和若干事件A1,A2,…,An, 定义
S1S2Sk=i=1∑nP(Ai)=1≤i<j≤n∑P(Ai∩Aj)⋮=1≤i1<i2<⋯<ik≤n∑P(Ai1∩Ai2∩⋯∩Aik)
则有如下不等式:
当k是奇数时: (加多了)
Pr(i=1⋃nAi)≤S1−S2+S3−⋯+(−1)k+1Sk
当k为偶数时,有 (减多了)
Pr(i=1⋃nAi)≥S1−S2+S3−⋯+(−1)k+1Sk
错排问题
错排问题 研究的是,将一个给定的元素重新排列,使得每个元素都不在原来的位置上的 排列方式有多少种 / 概率是多少。
错排问题一般使用递推关系解决。
设 Dn 表示 n 个元素的错排数,假设n排在了第k位(n=k),对于第k个元素进行讨论:
- 当k排在了第n位,则剩下的元素有 Dn−2种错排方式;
- 假设第k个元素并没有排在第n位,则剩下的元素有Dn−1种错排方式(将k与其他元素一起计算)
- 由于k一共有n−1种取法,因此有关系Dn=(n−1)(Dn−2+Dn−1).
记Dn=n!Mn.
上式可转化为
n!Mn=(n−1)((n−2)!Mn−2+(n−1)!Mn−1)nMn=Mn−2+(n−1)Mn−1n(Mn−Mn−1)=−(Mn−1−Mn−2)Mn−1−Mn−2(Mn−Mn−1)=−n1
因此有
Mn−Mn−1=(−1)nn!1
拓展得
M2−M1M3−M2Mn−Mn−1=−2!1=3!1⋮=(−1)nn!1
将上述式子累加得
Mn=i=2∑n(−1)ii!1Dn=i=2∑n(−1)ii!n!
又因为n个元素共有n!种排列方式,因此n个元素全部错排的概率为Mn,且有
n→+∞limMn=e1.
二 条件概率
用不平等的概率构造平等的结果
假设现在有一枚硬币,其每次抛掷出现正面的结果为p(未知),则可通过如下结果构造两个等概率的结果:
连续抛掷两次,统计两次投掷出现的结果。
HH
/ TT
: 重新进行实验HT
: 结果1TH
: 结果2
贝叶斯定理
P(A∣B)=P(B)P(B∣A)P(A)
上式中,各项定义如下:
- P(A∣B): A的 后验概率 (已知发生某个事件后的概率)
- P(B∣A): B的 后验概率
- P(A) / P(B): A / B 的 先验概率 (在相关信息未知的情况下发生的概率)
全概率定理
P(A)=i=1∑nP(A∩Bi)=i=1∑nP(A∣Bi)P(Bi)