![数据科学基础 课程笔记](/assets/imgs/bg2/121033528_p0.png)
数据科学基础 课程笔记
Neonscape大约 3 分钟notesProbability & Statistics
数据科学基础 课程笔记
第二章 随机变量
随机变量
给定概率空间(Ω,Σ,Pr),一个该概率空间上的随机变量X是一个函数X:Ω→R,满足条件
∀x∈R,{ω∈Ω∣X(ω)≤x}∈Σ
(也就是说,该随机变量的所有事件都在事件空间之中——又被称为 Σ-可数 )。
- X≤x 表示事件 {ω∈Ω∣X(ω)≤x}.
- X>x 表示事件 {ω∈Ω∣X(ω)>x}.
- X∈S(其中S⊆R是任意数量左开右闭区间(y,x]的并和交) 表示事件 {ω∈Ω∣X(ω)∈S}(所有满足随机变量取值在区间内的事件的集合).
累积分布函数
随机变量X的累积分布函数FX:R→[0,1]由下式给定:
FX(x)=Pr(X≤x)
(也就是说,使得随机变量从负无穷大到x的所有事件的概率之和。)
FX有两个性质:
连续随机变量
一个随机变量被称为连续随机变量,当且仅当它的累积分布函数可以表达为
FX(y)=Pr(X≤y)=∫−∞yfX(x)dx
其中,fX是可积的概率密度函数。
随机向量、联合累积分布函数、联合质量函数、边际分布
- 随机向量:X=(X1,X2,…,Xn);其中每个Xi都是定义在概率空间(Ω,Σ,Pr)上的随机变量。
- 联合累积分布函数:FX:Rn→[0,1]
- FX(x1,x2,…,xn)=Pr(X1≤x1∩⋯∩Xn≤xn).
- 联合质量函数:适用于离散随机变量。
- pX(x1,x2,…,xn)=Pr(X1=x1∩⋯∩Xn=xn).
- 边际分布:(X1,X2,…,Xn)中, Xi的边际分布为
- (pXi(xi))=x1,…,xi−1,xi+1,…,xn∑p(X1,X2,…,Xn)(x1,x2,…,xn)
- (将某个变量的所有可能取值加起来,从而达到了将该变量“边际化”的效果。)
常见的离散随机变量
- 伯努利试验(扔硬币)
- 二项分布(n次互相独立的伯努利试验的结果分布)
- 几何分布(第一次得到特定结果时的试验总次数)
- 具有无记忆性:未来发生的事件和之前的实验结果无关
- 唯一一个具有该性质的离散分布
- 期望为p1
- 负二项分布(在得到r次成功结果前的失败次数)
- (k)(1−p)kpr=(−1)k(k−r)(1−p)kprpX(k)=(k+r−1)
- 期望为pr(1−p)
- 超几何分布(从已知数量的N个物体中无放回的抽取M次,其中成功的次数)
- pX(k)=(kM)(n−kN−M)/(nN);k=0,1,…,n
- 期望为NnM
- 多项式分布(每次实验有m个结果,每个结果的概率为pi)
- p(X1,X2,…,XM)(k1,k2,…,km)=k1!k2!...km!n!p1k1p2k2...pmkm
- 泊松分布
- X取值为{0,1,2,…}
- pX(k)=e−λk!λk.
- 是良定义的(在自然数集上和为1)
- X∼Pois(λ) - “X遵循参数为λ的泊松分布”
- 期望为λ
构造随机变量的方式