【机器学习前置知识】二项分布

发布时间:2023年12月30日

二项分布

在概率论和统计学里,二项分布表示的是 N次独立试验中成功次数 的概率分布。其中的每次独立试验又可称为伯努利试验,伯努利试验是这样的:在每次独立试验中,结果只有成功或失败两种情况,其中成功的概率为 p p p p ∈ [ 0 , 1 ] p∈[0,1] p[0,1] ,失败的概率为 q = 1 ? p q=1-p q=1?p

二项分布其实是伯努利分布的扩展,当n=1时,二项分布等价于伯努利分布。二项分布也常用于对N次 有放回 抽样进行建模。

更直观点来说,以抛硬币为例,抛一次硬币会有正面和反面两种结果,这里把出现正面作为实验成功的结果,对于质地均匀的硬币,出现正面和反面的概率应该都是0.5,即 p = 0.5 p=0.5 p=0.5 q = 0.5 q=0.5 q=0.5

假设我们对这枚硬币进行了3次独立实验,现在我们想分别统计在这三次实验中正面出现0次、1次、2次与3次的概率,这其实就是二项分布能解决的问题。

掷3次硬币,所有可能出现的结果有8种:正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反 ,其中每种结果出现的概率均为 0.5??0.5??0.5=0.125。

我们可以计算出:

  • 正面出现0次的结果在8种结果中有1种,概率为 p 0 q 3 p^0q^3 p0q3?? C 3 0 C_{3}^0 C30? = 0.125??1 = 0.125
  • 正面出现1次的结果在8种结果中有3种,概率为 p 1 q 2 p^1q^2 p1q2?? C 3 1 C_{3}^1 C31? = 0.125??3 = 0.375
  • 正面出现2次的结果在8种结果中有3种,概率为 p 2 q 1 p^2q^1 p2q1?? C 3 2 C_{3}^2 C32? = 0.125??3 = 0.375
  • 正面出现3次的结果在8种结果中有1种,概率为 p 3 q 0 p^3q^0 p3q0?? C 3 3 C_{3}^3 C33? = 0.125??1 = 0.125

由上面计算结果可以总结出概率 B i n ( k , n , p ) = C n k p k ( 1 ? p ) n ? k Bin(k,n,p)=C_{n}^kp^k(1-p)^{n-k} Bin(k,n,p)=Cnk?pk(1?p)n?k

其中, n n n 表示抛硬币总次数; p p p 表示正面出现的概率; k k k 表示 n n n 次中出现正面的次数; B i n ( k , n , p ) Bin(k,n,p) Bin(k,n,p) 表示 n n n 次中出现 k k k 次正面的概率,这也是一般二项分布概率质量函数(PMF)的数学表示。

由此可以引出二项分布的公式。设 n n n 是一个正整数,并设 p ∈ [ 0 , 1 ] p∈[0,1] p[0,1] 。如果随机变量 X X X 满足:

P ( X = k ) = ( n k ) p k ( 1 ? p ) n ? k ? , ? k = 0 , 1 , . . . , n P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} \ , \ k=0,1,...,n P(X=k)=(kn?)pk(1?p)n?k?,?k=0,1,...,n ,其中 ( n k ) = C n k = n ! k ! ( n ? k ) ! \binom{n}{k}=C_{n}^k={n!\over{k!(n-k)!}} (kn?)=Cnk?=k!(n?k)!n!?

那么称 X X X 服从参数为 n n n p p p 的二项分布,记作 X X X~ B i n ( n , p ) Bin(n,p) Bin(n,p) X X X 的均值为 n p np np ,方差为 n p ( 1 ? p ) np(1-p) np(1?p)

文章来源:https://blog.csdn.net/weixin_41878387/article/details/135182303
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。