01-负二项分布
1 基本概念:什么是负二项分布?
负二项分布(Negative Binomial Distribution)是离散型概率分布,描述的是:
“在一系列独立的伯努利试验中,直到出现第 kk 次成功为止,所需的失败次数(或总次数)。”
你可以把它看作是二项分布的“逆过程”:
二项分布:给定试验次数 nn,观察“成功”次数;
负二项分布:给定成功次数 kk,观察要达成这些成功,需要进行多少次试验。
2 举个例子
比如你在投篮,命中率是 0.3,你想看看你需要投几次,才能命中 3 个球。这时就用负二项分布。
假设:
每投一次是一次“伯努利试验”(成/败);
投中是“成功”,不中是“失败”;
你想知道,为了投中 3 次,可能要投几次(或者会有几个“失败”)?
这时候就服从负二项分布。
3 负二项分布的定义与公式
3.1 参数:
k:成功次数(固定的)
p:单次成功的概率
x:失败次数(我们想知道的随机变量)
3.2 概率质量函数(PMF):
\(P(X=x)=(x+k−1k−1)pk(1−p)x,x=0,1,2,...P(X = x) = \binom{x + k - 1}{k - 1} p^k (1-p)^x, \quad x = 0, 1, 2, ...\)
这表示:在出现第 k 次成功之前,有 x 次失败。
4 负二项分布的均值和方差
记住两个重要的公式:
期望(均值):
\(μ= \frac{k(1-p)}{p}\)
方差:
\(σ^2= \frac{k(1-p)}{p^2}\)
它的方差 > 均值,也就是 “过度离散”(overdispersion),这点很重要,是很多统计模型选择它的原因。
5 与二项分布的比较
特征 | 二项分布 | 负二项分布 |
固定参数 | 总试验次数 nn | 成功次数 kk |
随机变量 | 成功次数 xx | 失败次数 xx 或试验总次数 |
常用于 | 有限次数内成功次数 | 达成几次成功需失败多少次 |
期望 | np | \(k(1−p)/p\) |
方差 | np(1−p) | \(k(1−p)/p^2\) |
生物统计学:如动物聚集数目建模;
毒理学试验:比如记录小白鼠死亡个数;
保险/风险建模:建模事故、疾病发生次数;
回归分析中的离散因变量建模(如负二项回归),适用于计数数据方差 > 均值的情况。
6 负二项分布的两种形式
在统计学里,负二项分布还有两种理解方式:
类型 | 描述 | 用于 |
失败数模型 | 固定成功次数 k,求失败数 x | 生物试验、理论建模 |
计数模型(r, μ形式) | 固定均值 μ 和形状参数 k | 回归分析中常用 |
第二种形式用的是“均值-方差”形式,更适用于建模。
7 总结记忆法
“负二项 = 重复试验直到成功k次”
它解决的是:“我得失败几次,才能成功这么多次?”