01-负二项分布

作者

Simonzhou

发布于

2025年6月9日

修改于

2025年6月10日

1 基本概念:什么是负二项分布?

负二项分布(Negative Binomial Distribution)是离散型概率分布,描述的是:

“在一系列独立的伯努利试验中,直到出现第 kk 次成功为止,所需的失败次数(或总次数)。”

你可以把它看作是二项分布的“逆过程”

  • 二项分布:给定试验次数 nn,观察“成功”次数;

  • 负二项分布:给定成功次数 kk,观察要达成这些成功,需要进行多少次试验。

2 举个例子

比如你在投篮,命中率是 0.3,你想看看你需要投几次,才能命中 3 个球。这时就用负二项分布。

假设:

  • 每投一次是一次“伯努利试验”(成/败);

  • 投中是“成功”,不中是“失败”;

  • 你想知道,为了投中 3 次,可能要投几次(或者会有几个“失败”)?

这时候就服从负二项分布。

3 负二项分布的定义与公式

3.1 参数:

  • k:成功次数(固定的)

  • p:单次成功的概率

  • x:失败次数(我们想知道的随机变量)

3.2 概率质量函数(PMF):

\(P(X=x)=(x+k−1k−1)pk(1−p)x,x=0,1,2,...P(X = x) = \binom{x + k - 1}{k - 1} p^k (1-p)^x, \quad x = 0, 1, 2, ...\)

这表示:在出现第 k 次成功之前,有 x 次失败。

4 负二项分布的均值和方差

记住两个重要的公式:

  • 期望(均值)

    \(μ= \frac{k(1-p)}{p}\)

  • 方差

    \(σ^2= \frac{k(1-p)}{p^2}\)

它的方差 > 均值,也就是 “过度离散”(overdispersion),这点很重要,是很多统计模型选择它的原因。

5 与二项分布的比较

特征 二项分布 负二项分布
固定参数 总试验次数 nn 成功次数 kk
随机变量 成功次数 xx 失败次数 xx 或试验总次数
常用于 有限次数内成功次数 达成几次成功需失败多少次
期望 np \(k(1−p)/p\)
方差 np(1−p) \(k(1−p)/p^2\)
  1. 生物统计学:如动物聚集数目建模;

  2. 毒理学试验:比如记录小白鼠死亡个数;

  3. 保险/风险建模:建模事故、疾病发生次数;

  4. 回归分析中的离散因变量建模(如负二项回归),适用于计数数据方差 > 均值的情况。

6 负二项分布的两种形式

在统计学里,负二项分布还有两种理解方式:

类型 描述 用于
失败数模型 固定成功次数 k,求失败数 x 生物试验、理论建模
计数模型(r, μ形式) 固定均值 μ 和形状参数 k 回归分析中常用

第二种形式用的是“均值-方差”形式,更适用于建模。

7 总结记忆法

“负二项 = 重复试验直到成功k次”

它解决的是:“我得失败几次,才能成功这么多次?”