1687 字
8 分钟
【数据挖掘】蓄水池算法

Introduce#

蓄水池算法 (Reservoir Sampling) 是一种处理流式数据的随机采样问题的高效算法。它可以处理数据量巨大、或者数据动态生成的采样情况,并可以保证每个样本被抽中的概率相等。本章记录了我学习蓄水池算法的一些笔记。

Principle#

蓄水池算法的目标是解决如下的问题:

假设有一个数据集长度为 NNNN \approx \infty,计算机无法将 NN 个元素全部加载都内存中。我们需要从数据集中抽取 KK 个元素,要求满足:

  1. 每个元素只能访问一次。
  2. 每个元素采样概率相等。

蓄水池算法的基本思路是:

  1. 维护一个容量为 K 的数组 reservoir[K],用于存储抽取的元素。
  2. 对于第 i 个数据集中的元素,执行如下分类操作:
    1. (初始化) 如果 i < K,则将该元素加入采样池 reservoir[i] 中。
    2. (替换) 如果 i >= K,则随机生成一个数 r (0 ≤ r ≤ i),若 r < K,则将 reservoir[r] 替换为当前元素;若 r >= K,则不替换。
  3. 抽取结束后,数组 reservoir[K] 为最终的采样结果。

我们通过如下一个例子来解释这个算法的过程:

假设有一个数据集 stream 长度为 N=15N = 15,数据集为:[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]。我们希望随机采样 K=10K = 10 个元素。

  1. 维护一个容量为 K 的数组 reservoir[10]

  1. 对于第 i 个数据集中的元素,执行如下分类操作:

    1. (初始化) 如果 i < 10,则将该元素加入采样池 reservoir[i] 中。我们将数据集的前 10 个元素加入 reservoir[0]reservoir[9] 中。

    1. (替换) 如果 i >= 10,则随机生成一个数 r (0 ≤ r ≤ i),若 r < 10,则将 reservoir[r] 替换为当前元素;若 r >= 10,则不替换。
      假设 i = 11, r = 5, r < 10, 则 reservoir[r] = stream[i], 即 reservoir[5] 被替换为 stream[11]

    假设 i = 12, r = 11, r > 10, 则不发生与采样池的替换。

  2. 抽取结束后,数组 reservoir 为最终的采样结果。

Code#

实现这样的蓄水池算法很简单,接下来通过一个Python代码来演示。

  1. 创建一个函数 reservoir_sampling,接收两个参数 streamK,返回一个长度为 K 的列表 reservoir
  2. 遍历数据集 stream,对每个元素执行分类操作。
    1. 如果 i < K,则将该元素加入采样池 reservoir[i] 中。
    2. 如果 i >= K,则随机生成一个数 r (0 ≤ r ≤ i),若 r < K,则将 reservoir[r] 替换为当前元素;若 r >= K,则不替换。
  3. 返回最终的采样结果 reservoir
import random
def reservoir_sampling(stream, K):
reservoir = []
for i, item in enumerate(stream):
if i < K:
reservoir.append(item)
continue
r = random.randint(0, i)
if r < K:
reservoir[r] = item
return reservoir

我们可以对当前算法进行一些简单的测试:

# 从 100 个元素中随机抽取 10 个
stream = [i for i in range(100)]
sample_k10 = reservoir_sampling(stream, 10)

Proof#

你可能比较好奇为什么蓄水池算法能保证每个元素被抽中的概率相等。接下来是它的数学证明部分。

我们将其问题转化为数学式:

设数据集的长度为 NN,需要抽取 K (KN)K\ (K \le N) 个元素,求证:每个元素被抽中的概率为 P=KNP = \frac{K}{N}

在初始化阶段,第 i (iK)i\ (i \le K) 个元素一定会被蓄水池采样,此时被抽样的概率 Pi=1P_i = 1。在初始化结束后,若 N=KN = K, 则对于第 ii 个元素,被抽中的概率为:

Pi=1=KK=KN (1iK=N)\begin{equation} P_{\textbf{i}} = 1 = \frac{K}{K} = \frac{K}{N} \ (1 \le i \le K = N) \end{equation}

根据算法,第 i (iK)i \ (i \ge K) 个元素会被选入蓄水池的条件是:生成一个 00i1i-1 的随机数 rr,且 r<Kr < K

生成随机数的总可能性有 ii 种 (从 00i1i-1), 使得第 ii 个元素被选中的情况有 KK 种 (0,1,,K10, 1, \dots, K-1)。

所以,第 ii 个元素被选入蓄水池的概率是:

Pselect i=Ki\begin{equation} P_{\text{select i}} = \frac{K}{i} \end{equation}

选中后,它会随机替换蓄水池中 KK 个位置之一。对于任意一个已经在蓄水池中的旧元素 jj,它在处理第 i1i-1 步时仍在蓄水池中。

那么,元素 jj 在第 ii 步之后 仍然留在蓄水池 中的概率,可以分为两个事件:

  1. 在处理第 ii 步之前,jj 就在蓄水池中。
  2. 在处理第 ii 步时,jj 没有被替换。

对于事件 1,jj 要继续留在蓄水池中,必须满足: 在处理第 ii 步时,它没有被第 ii 个元素替换。

我们可以使用数学归纳法来继续证明。根据我们的归纳假设,在处理第 i1i - 1 步时,满足公式 (1),元素 jj 在蓄水池中的概率是:

P(j,i-1)=Ki1\begin{equation} P_{(\text{j},\text{i-1})} = \frac{K}{i - 1} \end{equation}

对于事件 2,jj 在处理第 ii 步时没有被替换,有两种可能,它们之间是 的关系:

  1. ii 个元素根本没被选中进入蓄水池。 这个概率是:1 - P(第 i 个元素被选中),即:

    Pnot select i=1Pselect i=1Ki\begin{equation} P_{\text{not select i}} = 1 - P_{\text{select i}} = 1 - \frac{K}{i} \end{equation}
  2. ii 个元素被选中进入蓄水池,但被蓄水池中的其他元素替换,即 rjr \not = {j},这种情况的概率也很明显是 第 ii 个元素被选中的概率 ×\times 没选中 jj 的概率。

    Pnot replace j=Pselect i×K1K=Ki×K1K=K1i\begin{equation} \begin{aligned} P_{\text{not replace j}} &= P_{\text{select i}} \times \frac{K - 1}{K} \\ &=\frac{K}{i} \times \frac{K - 1}{K} \\ &= \frac{K - 1}{i} \end{aligned} \end{equation}

因此,元素 jj 在第 ii 步后继续留在蓄水池中的总概率是事件 1 和事件 2 同时成立的概率:

P(j,i)=P(j,i-1)×(Pnot select i+Pnot replace j)=Ki1×(1Ki+K1i)=Ki1×iK+K1i=Ki1×i1i=Ki\begin{equation} \begin{aligned} P_{(\text{j},\text{i})} &= P_{(\text{j},\text{i-1})} \times (P_{\text{not select i}} + P_{\text{not replace j}}) \\ &= \frac{K}{i - 1} \times (1 - \frac{K}{i} + \frac{K - 1}{i}) \\ &= \frac{K}{i - 1} \times \frac{i - K + K - 1}{i} \\ &= \frac{K}{i - 1} \times \frac{i - 1}{i} \\ &= \frac{K}{i} \end{aligned} \end{equation}

由公式 (1)、(3)、(6) 可以判定:对于任意一个元素 nn,它被抽中 (留在蓄水池) 中的概率为 P=KnP = \frac{K}{n}

这个结论可以从 i=K+1i = K+1 一直推广到 i=Ni = N。因此,当算法处理完所有 NN 个元素后,数据集中任意一个元素最终留在蓄水池中的概率都是 P=KNP = \frac{K}{N}

Summary#

蓄水池算法是一种高效的随机抽取算法,它通过维护一个固定大小的数组来保存数据集的随机子集。它可以解决 数据集过大无法全部加载进内存的问题,并 保持抽取的概率与数据集的概率一致

Reference#

[1]. Reservoir Sampling

[2]. 蓄水池抽样算法——原理、实现与应用

[3]. Reservoir Sampling

【数据挖掘】蓄水池算法
https://hoyue.fun/reservoir_sampling.html
作者
Hoyue
发布于
2025-10-06
许可协议
CC BY-NC-SA 4.0
评论