4.4 KiB
克拉默-拉奥不等式(Cramér–Rao inequality)
- 总体分布密度函数(连续情形)为 ( p(x; \theta) ),(\theta) 是未知参数。
- 样本 ( x_1, x_2, \dots, x_n ) 独立同分布来自该总体。
- 记联合密度为
[ L(\mathbf{x};\theta) = \prod_{i=1}^n p(x_i; \theta). ]
- 设 ( T = T(x_1,\dots,x_n) ) 是 ( g(\theta) ) 的一个无偏估计,即
[ E_\theta[T] = g(\theta), \quad \forall \theta. ]
- 记
[ Z = \frac{\partial}{\partial \theta} \ln L(\mathbf{x};\theta) = \sum_{i=1}^n \frac{\partial}{\partial \theta} \ln p(x_i; \theta). ]
- 对无偏估计量 (T), 微商可在积分号下进行。
[ g(\theta) = E_\theta[T] = \int T(\mathbf{x}) L(\mathbf{x};\theta) , d\mathbf{x} ]
[ g'(\theta) = \int T(\mathbf{x}) , \frac{\partial}{\partial\theta} \ln L(\mathbf{x};\theta) , L(\mathbf{x};\theta) , d\mathbf{x}. ]
- 记单个观测的 Fisher 信息量 为
[ I(\theta) = E\left[ \left( \frac{\partial}{\partial\theta} \ln p(x;\theta) \right)^2 \right]. ]
- 由于独立同分布,样本的 Fisher 信息量为 ( n I(\theta) )。
有以下不等式成立
[ \mathrm{Var}_\theta(T) \ge \frac{[g'(\theta)]^2}{n I(\theta)}, ] 其中等号成立当且仅当存在某个不依赖于样本、只依赖于 (\theta) 的函数 ( A(\theta) ) 使得
[ T(\mathbf{x}) - g(\theta) = A(\theta) \cdot \frac{\partial}{\partial\theta} \ln L(\mathbf{x};\theta) ] 几乎处处成立(在概率分布 (P_\theta) 下)。
2. 一些预备结果
2.1 ( E[Z] = 0 )
对单个观测,有
[ \int p(x; \theta) , dx = 1. ] 假设可在积分号下求导:
[ 0 = \frac{\partial}{\partial\theta} \int p(x; \theta) , dx = \int \frac{\partial p(x; \theta)}{\partial\theta} , dx. ]
我们对 (\theta) 求偏导,应用链式法则:
[ \frac{\partial}{\partial \theta} \ln p(x; \theta) = \frac{1}{p(x; \theta)} \cdot \frac{\partial p(x; \theta)}{\partial \theta} ]
重新排列等式,得:
[ \frac{\partial p}{\partial\theta} = p \cdot \frac{\partial \ln p}{\partial\theta}, ] 所以
[ 0 = \int \frac{\partial \ln p(x;\theta)}{\partial\theta} , p(x;\theta) , dx = E\left[ \frac{\partial}{\partial\theta} \ln p(x;\theta) \right]. ] 因此
[ E[Z] = \sum_{i=1}^n E\left[ \frac{\partial}{\partial\theta} \ln p(x_i;\theta) \right] = 0. ]
2.2 ( \mathrm{Var}(Z) = n I(\theta) )
由于 ( E[Z] = 0 ),
[ \mathrm{Var}(Z) = E[Z^2]. ] 而
[ Z = \sum_{i=1}^n \frac{\partial}{\partial\theta} \ln p(x_i;\theta), ] 各项独立且同分布,均值为 0,所以
[ \mathrm{Var}(Z) = \sum_{i=1}^n \mathrm{Var}\left( \frac{\partial}{\partial\theta} \ln p(x_i;\theta) \right) = n , E\left[ \left( \frac{\partial}{\partial\theta} \ln p(x;\theta) \right)^2 \right] = n I(\theta). ]
3. 无偏估计的条件求导
已知
[ g(\theta) = E[T] = \int T(\mathbf{x}) , L(\mathbf{x};\theta) , d\mathbf{x}. ] 假设可在积分号下对 (\theta) 求导:
[ g'(\theta) = \int T(\mathbf{x}) , \frac{\partial L(\mathbf{x};\theta)}{\partial\theta} , d\mathbf{x}. ] 但
[ \frac{\partial L}{\partial\theta} = L \cdot \frac{\partial \ln L}{\partial\theta} = L \cdot Z, ] 所以
[ g'(\theta) = \int T(\mathbf{x}) , Z , L(\mathbf{x};\theta) , d\mathbf{x} = E[T Z]. ]
4. 协方差与施瓦茨不等式
因为 ( E[Z] = 0 ),
[ \mathrm{Cov}(T, Z) = E[T Z] - E[T] E[Z] = E[T Z] - g(\theta) \cdot 0 = E[T Z] = g'(\theta). ] 另一方面,
[ \mathrm{Cov}(T, Z) = E\big[ (T - g(\theta)) (Z - 0) \big]. ] 由柯西-施瓦茨不等式:
[ [\mathrm{Cov}(T, Z)]^2 \le \mathrm{Var}(T) \cdot \mathrm{Var}(Z). ] 代入:
[ [g'(\theta)]^2 \le \mathrm{Var}(T) \cdot n I(\theta). ] 因此
[ \mathrm{Var}(T) \ge \frac{[g'(\theta)]^2}{n I(\theta)}. ] 这就是克拉默-拉奥不等式。
5. 对 (\theta) 本身的无偏估计的特殊情形
若 ( g(\theta) = \theta ),则 ( g'(\theta) = 1 ),于是
[ \mathrm{Var}(\hat{\theta}) \ge \frac{1}{n I(\theta)}. ]
6. 有效估计
如果等号成立,说明 ( T - g(\theta) ) 与 ( Z ) 成比例(由柯西-施瓦茨取等条件),即存在函数 ( A(\theta) ) 使得
[ T - g(\theta) = A(\theta) \cdot Z, ] 这通常意味着 ( T ) 是充分统计量且达到了信息下界,此时称 ( T ) 是 有效估计(efficient estimator),它也是 一致最小方差无偏估计(UMVUE)。