4.9 KiB
命题 2 的内容
假设 ( (r, g) ) 服从联合正态分布,那么:
- (\hat{r}) 是已知 (g) 条件下 (r) 的最大似然估计(MLE)。
- (\hat{r} = E[r|g])(条件期望)。
- (\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r])。
- (\hat{r}) 在所有无偏估计(不限于线性)中具有最小均方误差。
记号与已知公式
令
[
p = r - E[r], \quad s = g - E[g]
]
联合向量
[
x = \begin{bmatrix} p \ s \end{bmatrix}
]
协方差矩阵
[ V = \text{Var} \begin{bmatrix} p \ s \end{bmatrix} = \begin{bmatrix} \text{Var}[r] & \text{Cov}[r, g] \ \text{Cov}[g, r] & \text{Var}[g] \end{bmatrix} ] 记
[ V^{-1} = Q = \begin{bmatrix} Q_{rr} & Q_{rs} \ Q_{sr} & Q_{ss} \end{bmatrix} ] 其中 (Q_{rr}) 是 (N\times N),(Q_{ss}) 是 (K\times K) 等。
最大似然估计(结论 1)
[ x = \begin{bmatrix} p \ s \end{bmatrix} ] 服从均值 (0)、协方差矩阵 (V) 的多元正态分布,其概率密度函数为:
[ f(x) = \frac{1}{\sqrt{(2\pi)^{N+K} \det(V)}} \exp\left( -\frac12 , x^T V^{-1} x \right) ] 其中 (V^{-1} = Q)。
因此联合密度:
[ f(p,s) \propto \exp\left( -\frac12 \begin{bmatrix} p^T & s^T \end{bmatrix} Q \begin{bmatrix} p \ s \end{bmatrix} \right) ]
即
[ f(r,g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + p^T Q_{rs} s + s^T Q_{sr} p + s^T Q_{ss} s \big] \right) ] 注意 (Q_{rs} = Q_{sr}^T),所以
[ p^T Q_{rs} s + s^T Q_{sr} p = 2 p^T Q_{rs} s ] 因此指数部分为
[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s ]
似然函数(给定 (g) 即 (s) 时,关于 (r) 即 (p)):
[ L(r|g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \big] \right) ] 由于 (s) 固定,(s^T Q_{ss} s) 是常数,不影响 (p) 的优化。
最大化 (L(r|g)) 等价于最小化指数部分(因为负指数,指数越小,概率密度越大):
[ \min_p \left[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \right] ]
固定 (s)(即固定 (g)),最大化似然等价于最小化
[ J(p) = p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s ] 对 (p) 求导(向量导数):
[ \frac{\partial J}{\partial p} = 2 Q_{rr} p + 2 Q_{rs} s = 0 ]
[ Q_{rr} p + Q_{rs} s = 0 ]
[ p^* = - Q_{rr}^{-1} Q_{rs} s ] 因此
[ r^* = E[r] + p^* = E[r] - Q_{rr}^{-1} Q_{rs} (g - E[g]) ]
与线性估计 (\hat{r}) 的等价性(式 10A-15)
已知命题 1 给出
[ \hat{r} = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g]) ] 比较 (r^*) 与 (\hat{r}),只需证明
[ \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs} ]
设
[ V = \begin{bmatrix} V_{rr} & V_{rs} \ V_{sr} & V_{ss} \end{bmatrix} ] 其中
[ V_{rr} = \text{Var}[r], \quad V_{rs} = \text{Cov}[r,g], \quad V_{sr} = V_{rs}^T, \quad V_{ss} = \text{Var}[g] ] 已知 (V^{-1} = Q = \begin{bmatrix} Q_{rr} & Q_{rs} \ Q_{sr} & Q_{ss} \end{bmatrix})。
标准分块矩阵求逆公式(当 (V_{ss}) 可逆时):
[ Q_{rr} = (V_{rr} - V_{rs} V_{ss}^{-1} V_{sr})^{-1} ]
[ Q_{rs} = - Q_{rr} , V_{rs} , V_{ss}^{-1} ]
[ Q_{sr} = - V_{ss}^{-1} V_{sr} , Q_{rr} \quad (\text{不过这里用不到}) ]
[ Q_{ss} = V_{ss}^{-1} + V_{ss}^{-1} V_{sr} , Q_{rr} , V_{rs} V_{ss}^{-1} ]
先看这个式子:
[ Q_{rs} = - Q_{rr} , V_{rs} , V_{ss}^{-1} ]
两边左乘 (- Q_{rr}^{-1}):
[
- Q_{rr}^{-1} Q_{rs} = - Q_{rr}^{-1} \big[ - Q_{rr} , V_{rs} , V_{ss}^{-1} \big] ]
[
- Q_{rr}^{-1} Q_{rs} = Q_{rr}^{-1} Q_{rr} , V_{rs} , V_{ss}^{-1} ]
因为 (Q_{rr}^{-1} Q_{rr} = I),所以:
[
- Q_{rr}^{-1} Q_{rs} = I , V_{rs} , V_{ss}^{-1} = V_{rs} V_{ss}^{-1} ]
化简:
[
- Q_{rr}^{-1} Q_{rs} = V_{rs} V_{ss}^{-1} ] 即
[ \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs} ] 证毕。
因此 (r^* = \hat{r}),即 (\hat{r}) 是已知 (g) 时 (r) 的 MLE。结论 1 得证。
结论 2 与 3(条件期望与条件方差)
对于联合正态分布,条件分布 (r|g) 也是正态的,且
[ E[r|g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g]) ] 这正是 (\hat{r}),所以结论 2 成立。
条件方差公式:
[ \text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r] ] 这正好是 (Q_{rr}^{-1})(上面已出现),因为
[ Q_{rr}^{-1} = V_{rr} - V_{rs} V_{ss}^{-1} V_{sr} ] 结论 3 得证。
结论 4(最小均方误差无偏估计)
- 在联合正态分布下,(g) 是 (r) 的充分统计量(由因子分解定理)。
- 正态分布是指数族,且参数空间包含开集,因此 (g) 是完备的充分统计量。
- (\hat{r} = E[r|g]) 是 (g) 的函数,且是无偏估计。
- 由 Lehmann–Scheffé 定理,如果一个无偏估计是完备充分统计量的函数,那么它是 UMVUE。
- 因此 (\hat{r}) 是 UMVUE。