P251 命题2

This commit is contained in:
2025-10-29 08:56:11 +08:00
parent f5f0f13f5f
commit 29f5e082d9
3 changed files with 464 additions and 0 deletions

1
.gitignore vendored Normal file
View File

@ -0,0 +1 @@
t.md

View File

@ -0,0 +1,235 @@
## 命题 2 的内容
假设 \( (r, g) \) 服从联合正态分布,那么:
1. \(\hat{r}\) 是已知 \(g\) 条件下 \(r\) 的最大似然估计MLE
2. \(\hat{r} = E[r|g]\)(条件期望)。
3. \(\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]\)。
4. \(\hat{r}\) 在所有无偏估计(不限于线性)中具有最小均方误差。
---
## 记号与已知公式
\[
p = r - E[r], \quad s = g - E[g]
\]
联合向量
\[
x = \begin{bmatrix} p \\ s \end{bmatrix}
\]
协方差矩阵
\[
V = \text{Var} \begin{bmatrix} p \\ s \end{bmatrix}
= \begin{bmatrix}
\text{Var}[r] & \text{Cov}[r, g] \\
\text{Cov}[g, r] & \text{Var}[g]
\end{bmatrix}
\]
\[
V^{-1} = Q = \begin{bmatrix}
Q_{rr} & Q_{rs} \\
Q_{sr} & Q_{ss}
\end{bmatrix}
\]
其中 \(Q_{rr}\) 是 \(N\times N\)\(Q_{ss}\) 是 \(K\times K\) 等。
---
## 最大似然估计(结论 1
\[
x = \begin{bmatrix} p \\ s \end{bmatrix}
\]
服从均值 \(0\)、协方差矩阵 \(V\) 的多元正态分布,其概率密度函数为:
\[
f(x) = \frac{1}{\sqrt{(2\pi)^{N+K} \det(V)}} \exp\left( -\frac12 \, x^T V^{-1} x \right)
\]
其中 \(V^{-1} = Q\)。
因此联合密度:
\[
f(p,s) \propto \exp\left( -\frac12 \begin{bmatrix} p^T & s^T \end{bmatrix} Q \begin{bmatrix} p \\ s \end{bmatrix} \right)
\]
\[
f(r,g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + p^T Q_{rs} s + s^T Q_{sr} p + s^T Q_{ss} s \big] \right)
\]
注意 \(Q_{rs} = Q_{sr}^T\),所以
\[
p^T Q_{rs} s + s^T Q_{sr} p = 2 p^T Q_{rs} s
\]
因此指数部分为
\[
p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s
\]
似然函数(给定 \(g\) 即 \(s\) 时,关于 \(r\) 即 \(p\)
\[
L(r|g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \big] \right)
\]
由于 \(s\) 固定,\(s^T Q_{ss} s\) 是常数,不影响 \(p\) 的优化。
最大化 \(L(r|g)\) 等价于**最小化指数部分**(因为负指数,指数越小,概率密度越大):
\[
\min_p \left[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \right]
\]
固定 \(s\)(即固定 \(g\)),最大化似然等价于最小化
\[
J(p) = p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s
\]
对 \(p\) 求导(向量导数):
\[
\frac{\partial J}{\partial p} = 2 Q_{rr} p + 2 Q_{rs} s = 0
\]
\[
Q_{rr} p + Q_{rs} s = 0
\]
\[
p^* = - Q_{rr}^{-1} Q_{rs} s
\]
因此
\[
r^* = E[r] + p^* = E[r] - Q_{rr}^{-1} Q_{rs} (g - E[g])
\]
---
### 与线性估计 \(\hat{r}\) 的等价性(式 10A-15
已知命题 1 给出
\[
\hat{r} = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
\]
比较 \(r^*\) 与 \(\hat{r}\),只需证明
\[
\text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs}
\]
\[
V = \begin{bmatrix}
V_{rr} & V_{rs} \\
V_{sr} & V_{ss}
\end{bmatrix}
\]
其中
\[
V_{rr} = \text{Var}[r], \quad V_{rs} = \text{Cov}[r,g], \quad V_{sr} = V_{rs}^T, \quad V_{ss} = \text{Var}[g]
\]
已知 \(V^{-1} = Q = \begin{bmatrix} Q_{rr} & Q_{rs} \\ Q_{sr} & Q_{ss} \end{bmatrix}\)。
标准分块矩阵求逆公式(当 \(V_{ss}\) 可逆时):
\[
Q_{rr} = (V_{rr} - V_{rs} V_{ss}^{-1} V_{sr})^{-1}
\]
\[
Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1}
\]
\[
Q_{sr} = - V_{ss}^{-1} V_{sr} \, Q_{rr} \quad (\text{不过这里用不到})
\]
\[
Q_{ss} = V_{ss}^{-1} + V_{ss}^{-1} V_{sr} \, Q_{rr} \, V_{rs} V_{ss}^{-1}
\]
先看这个式子:
\[
Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1}
\]
两边左乘 \(- Q_{rr}^{-1}\)
\[
- Q_{rr}^{-1} Q_{rs} = - Q_{rr}^{-1} \big[ - Q_{rr} \, V_{rs} \, V_{ss}^{-1} \big]
\]
\[
- Q_{rr}^{-1} Q_{rs} = Q_{rr}^{-1} Q_{rr} \, V_{rs} \, V_{ss}^{-1}
\]
因为 \(Q_{rr}^{-1} Q_{rr} = I\),所以:
\[
- Q_{rr}^{-1} Q_{rs} = I \, V_{rs} \, V_{ss}^{-1} = V_{rs} V_{ss}^{-1}
\]
化简:
\[
- Q_{rr}^{-1} Q_{rs} = V_{rs} V_{ss}^{-1}
\]
\[
\text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs}
\]
证毕。
因此 \(r^* = \hat{r}\),即 \(\hat{r}\) 是已知 \(g\) 时 \(r\) 的 MLE。结论 1 得证。
---
## 结论 2 与 3条件期望与条件方差
对于联合正态分布,条件分布 \(r|g\) 也是正态的,且
\[
E[r|g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
\]
这正是 \(\hat{r}\),所以结论 2 成立。
条件方差公式:
\[
\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]
\]
这正好是 \(Q_{rr}^{-1}\)(上面已出现),因为
\[
Q_{rr}^{-1} = V_{rr} - V_{rs} V_{ss}^{-1} V_{sr}
\]
结论 3 得证。
---
## 结论 4最小均方误差无偏估计
1. 在联合正态分布下,\(g\) 是 \(r\) 的充分统计量(由因子分解定理)。
2. 正态分布是指数族,且参数空间包含开集,因此 \(g\) 是完备的充分统计量。
3. \(\hat{r} = E[r|g]\) 是 \(g\) 的函数,且是无偏估计。
4.**LehmannScheffé 定理**,如果一个无偏估计是完备充分统计量的函数,那么它是 UMVUE。
5. 因此 \(\hat{r}\) 是 UMVUE。

View File

@ -0,0 +1,228 @@
# 联合正态分布下的条件期望与条件方差公式
## 已知条件与记号
\[
x = \begin{bmatrix} r \\ g \end{bmatrix}
\]
服从联合正态分布,均值向量
\[
\mu = \begin{bmatrix} \mu_r \\ \mu_g \end{bmatrix}
\]
协方差矩阵
\[
\Sigma = \begin{bmatrix}
\Sigma_{rr} & \Sigma_{rg} \\
\Sigma_{gr} & \Sigma_{gg}
\end{bmatrix}
\]
其中
\[
\Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \Sigma_{rg}^T, \quad \Sigma_{gg} = \text{Var}[g]
\]
---
## 联合分布与精度矩阵
设联合精度矩阵为
\[
\Lambda = \Sigma^{-1} = \begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix}
\]
联合概率密度函数(忽略常数):
\[
p(r, g) \propto \exp\left[ -\frac{1}{2} (x - \mu)^T \Lambda (x - \mu) \right]
\]
### 展开二次型
\[
y = r - \mu_r, \quad z = g - \mu_g
\]
\[
(x - \mu) = \begin{bmatrix} y \\ z \end{bmatrix}
\]
二次型:
\[
(x - \mu)^T \Lambda (x - \mu)
= \begin{bmatrix} y^T & z^T \end{bmatrix}
\begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix}
\begin{bmatrix} y \\ z \end{bmatrix}
\]
\[
= y^T \Lambda_{rr} y + y^T \Lambda_{rg} z + z^T \Lambda_{gr} y + z^T \Lambda_{gg} z
\]
因为 \(\Lambda_{gr} = \Lambda_{rg}^T\),且结果为标量,所以中间两项相等:
\[
y^T \Lambda_{rg} z + z^T \Lambda_{gr} y = 2 y^T \Lambda_{rg} z
\]
因此:
\[
(x - \mu)^T \Lambda (x - \mu) = y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z
\]
### 固定 \(g\) 时的条件分布
固定 \(g\) 意味着 \(z\) 固定。将上述表达式视为 \(y\) 的函数:
\[
p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z \right) \right]
\]
与 \(y\) 无关的项 \(z^T \Lambda_{gg} z\) 可提到比例常数中:
\[
p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z \right) \right]
\]
---
## 配方法找条件均值与条件精度
对 \(y\) 的二次型加线性项配方:
\[
y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z
= (y - m)^T \Lambda_{rr} (y - m) - m^T \Lambda_{rr} m
\]
其中 \(m\) 满足:
\[
\Lambda_{rr} m = - \Lambda_{rg} z
\]
即:
\[
m = - \Lambda_{rr}^{-1} \Lambda_{rg} z
\]
(注意:这里 \(m\) 是给定 \(g\) 时 \(y\) 的条件均值。)
于是:
\[
p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
\]
因为 \(- m^T \Lambda_{rr} m\) 与 \(y\) 无关,被吸收进归一化常数。
---
## 条件期望
由于 \(y = r - \mu_r\)\(z = g - \mu_g\),且条件分布为:
\[
p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
\]
这表示 \(r \mid g \sim N(\mu_r + m, \Lambda_{rr}^{-1})\)
因此:
\[
E[r \mid g] = \mu_r + m = \mu_r - \Lambda_{rr}^{-1} \Lambda_{rg} (g - \mu_g)
\]
### 用分块矩阵求逆公式简化
由分块矩阵求逆公式:
\[
\Lambda_{rg} = - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1}
\]
代入上式:
\[
E[r \mid g] = \mu_r - \Lambda_{rr}^{-1} ( - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1} ) (g - \mu_g)
\]
\[
= \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g)
\]
### 条件期望公式
\[
E[r \mid g] = \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g)
\]
即:
\[
E[r \mid g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
\]
---
## 条件方差
\[
p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
\]
可得:
- 条件精度矩阵 = \(\Lambda_{rr}\)
- 条件协方差矩阵 = \((\Lambda_{rr})^{-1}\)
因此:
\[
\text{Var}[r \mid g] = \Lambda_{rr}^{-1}
\]
### 分块矩阵求逆公式
已知分块矩阵求逆公式(当 \(\Sigma_{gg}\) 可逆时):
\[
\Lambda_{rr} = (\Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr})^{-1}
\]
\[
\Lambda_{rg} = - \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1}
\]
\[
\Lambda_{gr} = - \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr}
\]
\[
\Lambda_{gg} = \Sigma_{gg}^{-1} + \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1}
\]
### 最终的条件方差公式
由第7步和第8步
\[
\text{Var}[r \mid g] = \Lambda_{rr}^{-1} = \Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr}
\]
代入原记号:
\[
\Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \text{Cov}[g,r], \quad \Sigma_{gg} = \text{Var}[g]
\]
因此:
\[
\text{Var}[r \mid g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]
\]