P251 命题2

2025-10-29 08:56:11 +08:00
parent f5f0f13f5f
commit 29f5e082d9
3 changed files with 464 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
+t.md
--- a/命题2/P251
+++ b/命题2/P251
@ -0,0 +1,235 @@
+## 命题 2 的内容
+
+假设 \( (r, g) \) 服从联合正态分布，那么：
+
+1. \(\hat{r}\) 是已知 \(g\) 条件下 \(r\) 的最大似然估计（MLE）。  
+2. \(\hat{r} = E[r|g]\)（条件期望）。  
+3. \(\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]\)。  
+4. \(\hat{r}\) 在所有无偏估计（不限于线性）中具有最小均方误差。
+
+---
+
+## 记号与已知公式
+
+令  
+
+\[
+p = r - E[r], \quad s = g - E[g]
+\]  
+联合向量  
+
+\[
+x = \begin{bmatrix} p \\ s \end{bmatrix}
+\]  
+协方差矩阵  
+
+\[
+V = \text{Var} \begin{bmatrix} p \\ s \end{bmatrix}
+= \begin{bmatrix}
+\text{Var}[r] & \text{Cov}[r, g] \\
+\text{Cov}[g, r] & \text{Var}[g]
+\end{bmatrix}
+\]
+记  
+
+\[
+V^{-1} = Q = \begin{bmatrix}
+Q_{rr} & Q_{rs} \\
+Q_{sr} & Q_{ss}
+\end{bmatrix}
+\]
+其中 \(Q_{rr}\) 是 \(N\times N\)，\(Q_{ss}\) 是 \(K\times K\) 等。
+
+---
+
+## 最大似然估计（结论 1）
+
+\[
+x = \begin{bmatrix} p \\ s \end{bmatrix}
+\]
+服从均值 \(0\)、协方差矩阵 \(V\) 的多元正态分布，其概率密度函数为：  
+
+\[
+f(x) = \frac{1}{\sqrt{(2\pi)^{N+K} \det(V)}} \exp\left( -\frac12 \, x^T V^{-1} x \right)
+\]
+其中 \(V^{-1} = Q\)。
+
+因此联合密度：
+
+\[
+f(p,s) \propto \exp\left( -\frac12 \begin{bmatrix} p^T & s^T \end{bmatrix} Q \begin{bmatrix} p \\ s \end{bmatrix} \right)
+\]
+
+即  
+
+\[
+f(r,g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + p^T Q_{rs} s + s^T Q_{sr} p + s^T Q_{ss} s \big] \right)
+\]
+注意 \(Q_{rs} = Q_{sr}^T\)，所以  
+
+\[
+p^T Q_{rs} s + s^T Q_{sr} p = 2 p^T Q_{rs} s
+\]
+因此指数部分为  
+
+\[
+p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s
+\]
+
+似然函数（给定 \(g\) 即 \(s\) 时，关于 \(r\) 即 \(p\)）：
+
+\[
+L(r|g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \big] \right)
+\]
+由于 \(s\) 固定，\(s^T Q_{ss} s\) 是常数，不影响 \(p\) 的优化。
+
+最大化 \(L(r|g)\) 等价于**最小化指数部分**（因为负指数，指数越小，概率密度越大）：
+
+\[
+\min_p \left[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \right]
+\]
+
+固定 \(s\)（即固定 \(g\)），最大化似然等价于最小化  
+
+\[
+J(p) = p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s
+\]
+对 \(p\) 求导（向量导数）：
+
+\[
+\frac{\partial J}{\partial p} = 2 Q_{rr} p + 2 Q_{rs} s = 0
+\]
+
+\[
+Q_{rr} p + Q_{rs} s = 0
+\]
+
+\[
+p^* = - Q_{rr}^{-1} Q_{rs} s
+\]
+因此  
+
+\[
+r^* = E[r] + p^* = E[r] - Q_{rr}^{-1} Q_{rs} (g - E[g])
+\]
+
+---
+
+### 与线性估计 \(\hat{r}\) 的等价性（式 10A-15）
+
+已知命题 1 给出  
+
+\[
+\hat{r} = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
+\]
+比较 \(r^*\) 与 \(\hat{r}\)，只需证明  
+
+\[
+\text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs}
+\]
+
+
+
+设
+
+\[
+V = \begin{bmatrix}
+V_{rr} & V_{rs} \\
+V_{sr} & V_{ss}
+\end{bmatrix}
+\]
+其中  
+
+\[
+V_{rr} = \text{Var}[r], \quad V_{rs} = \text{Cov}[r,g], \quad V_{sr} = V_{rs}^T, \quad V_{ss} = \text{Var}[g]
+\]
+已知 \(V^{-1} = Q = \begin{bmatrix} Q_{rr} & Q_{rs} \\ Q_{sr} & Q_{ss} \end{bmatrix}\)。
+
+标准分块矩阵求逆公式（当 \(V_{ss}\) 可逆时）：
+
+\[
+Q_{rr} = (V_{rr} - V_{rs} V_{ss}^{-1} V_{sr})^{-1}
+\]
+
+\[
+Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1}
+\]
+
+\[
+Q_{sr} = - V_{ss}^{-1} V_{sr} \, Q_{rr} \quad (\text{不过这里用不到})
+\]
+
+\[
+Q_{ss} = V_{ss}^{-1} + V_{ss}^{-1} V_{sr} \, Q_{rr} \, V_{rs} V_{ss}^{-1}
+\] 
+
+先看这个式子：
+
+\[
+Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1}
+\]
+
+两边左乘 \(- Q_{rr}^{-1}\)：
+
+
+\[
+- Q_{rr}^{-1} Q_{rs} = - Q_{rr}^{-1} \big[ - Q_{rr} \, V_{rs} \, V_{ss}^{-1} \big]
+\]
+
+\[
+- Q_{rr}^{-1} Q_{rs} = Q_{rr}^{-1} Q_{rr} \, V_{rs} \, V_{ss}^{-1}
+\]
+
+因为 \(Q_{rr}^{-1} Q_{rr} = I\)，所以：
+
+
+\[
+- Q_{rr}^{-1} Q_{rs} = I \, V_{rs} \, V_{ss}^{-1} = V_{rs} V_{ss}^{-1}
+\]
+
+化简：  
+
+\[
+- Q_{rr}^{-1} Q_{rs} = V_{rs} V_{ss}^{-1}
+\]
+即  
+
+\[
+\text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs}
+\]
+证毕。
+
+因此 \(r^* = \hat{r}\)，即 \(\hat{r}\) 是已知 \(g\) 时 \(r\) 的 MLE。结论 1 得证。
+
+---
+
+## 结论 2 与 3（条件期望与条件方差）
+
+对于联合正态分布，条件分布 \(r|g\) 也是正态的，且  
+
+\[
+E[r|g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
+\]
+这正是 \(\hat{r}\)，所以结论 2 成立。
+
+条件方差公式：
+
+\[
+\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]
+\]
+这正好是 \(Q_{rr}^{-1}\)（上面已出现），因为  
+
+\[
+Q_{rr}^{-1} = V_{rr} - V_{rs} V_{ss}^{-1} V_{sr}
+\]
+结论 3 得证。
+
+---
+
+## 结论 4（最小均方误差无偏估计）
+
+1. 在联合正态分布下，\(g\) 是 \(r\) 的充分统计量（由因子分解定理）。
+2. 正态分布是指数族，且参数空间包含开集，因此 \(g\) 是完备的充分统计量。
+3. \(\hat{r} = E[r|g]\) 是 \(g\) 的函数，且是无偏估计。
+4. 由 **Lehmann–Scheffé 定理**，如果一个无偏估计是完备充分统计量的函数，那么它是 UMVUE。
+5. 因此 \(\hat{r}\) 是 UMVUE。
--- a/命题2/联合正态分布下的条件期望与条件方差公式.md
+++ b/命题2/联合正态分布下的条件期望与条件方差公式.md
@ -0,0 +1,228 @@
+# 联合正态分布下的条件期望与条件方差公式
+
+## 已知条件与记号
+
+设  
+
+\[
+x = \begin{bmatrix} r \\ g \end{bmatrix}
+\]
+服从联合正态分布，均值向量  
+
+\[
+\mu = \begin{bmatrix} \mu_r \\ \mu_g \end{bmatrix}
+\]
+协方差矩阵  
+
+\[
+\Sigma = \begin{bmatrix}
+\Sigma_{rr} & \Sigma_{rg} \\
+\Sigma_{gr} & \Sigma_{gg}
+\end{bmatrix}
+\]
+其中  
+
+\[
+\Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \Sigma_{rg}^T, \quad \Sigma_{gg} = \text{Var}[g]
+\]
+
+
+---
+
+## 联合分布与精度矩阵
+
+设联合精度矩阵为  
+
+\[
+\Lambda = \Sigma^{-1} = \begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix}
+\]
+
+联合概率密度函数（忽略常数）：  
+
+\[
+p(r, g) \propto \exp\left[ -\frac{1}{2} (x - \mu)^T \Lambda (x - \mu) \right]
+\]
+
+### 展开二次型
+
+令  
+
+\[
+y = r - \mu_r, \quad z = g - \mu_g
+\]
+则  
+
+\[
+(x - \mu) = \begin{bmatrix} y \\ z \end{bmatrix}
+\]
+二次型：  
+
+\[
+(x - \mu)^T \Lambda (x - \mu) 
+= \begin{bmatrix} y^T & z^T \end{bmatrix}
+\begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix}
+\begin{bmatrix} y \\ z \end{bmatrix}
+\]
+
+\[
+= y^T \Lambda_{rr} y + y^T \Lambda_{rg} z + z^T \Lambda_{gr} y + z^T \Lambda_{gg} z
+\]
+因为 \(\Lambda_{gr} = \Lambda_{rg}^T\)，且结果为标量，所以中间两项相等：  
+
+\[
+y^T \Lambda_{rg} z + z^T \Lambda_{gr} y = 2 y^T \Lambda_{rg} z
+\]
+因此：  
+
+\[
+(x - \mu)^T \Lambda (x - \mu) = y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z
+\]
+
+### 固定 \(g\) 时的条件分布
+
+固定 \(g\) 意味着 \(z\) 固定。将上述表达式视为 \(y\) 的函数：  
+
+\[
+p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z \right) \right]
+\]
+与 \(y\) 无关的项 \(z^T \Lambda_{gg} z\) 可提到比例常数中：  
+
+\[
+p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z \right) \right]
+\]
+
+---
+
+## 配方法找条件均值与条件精度
+
+对 \(y\) 的二次型加线性项配方：  
+
+\[
+y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z
+= (y - m)^T \Lambda_{rr} (y - m) - m^T \Lambda_{rr} m
+\]
+其中 \(m\) 满足：  
+
+\[
+\Lambda_{rr} m = - \Lambda_{rg} z
+\]
+即：  
+
+\[
+m = - \Lambda_{rr}^{-1} \Lambda_{rg} z
+\]
+（注意：这里 \(m\) 是给定 \(g\) 时 \(y\) 的条件均值。）
+
+于是：  
+
+\[
+p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
+\]
+因为 \(- m^T \Lambda_{rr} m\) 与 \(y\) 无关，被吸收进归一化常数。
+
+---
+## 条件期望
+
+由于 \(y = r - \mu_r\)，\(z = g - \mu_g\)，且条件分布为：
+
+\[
+p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
+\]
+这表示 \(r \mid g \sim N(\mu_r + m, \Lambda_{rr}^{-1})\)
+
+因此：
+
+\[
+E[r \mid g] = \mu_r + m = \mu_r - \Lambda_{rr}^{-1} \Lambda_{rg} (g - \mu_g)
+\]
+
+### 用分块矩阵求逆公式简化
+
+由分块矩阵求逆公式：
+
+\[
+\Lambda_{rg} = - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1}
+\]
+代入上式：
+
+\[
+E[r \mid g] = \mu_r - \Lambda_{rr}^{-1} ( - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1} ) (g - \mu_g)
+\]
+
+\[
+= \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g)
+\]
+
+###  条件期望公式
+
+
+\[
+E[r \mid g] = \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g)
+\]
+即：
+
+\[
+E[r \mid g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
+\]
+
+
+---
+
+## 条件方差
+由
+
+\[
+p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
+\]
+
+可得：
+- 条件精度矩阵 = \(\Lambda_{rr}\)
+- 条件协方差矩阵 = \((\Lambda_{rr})^{-1}\)
+
+因此：  
+
+\[
+\text{Var}[r \mid g] = \Lambda_{rr}^{-1}
+\]
+
+
+### 分块矩阵求逆公式
+
+已知分块矩阵求逆公式（当 \(\Sigma_{gg}\) 可逆时）：  
+
+\[
+\Lambda_{rr} = (\Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr})^{-1}
+\]
+
+\[
+\Lambda_{rg} = - \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1}
+\]
+
+\[
+\Lambda_{gr} = - \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr}
+\]
+
+\[
+\Lambda_{gg} = \Sigma_{gg}^{-1} + \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1}
+\]
+
+
+### 最终的条件方差公式
+
+由第7步和第8步：  
+
+\[
+\text{Var}[r \mid g] = \Lambda_{rr}^{-1} = \Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr}
+\]
+
+代入原记号：  
+
+\[
+\Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \text{Cov}[g,r], \quad \Sigma_{gg} = \text{Var}[g]
+\]
+因此：  
+
+\[
+\text{Var}[r \mid g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]
+\]
+