P251 命题2

2025-10-29 08:56:11 +08:00
parent f5f0f13f5f
commit 29f5e082d9
3 changed files with 464 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
 t.md
--- a/命题2/P251
+++ b/命题2/P251
@ -0,0 +1,235 @@
 ## 命题 2 的内容
 假设 \( (r, g) \) 服从联合正态分布，那么：
 1. \(\hat{r}\) 是已知 \(g\) 条件下 \(r\) 的最大似然估计（MLE）。  
 2. \(\hat{r} = E[r|g]\)（条件期望）。  
 3. \(\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]\)。  
 4. \(\hat{r}\) 在所有无偏估计（不限于线性）中具有最小均方误差。
 ---
 ## 记号与已知公式
 令  
 \[
 p = r - E[r], \quad s = g - E[g]
 \]  
 联合向量  
 \[
 x = \begin{bmatrix} p \\ s \end{bmatrix}
 \]  
 协方差矩阵  
 \[
 V = \text{Var} \begin{bmatrix} p \\ s \end{bmatrix}
 = \begin{bmatrix}
 \text{Var}[r] & \text{Cov}[r, g] \\
 \text{Cov}[g, r] & \text{Var}[g]
 \end{bmatrix}
 \]
 记  
 \[
 V^{-1} = Q = \begin{bmatrix}
 Q_{rr} & Q_{rs} \\
 Q_{sr} & Q_{ss}
 \end{bmatrix}
 \]
 其中 \(Q_{rr}\) 是 \(N\times N\)，\(Q_{ss}\) 是 \(K\times K\) 等。
 ---
 ## 最大似然估计（结论 1）
 \[
 x = \begin{bmatrix} p \\ s \end{bmatrix}
 \]
 服从均值 \(0\)、协方差矩阵 \(V\) 的多元正态分布，其概率密度函数为：  
 \[
 f(x) = \frac{1}{\sqrt{(2\pi)^{N+K} \det(V)}} \exp\left( -\frac12 \, x^T V^{-1} x \right)
 \]
 其中 \(V^{-1} = Q\)。
 因此联合密度：
 \[
 f(p,s) \propto \exp\left( -\frac12 \begin{bmatrix} p^T & s^T \end{bmatrix} Q \begin{bmatrix} p \\ s \end{bmatrix} \right)
 \]
 即  
 \[
 f(r,g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + p^T Q_{rs} s + s^T Q_{sr} p + s^T Q_{ss} s \big] \right)
 \]
 注意 \(Q_{rs} = Q_{sr}^T\)，所以  
 \[
 p^T Q_{rs} s + s^T Q_{sr} p = 2 p^T Q_{rs} s
 \]
 因此指数部分为  
 \[
 p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s
 \]
 似然函数（给定 \(g\) 即 \(s\) 时，关于 \(r\) 即 \(p\)）：
 \[
 L(r|g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \big] \right)
 \]
 由于 \(s\) 固定，\(s^T Q_{ss} s\) 是常数，不影响 \(p\) 的优化。
 最大化 \(L(r|g)\) 等价于**最小化指数部分**（因为负指数，指数越小，概率密度越大）：
 \[
 \min_p \left[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \right]
 \]
 固定 \(s\)（即固定 \(g\)），最大化似然等价于最小化  
 \[
 J(p) = p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s
 \]
 对 \(p\) 求导（向量导数）：
 \[
 \frac{\partial J}{\partial p} = 2 Q_{rr} p + 2 Q_{rs} s = 0
 \]
 \[
 Q_{rr} p + Q_{rs} s = 0
 \]
 \[
 p^* = - Q_{rr}^{-1} Q_{rs} s
 \]
 因此  
 \[
 r^* = E[r] + p^* = E[r] - Q_{rr}^{-1} Q_{rs} (g - E[g])
 \]
 ---
 ### 与线性估计 \(\hat{r}\) 的等价性（式 10A-15）
 已知命题 1 给出  
 \[
 \hat{r} = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
 \]
 比较 \(r^*\) 与 \(\hat{r}\)，只需证明  
 \[
 \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs}
 \]
 设
 \[
 V = \begin{bmatrix}
 V_{rr} & V_{rs} \\
 V_{sr} & V_{ss}
 \end{bmatrix}
 \]
 其中  
 \[
 V_{rr} = \text{Var}[r], \quad V_{rs} = \text{Cov}[r,g], \quad V_{sr} = V_{rs}^T, \quad V_{ss} = \text{Var}[g]
 \]
 已知 \(V^{-1} = Q = \begin{bmatrix} Q_{rr} & Q_{rs} \\ Q_{sr} & Q_{ss} \end{bmatrix}\)。
 标准分块矩阵求逆公式（当 \(V_{ss}\) 可逆时）：
 \[
 Q_{rr} = (V_{rr} - V_{rs} V_{ss}^{-1} V_{sr})^{-1}
 \]
 \[
 Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1}
 \]
 \[
 Q_{sr} = - V_{ss}^{-1} V_{sr} \, Q_{rr} \quad (\text{不过这里用不到})
 \]
 \[
 Q_{ss} = V_{ss}^{-1} + V_{ss}^{-1} V_{sr} \, Q_{rr} \, V_{rs} V_{ss}^{-1}
 \] 
 先看这个式子：
 \[
 Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1}
 \]
 两边左乘 \(- Q_{rr}^{-1}\)：
 \[
 - Q_{rr}^{-1} Q_{rs} = - Q_{rr}^{-1} \big[ - Q_{rr} \, V_{rs} \, V_{ss}^{-1} \big]
 \]
 \[
 - Q_{rr}^{-1} Q_{rs} = Q_{rr}^{-1} Q_{rr} \, V_{rs} \, V_{ss}^{-1}
 \]
 因为 \(Q_{rr}^{-1} Q_{rr} = I\)，所以：
 \[
 - Q_{rr}^{-1} Q_{rs} = I \, V_{rs} \, V_{ss}^{-1} = V_{rs} V_{ss}^{-1}
 \]
 化简：  
 \[
 - Q_{rr}^{-1} Q_{rs} = V_{rs} V_{ss}^{-1}
 \]
 即  
 \[
 \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs}
 \]
 证毕。
 因此 \(r^* = \hat{r}\)，即 \(\hat{r}\) 是已知 \(g\) 时 \(r\) 的 MLE。结论 1 得证。
 ---
 ## 结论 2 与 3（条件期望与条件方差）
 对于联合正态分布，条件分布 \(r|g\) 也是正态的，且  
 \[
 E[r|g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
 \]
 这正是 \(\hat{r}\)，所以结论 2 成立。
 条件方差公式：
 \[
 \text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]
 \]
 这正好是 \(Q_{rr}^{-1}\)（上面已出现），因为  
 \[
 Q_{rr}^{-1} = V_{rr} - V_{rs} V_{ss}^{-1} V_{sr}
 \]
 结论 3 得证。
 ---
 ## 结论 4（最小均方误差无偏估计）
 1. 在联合正态分布下，\(g\) 是 \(r\) 的充分统计量（由因子分解定理）。
 2. 正态分布是指数族，且参数空间包含开集，因此 \(g\) 是完备的充分统计量。
 3. \(\hat{r} = E[r|g]\) 是 \(g\) 的函数，且是无偏估计。
 4. 由 **Lehmann–Scheffé 定理**，如果一个无偏估计是完备充分统计量的函数，那么它是 UMVUE。
 5. 因此 \(\hat{r}\) 是 UMVUE。
--- a/命题2/联合正态分布下的条件期望与条件方差公式.md
+++ b/命题2/联合正态分布下的条件期望与条件方差公式.md
@ -0,0 +1,228 @@
 # 联合正态分布下的条件期望与条件方差公式
 ## 已知条件与记号
 设  
 \[
 x = \begin{bmatrix} r \\ g \end{bmatrix}
 \]
 服从联合正态分布，均值向量  
 \[
 \mu = \begin{bmatrix} \mu_r \\ \mu_g \end{bmatrix}
 \]
 协方差矩阵  
 \[
 \Sigma = \begin{bmatrix}
 \Sigma_{rr} & \Sigma_{rg} \\
 \Sigma_{gr} & \Sigma_{gg}
 \end{bmatrix}
 \]
 其中  
 \[
 \Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \Sigma_{rg}^T, \quad \Sigma_{gg} = \text{Var}[g]
 \]
 ---
 ## 联合分布与精度矩阵
 设联合精度矩阵为  
 \[
 \Lambda = \Sigma^{-1} = \begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix}
 \]
 联合概率密度函数（忽略常数）：  
 \[
 p(r, g) \propto \exp\left[ -\frac{1}{2} (x - \mu)^T \Lambda (x - \mu) \right]
 \]
 ### 展开二次型
 令  
 \[
 y = r - \mu_r, \quad z = g - \mu_g
 \]
 则  
 \[
 (x - \mu) = \begin{bmatrix} y \\ z \end{bmatrix}
 \]
 二次型：  
 \[
 (x - \mu)^T \Lambda (x - \mu) 
 = \begin{bmatrix} y^T & z^T \end{bmatrix}
 \begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix}
 \begin{bmatrix} y \\ z \end{bmatrix}
 \]
 \[
 = y^T \Lambda_{rr} y + y^T \Lambda_{rg} z + z^T \Lambda_{gr} y + z^T \Lambda_{gg} z
 \]
 因为 \(\Lambda_{gr} = \Lambda_{rg}^T\)，且结果为标量，所以中间两项相等：  
 \[
 y^T \Lambda_{rg} z + z^T \Lambda_{gr} y = 2 y^T \Lambda_{rg} z
 \]
 因此：  
 \[
 (x - \mu)^T \Lambda (x - \mu) = y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z
 \]
 ### 固定 \(g\) 时的条件分布
 固定 \(g\) 意味着 \(z\) 固定。将上述表达式视为 \(y\) 的函数：  
 \[
 p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z \right) \right]
 \]
 与 \(y\) 无关的项 \(z^T \Lambda_{gg} z\) 可提到比例常数中：  
 \[
 p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z \right) \right]
 \]
 ---
 ## 配方法找条件均值与条件精度
 对 \(y\) 的二次型加线性项配方：  
 \[
 y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z
 = (y - m)^T \Lambda_{rr} (y - m) - m^T \Lambda_{rr} m
 \]
 其中 \(m\) 满足：  
 \[
 \Lambda_{rr} m = - \Lambda_{rg} z
 \]
 即：  
 \[
 m = - \Lambda_{rr}^{-1} \Lambda_{rg} z
 \]
 （注意：这里 \(m\) 是给定 \(g\) 时 \(y\) 的条件均值。）
 于是：  
 \[
 p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
 \]
 因为 \(- m^T \Lambda_{rr} m\) 与 \(y\) 无关，被吸收进归一化常数。
 ---
 ## 条件期望
 由于 \(y = r - \mu_r\)，\(z = g - \mu_g\)，且条件分布为：
 \[
 p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
 \]
 这表示 \(r \mid g \sim N(\mu_r + m, \Lambda_{rr}^{-1})\)
 因此：
 \[
 E[r \mid g] = \mu_r + m = \mu_r - \Lambda_{rr}^{-1} \Lambda_{rg} (g - \mu_g)
 \]
 ### 用分块矩阵求逆公式简化
 由分块矩阵求逆公式：
 \[
 \Lambda_{rg} = - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1}
 \]
 代入上式：
 \[
 E[r \mid g] = \mu_r - \Lambda_{rr}^{-1} ( - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1} ) (g - \mu_g)
 \]
 \[
 = \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g)
 \]
 ###  条件期望公式
 \[
 E[r \mid g] = \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g)
 \]
 即：
 \[
 E[r \mid g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g])
 \]
 ---
 ## 条件方差
 由
 \[
 p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right]
 \]
 可得：
 - 条件精度矩阵 = \(\Lambda_{rr}\)
 - 条件协方差矩阵 = \((\Lambda_{rr})^{-1}\)
 因此：  
 \[
 \text{Var}[r \mid g] = \Lambda_{rr}^{-1}
 \]
 ### 分块矩阵求逆公式
 已知分块矩阵求逆公式（当 \(\Sigma_{gg}\) 可逆时）：  
 \[
 \Lambda_{rr} = (\Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr})^{-1}
 \]
 \[
 \Lambda_{rg} = - \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1}
 \]
 \[
 \Lambda_{gr} = - \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr}
 \]
 \[
 \Lambda_{gg} = \Sigma_{gg}^{-1} + \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1}
 \]
 ### 最终的条件方差公式
 由第7步和第8步：  
 \[
 \text{Var}[r \mid g] = \Lambda_{rr}^{-1} = \Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr}
 \]
 代入原记号：  
 \[
 \Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \text{Cov}[g,r], \quad \Sigma_{gg} = \text{Var}[g]
 \]
 因此：  
 \[
 \text{Var}[r \mid g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]
 \]