diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000..9c35e25 --- /dev/null +++ b/.gitignore @@ -0,0 +1 @@ +t.md \ No newline at end of file diff --git a/P251 命题2/P251 命题2.md b/P251 命题2/P251 命题2.md new file mode 100644 index 0000000..5865b7f --- /dev/null +++ b/P251 命题2/P251 命题2.md @@ -0,0 +1,235 @@ +## 命题 2 的内容 + +假设 \( (r, g) \) 服从联合正态分布,那么: + +1. \(\hat{r}\) 是已知 \(g\) 条件下 \(r\) 的最大似然估计(MLE)。 +2. \(\hat{r} = E[r|g]\)(条件期望)。 +3. \(\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r]\)。 +4. \(\hat{r}\) 在所有无偏估计(不限于线性)中具有最小均方误差。 + +--- + +## 记号与已知公式 + +令 + +\[ +p = r - E[r], \quad s = g - E[g] +\] +联合向量 + +\[ +x = \begin{bmatrix} p \\ s \end{bmatrix} +\] +协方差矩阵 + +\[ +V = \text{Var} \begin{bmatrix} p \\ s \end{bmatrix} += \begin{bmatrix} +\text{Var}[r] & \text{Cov}[r, g] \\ +\text{Cov}[g, r] & \text{Var}[g] +\end{bmatrix} +\] +记 + +\[ +V^{-1} = Q = \begin{bmatrix} +Q_{rr} & Q_{rs} \\ +Q_{sr} & Q_{ss} +\end{bmatrix} +\] +其中 \(Q_{rr}\) 是 \(N\times N\),\(Q_{ss}\) 是 \(K\times K\) 等。 + +--- + +## 最大似然估计(结论 1) + +\[ +x = \begin{bmatrix} p \\ s \end{bmatrix} +\] +服从均值 \(0\)、协方差矩阵 \(V\) 的多元正态分布,其概率密度函数为: + +\[ +f(x) = \frac{1}{\sqrt{(2\pi)^{N+K} \det(V)}} \exp\left( -\frac12 \, x^T V^{-1} x \right) +\] +其中 \(V^{-1} = Q\)。 + +因此联合密度: + +\[ +f(p,s) \propto \exp\left( -\frac12 \begin{bmatrix} p^T & s^T \end{bmatrix} Q \begin{bmatrix} p \\ s \end{bmatrix} \right) +\] + +即 + +\[ +f(r,g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + p^T Q_{rs} s + s^T Q_{sr} p + s^T Q_{ss} s \big] \right) +\] +注意 \(Q_{rs} = Q_{sr}^T\),所以 + +\[ +p^T Q_{rs} s + s^T Q_{sr} p = 2 p^T Q_{rs} s +\] +因此指数部分为 + +\[ +p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s +\] + +似然函数(给定 \(g\) 即 \(s\) 时,关于 \(r\) 即 \(p\)): + +\[ +L(r|g) \propto \exp\left( -\frac12 \big[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \big] \right) +\] +由于 \(s\) 固定,\(s^T Q_{ss} s\) 是常数,不影响 \(p\) 的优化。 + +最大化 \(L(r|g)\) 等价于**最小化指数部分**(因为负指数,指数越小,概率密度越大): + +\[ +\min_p \left[ p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s \right] +\] + +固定 \(s\)(即固定 \(g\)),最大化似然等价于最小化 + +\[ +J(p) = p^T Q_{rr} p + 2 p^T Q_{rs} s + s^T Q_{ss} s +\] +对 \(p\) 求导(向量导数): + +\[ +\frac{\partial J}{\partial p} = 2 Q_{rr} p + 2 Q_{rs} s = 0 +\] + +\[ +Q_{rr} p + Q_{rs} s = 0 +\] + +\[ +p^* = - Q_{rr}^{-1} Q_{rs} s +\] +因此 + +\[ +r^* = E[r] + p^* = E[r] - Q_{rr}^{-1} Q_{rs} (g - E[g]) +\] + +--- + +### 与线性估计 \(\hat{r}\) 的等价性(式 10A-15) + +已知命题 1 给出 + +\[ +\hat{r} = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g]) +\] +比较 \(r^*\) 与 \(\hat{r}\),只需证明 + +\[ +\text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs} +\] + + + +设 + +\[ +V = \begin{bmatrix} +V_{rr} & V_{rs} \\ +V_{sr} & V_{ss} +\end{bmatrix} +\] +其中 + +\[ +V_{rr} = \text{Var}[r], \quad V_{rs} = \text{Cov}[r,g], \quad V_{sr} = V_{rs}^T, \quad V_{ss} = \text{Var}[g] +\] +已知 \(V^{-1} = Q = \begin{bmatrix} Q_{rr} & Q_{rs} \\ Q_{sr} & Q_{ss} \end{bmatrix}\)。 + +标准分块矩阵求逆公式(当 \(V_{ss}\) 可逆时): + +\[ +Q_{rr} = (V_{rr} - V_{rs} V_{ss}^{-1} V_{sr})^{-1} +\] + +\[ +Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1} +\] + +\[ +Q_{sr} = - V_{ss}^{-1} V_{sr} \, Q_{rr} \quad (\text{不过这里用不到}) +\] + +\[ +Q_{ss} = V_{ss}^{-1} + V_{ss}^{-1} V_{sr} \, Q_{rr} \, V_{rs} V_{ss}^{-1} +\] + +先看这个式子: + +\[ +Q_{rs} = - Q_{rr} \, V_{rs} \, V_{ss}^{-1} +\] + +两边左乘 \(- Q_{rr}^{-1}\): + + +\[ +- Q_{rr}^{-1} Q_{rs} = - Q_{rr}^{-1} \big[ - Q_{rr} \, V_{rs} \, V_{ss}^{-1} \big] +\] + +\[ +- Q_{rr}^{-1} Q_{rs} = Q_{rr}^{-1} Q_{rr} \, V_{rs} \, V_{ss}^{-1} +\] + +因为 \(Q_{rr}^{-1} Q_{rr} = I\),所以: + + +\[ +- Q_{rr}^{-1} Q_{rs} = I \, V_{rs} \, V_{ss}^{-1} = V_{rs} V_{ss}^{-1} +\] + +化简: + +\[ +- Q_{rr}^{-1} Q_{rs} = V_{rs} V_{ss}^{-1} +\] +即 + +\[ +\text{Cov}[r,g] \cdot \text{Var}^{-1}[g] = - Q_{rr}^{-1} Q_{rs} +\] +证毕。 + +因此 \(r^* = \hat{r}\),即 \(\hat{r}\) 是已知 \(g\) 时 \(r\) 的 MLE。结论 1 得证。 + +--- + +## 结论 2 与 3(条件期望与条件方差) + +对于联合正态分布,条件分布 \(r|g\) 也是正态的,且 + +\[ +E[r|g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g]) +\] +这正是 \(\hat{r}\),所以结论 2 成立。 + +条件方差公式: + +\[ +\text{Var}[r|g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r] +\] +这正好是 \(Q_{rr}^{-1}\)(上面已出现),因为 + +\[ +Q_{rr}^{-1} = V_{rr} - V_{rs} V_{ss}^{-1} V_{sr} +\] +结论 3 得证。 + +--- + +## 结论 4(最小均方误差无偏估计) + +1. 在联合正态分布下,\(g\) 是 \(r\) 的充分统计量(由因子分解定理)。 +2. 正态分布是指数族,且参数空间包含开集,因此 \(g\) 是完备的充分统计量。 +3. \(\hat{r} = E[r|g]\) 是 \(g\) 的函数,且是无偏估计。 +4. 由 **Lehmann–Scheffé 定理**,如果一个无偏估计是完备充分统计量的函数,那么它是 UMVUE。 +5. 因此 \(\hat{r}\) 是 UMVUE。 diff --git a/P251 命题2/联合正态分布下的条件期望与条件方差公式.md b/P251 命题2/联合正态分布下的条件期望与条件方差公式.md new file mode 100644 index 0000000..a9a1895 --- /dev/null +++ b/P251 命题2/联合正态分布下的条件期望与条件方差公式.md @@ -0,0 +1,228 @@ +# 联合正态分布下的条件期望与条件方差公式 + +## 已知条件与记号 + +设 + +\[ +x = \begin{bmatrix} r \\ g \end{bmatrix} +\] +服从联合正态分布,均值向量 + +\[ +\mu = \begin{bmatrix} \mu_r \\ \mu_g \end{bmatrix} +\] +协方差矩阵 + +\[ +\Sigma = \begin{bmatrix} +\Sigma_{rr} & \Sigma_{rg} \\ +\Sigma_{gr} & \Sigma_{gg} +\end{bmatrix} +\] +其中 + +\[ +\Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \Sigma_{rg}^T, \quad \Sigma_{gg} = \text{Var}[g] +\] + + +--- + +## 联合分布与精度矩阵 + +设联合精度矩阵为 + +\[ +\Lambda = \Sigma^{-1} = \begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix} +\] + +联合概率密度函数(忽略常数): + +\[ +p(r, g) \propto \exp\left[ -\frac{1}{2} (x - \mu)^T \Lambda (x - \mu) \right] +\] + +### 展开二次型 + +令 + +\[ +y = r - \mu_r, \quad z = g - \mu_g +\] +则 + +\[ +(x - \mu) = \begin{bmatrix} y \\ z \end{bmatrix} +\] +二次型: + +\[ +(x - \mu)^T \Lambda (x - \mu) += \begin{bmatrix} y^T & z^T \end{bmatrix} +\begin{bmatrix} \Lambda_{rr} & \Lambda_{rg} \\ \Lambda_{gr} & \Lambda_{gg} \end{bmatrix} +\begin{bmatrix} y \\ z \end{bmatrix} +\] + +\[ += y^T \Lambda_{rr} y + y^T \Lambda_{rg} z + z^T \Lambda_{gr} y + z^T \Lambda_{gg} z +\] +因为 \(\Lambda_{gr} = \Lambda_{rg}^T\),且结果为标量,所以中间两项相等: + +\[ +y^T \Lambda_{rg} z + z^T \Lambda_{gr} y = 2 y^T \Lambda_{rg} z +\] +因此: + +\[ +(x - \mu)^T \Lambda (x - \mu) = y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z +\] + +### 固定 \(g\) 时的条件分布 + +固定 \(g\) 意味着 \(z\) 固定。将上述表达式视为 \(y\) 的函数: + +\[ +p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z + z^T \Lambda_{gg} z \right) \right] +\] +与 \(y\) 无关的项 \(z^T \Lambda_{gg} z\) 可提到比例常数中: + +\[ +p(r \mid g) \propto \exp\left[ -\frac12 \left( y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z \right) \right] +\] + +--- + +## 配方法找条件均值与条件精度 + +对 \(y\) 的二次型加线性项配方: + +\[ +y^T \Lambda_{rr} y + 2 y^T \Lambda_{rg} z += (y - m)^T \Lambda_{rr} (y - m) - m^T \Lambda_{rr} m +\] +其中 \(m\) 满足: + +\[ +\Lambda_{rr} m = - \Lambda_{rg} z +\] +即: + +\[ +m = - \Lambda_{rr}^{-1} \Lambda_{rg} z +\] +(注意:这里 \(m\) 是给定 \(g\) 时 \(y\) 的条件均值。) + +于是: + +\[ +p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right] +\] +因为 \(- m^T \Lambda_{rr} m\) 与 \(y\) 无关,被吸收进归一化常数。 + +--- +## 条件期望 + +由于 \(y = r - \mu_r\),\(z = g - \mu_g\),且条件分布为: + +\[ +p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right] +\] +这表示 \(r \mid g \sim N(\mu_r + m, \Lambda_{rr}^{-1})\) + +因此: + +\[ +E[r \mid g] = \mu_r + m = \mu_r - \Lambda_{rr}^{-1} \Lambda_{rg} (g - \mu_g) +\] + +### 用分块矩阵求逆公式简化 + +由分块矩阵求逆公式: + +\[ +\Lambda_{rg} = - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1} +\] +代入上式: + +\[ +E[r \mid g] = \mu_r - \Lambda_{rr}^{-1} ( - \Lambda_{rr} \Sigma_{rg} \Sigma_{gg}^{-1} ) (g - \mu_g) +\] + +\[ += \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g) +\] + +### 条件期望公式 + + +\[ +E[r \mid g] = \mu_r + \Sigma_{rg} \Sigma_{gg}^{-1} (g - \mu_g) +\] +即: + +\[ +E[r \mid g] = E[r] + \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot (g - E[g]) +\] + + +--- + +## 条件方差 +由 + +\[ +p(r \mid g) \propto \exp\left[ -\frac12 (y - m)^T \Lambda_{rr} (y - m) \right] +\] + +可得: +- 条件精度矩阵 = \(\Lambda_{rr}\) +- 条件协方差矩阵 = \((\Lambda_{rr})^{-1}\) + +因此: + +\[ +\text{Var}[r \mid g] = \Lambda_{rr}^{-1} +\] + + +### 分块矩阵求逆公式 + +已知分块矩阵求逆公式(当 \(\Sigma_{gg}\) 可逆时): + +\[ +\Lambda_{rr} = (\Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr})^{-1} +\] + +\[ +\Lambda_{rg} = - \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1} +\] + +\[ +\Lambda_{gr} = - \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr} +\] + +\[ +\Lambda_{gg} = \Sigma_{gg}^{-1} + \Sigma_{gg}^{-1} \Sigma_{gr} \, \Lambda_{rr} \, \Sigma_{rg} \, \Sigma_{gg}^{-1} +\] + + +### 最终的条件方差公式 + +由第7步和第8步: + +\[ +\text{Var}[r \mid g] = \Lambda_{rr}^{-1} = \Sigma_{rr} - \Sigma_{rg} \Sigma_{gg}^{-1} \Sigma_{gr} +\] + +代入原记号: + +\[ +\Sigma_{rr} = \text{Var}[r], \quad \Sigma_{rg} = \text{Cov}[r,g], \quad \Sigma_{gr} = \text{Cov}[g,r], \quad \Sigma_{gg} = \text{Var}[g] +\] +因此: + +\[ +\text{Var}[r \mid g] = \text{Var}[r] - \text{Cov}[r,g] \cdot \text{Var}^{-1}[g] \cdot \text{Cov}[g,r] +\] +