跳转至

第二章补充 微分熵

微分熵预备知识

定义

  1. 随机变量 \(X\) 的均值 \(\mu\)

    • 定义为

      \[ \mu = E(X)=\int xf(x)dx \]

      其中 \(f(x)\)\(X\) 的概率密度函数。

  2. 随机变量 \(X\) 的方差

    • 定义为

      \[ \begin{align *} Var(X)&=E(X - EX)^2 \\ &= E(X - \mu)^2\\ &=E(X^{2}-2X\mu+\mu^{2})\\ &=E(X^{2})-\mu^{2} \end{align*} \]
  3. 两个随机变量 \(X\)\(Y\) 之间的协方差

    • 定义为
    \[ Cov(X,Y)=E(X - EX)(Y - EY)=E(XY)-\mu_X\mu_Y \]
  4. 对于随机变量 \(\vec{X_{}}=[X_1,X_2,\cdots,X_n]^T\)(列向量)

    • 协方差矩阵 定义为

      \[ K_{\vec{X_{}}}=E(\vec{X_{}}-E\vec{X_{}})(\vec{X_{}}-E\vec{X_{}})^T = [Cov(X_i,X_j)] \]
    • 相关矩阵 定义为

      \[ \widetilde{K}_{\vec{X_{}}}=E(\vec{X_{}}\vec{X_{}}^T)=[E(X_iX_j)] \]
    • \(E(\vec{X_{}})=\vec{\mu_{}}=\vec{0_{}}\),则 \(K_{\vec{X_{}}}=\widetilde{K}_{\vec{X_{}}}\)

  5. 高斯分布

  6. \(N(\mu,\sigma^{2})\) 表示均值为 \(\mu\),方差为 \(\sigma^{2}\)高斯(正态)分布,即它的概率密度函数为

    \[ f(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\frac{(x - \mu)^{2}}{2\sigma^{2}}} \]
  7. \(N(\vec{\mu_{}},K)\) 表示均值为 \(\vec{\mu_{}}\),协方差矩阵为 \(K\)多元高斯分布,即对所有的 \(\vec{x_{}}\in R^n\),其联合概率密度函数为

    \[ f(\vec{x_{}})=\frac{1}{(\sqrt{2\pi})^n|K|^{\frac{1}{2}}}e^{-\frac{1}{2}(\vec{x_{}}-\vec{\mu_{}})^TK^{-1}(\vec{x_{}}-\vec{\mu_{}})} \]

    其中 \(|K|\) 表示 \(K\) 的行列式值,\(K\) 是正定对称矩阵。

基本结论

  • 以下是关于矩阵和随机变量的线性变换的基本结论。所有的量和相关矩阵都假定为实值

定义

  • 定义(对称矩阵):如果 \(K^T = K\),则称矩阵 \(K\) 是对称的。
  • 定义(正定矩阵)
    • 一个 \(n\times n\) 矩阵 \(K\),如果对所有非零 \(n\) 维列向量 \(\vec{x_{}}\)\(\vec{x_{}}^TK\vec{x_{}}>0\) 成立,则称矩阵 \(K\) 为正定的;
    • 如果对所有 \(n\) 维列向量 \(\vec{x_{}}\)\(\vec{x_{}}^TK\vec{x_{}}\geq0\) 成立,则称矩阵 \(K\) 为半正定的。

命题

  1. 命题 1

    • 协方差(相关)矩阵是对称且半正定的。
    • 如果矩阵 \(K\) 是对称的,则它可以对角化为 \(K = Q\Lambda Q^T\)。 其中,\(\Lambda\) 是对角矩阵,\(Q\)\(Q^T\) 是正交矩阵,即 \(Q^{-1}=Q^T\)\(\vert Q\vert=\vert Q^T\vert = 1\)\(QQ^T = I\)
    \[ KQ=(Q\Lambda Q^T)Q = Q\Lambda(Q^TQ)=Q\Lambda \]

    \(\lambda_i\) 表示 \(\Lambda\) 的第 \(i\) 个对角元素,\(\vec{q_{i}}\) 表示 \(Q\) 的第 \(i\) 列,则:

    \[ \begin{align *} &K[\vec{q_{1}},\vec{q_{2}},\cdots,\vec{q_{n}}]=[\vec{q_{1}},\vec{q_{2}},\cdots,\vec{q_{n}}]\begin{bmatrix}\lambda_1& & \\ &\ddots& \\ & &\lambda_n\end{bmatrix}\\ &K\vec{q_{i}}=\lambda_i\vec{q_{i}} \end{align*} \]

    \(\vec{q_{i}}\) 是矩阵 \(K\) 对应于特征值 \(\lambda_i\) 的特征向量。

  2. 命题 2

    • 半正定矩阵的特征值是非负的
    • 证明: 令 \(K\) 表示一个半正定矩阵,\(\vec{u_{}}\) 是矩阵 \(K\) 对应于特征值 \(\lambda\) 的特征向量,即

      \[ K\vec{u_{}}=\lambda\vec{u_{}} \]

      由于 \(K\) 是半正定的,有

      \[ \vec{u_{}}^TK\vec{u_{}}=\vec{u_{}}^T\lambda\vec{u_{}}=\lambda\vec{u_{}}^T\vec{u_{}}\geq0 \]

      又因为 \(\vec{u_{}}^T\vec{u_{}}>0\),所以有 \(\lambda\geq0\)

  3. 命题 3

    • \(\vec{Y_{}} = A\vec{X_{}}\),其中 \(\vec{X_{}}\)\(\vec{Y_{}}\) 均为由几个随机变量构成的列向量,\(A\)\(m\times n\) 矩阵,则

      \[ K_{\vec{Y_{}}} = AK_{\vec{X_{}}}A^T \]

      \[ \widetilde{K}_{\vec{Y_{}}} = A\widetilde{K}_{\vec{X_{}}}A^T \]
    • 证明

      \[ \begin{align *} K_{\vec{Y_{}}}&=E(\vec{Y_{}}-E\vec{Y_{}})(\vec{Y_{}}-E\vec{Y_{}})^T\\ &=E[A(\vec{X_{}}-E\vec{X_{}})][A(\vec{X_{}}-E\vec{X_{}})]^T\\ &=E[A(\vec{X_{}}-E\vec{X_{}})(\vec{X_{}}-E\vec{X_{}})^TA^T]\\ &=A[E(\vec{X_{}}-E\vec{X_{}})(\vec{X_{}}-E\vec{X_{}})^T]A^T\\ &=AK_{\vec{X_{}}}A^T \end{align*} \]
  4. 命题 4

    • \(\vec{X_{}}\)\(\vec{Y_{}}\) 均为由 \(n\) 个随机变量构成的列向量,且满足

      \[ \vec{Y_{}} = Q^T\vec{X_{}} \]

      其中 \(Q\Lambda Q^T\)\(K_{\vec{X_{}}}\)\(\vec{X_{}}\) 的协方差矩阵)的一个对角化。则有

      \[ K_{\vec{Y_{}}}=\Lambda \]

      \(\vec{Y_{}}\) 中的随机变量是不相关的,且 \(Var(Y_i)=\lambda_i\)\(\lambda_i\)\(\Lambda\) 的第 \(i\) 个对角元素。

    • 证明

      \[ \begin{align *} K_{\vec{Y_{}}}&=Q^TK_{\vec{X_{}}}Q\\ &=Q^T(Q\Lambda Q^T)Q\\ &=(Q^TQ)\Lambda(Q^TQ)\\ &=\Lambda \end{align*} \]
    • 推论:设 \(\vec{X_{}}\) 是由 \(n\) 个随机变量构成的列向量,且 \(Q\Lambda Q^T\)\(K_{\vec{X_{}}}\) 的一个对角化,则

      \[ \vec{X_{}}=Q\vec{Y_{}} \]

      其中 \(\vec{Y_{}}=Q^T\vec{X_{}}\) 是由 \(n\) 个不相关的随机变量构成的列向量。

      • 证明:

        \[ \vec{X_{}}=QQ^T\vec{X_{}}=Q(Q^T\vec{X_{}})=Q\vec{Y_{}} \]
  5. 命题 5

    • \(\vec{X_{}}\)\(\vec{Y_{}}\)\(\vec{Z_{}}\) 是由 \(n\) 个随机变量构成的列向量,\(\vec{X_{}}\)\(\vec{Z_{}}\) 相互独立,且 \(\vec{Y_{}}=\vec{X_{}}+\vec{Z_{}}\),则

      \[ K_{\vec{Y_{}}} = K_{\vec{X_{}}} + K_{\vec{Z_{}}} \]
  6. 命题 6

    • \(\vec{Y_{}}=Q\vec{X_{}}\),其中 \(\vec{X_{}}\)\(\vec{Y_{}}\) 是由 \(n\) 个随机变量构成的列向量,\(Q\) 是一个正交矩阵,则

      \[ E(\sum_{i = 1}^{n}Y_{i}^{2}) = E(\sum_{i = 1}^{n}X_{i}^{2}) \]

      即随机变量的总能量在正交变换下不变

    • 证明

      \[ \begin{align *} \sum_{i = 1}^{n}Y_{i}^{2}&=\vec{Y_{}}^T\vec{Y_{}}\\ &=(Q\vec{X_{}})^T(Q\vec{X_{}})\\ &=\vec{X_{}}^TQ^TQ\vec{X_{}}\\ &=\vec{X_{}}^T\vec{X_{}}\\ &=\sum_{i = 1}^{n}X_{i}^{2} \end{align*} \]

      上式两边取期望,得证。

微分熵

微分熵

  1. 定义 一个概率密度函数为 \(f(x)\) 的连续随机变量 \(X\) 的微分熵 \(h(X)\) 定义为

    \[ h(X)=-\int_{S} f(x)\log f(x)dx=-E\log f(x) \]

    其中 \(S\)\(X\) 的支撑集,即(\(f(x)>0\)\(x\in S\)),\(h(x)\) 单位为 \(bit\)

  2. 均匀分布\(X\sim U(a,b)\), 即 \(X\) 服从 \([a,b]\) 上的均匀分布,则

    \[ h(X)=-\int_{a}^{b}\frac{1}{b-a}\log\frac{1}{b-a}dx = \log (b-a) \]

    \(b - a < 1\),则 \(h(X)<0\),因此微分熵可以为负。

  3. 正态分布/高斯分布\(X\sim N(\mu,\sigma^{2})\)\(f(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}\)

    \[ \begin{align *} h(X)&=-\int f(x)\log f(x)dx\\ &=-\int f(x)\left(-\log\sqrt{2\pi\sigma^{2}}-\frac{x^{2}}{2\sigma^{2}}\log e\right)dx\\ &=\frac{1}{2}\log(2\pi\sigma^{2})\int f(x)dx+\frac{\log e}{2\sigma^{2}}\int x^{2}f(x)dx\\ &=\frac{1}{2}\log(2\pi\sigma^{2})+\frac{1}{2}\log e\\ &=\frac{1}{2}\log(2\pi e\sigma^{2}) \end{align*} \]

    其中

    \[ \sigma^{2} = Var(X)=E(X - E(X))^{2}=\int (x-\mu)^{2}f(x)dx \]

    \(X\sim N(0,\sigma^{2})\)\(f(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\frac{x^{2}}{2\sigma^{2}}}\) ,则有 \(h(X)=\frac{1}{2}\log(2\pi e\sigma^{2})\) 其中

    \[ \sigma^{2} = Var(X) = \int x^{2}f(x)dx \]
  4. 平移性质

    \[ h(X + c)=h(X) \]
    • 图示
    • 证明: 令 \(Y = X + c\),则 \(f_Y(y)=f_X(y - c)\) ,且 \(S_Y=\{x + c:x\in S_X\}\)\(x = y - c\) 代入下式:

      \[ \begin{align *} h(X)&=-\int_{S_X}f_X(x)\log f_X(x)dx\\ &=-\int_{S_Y}f_X(y - c)\log f_X(y - c)dy\\ &=-\int_{S_Y}f_Y(y)\log f_Y(y)dy\\ &=h(Y)\\ &=h(X + c) \end{align*} \]
  5. 缩放性质

    \[ 对 a\neq0,有 h(aX)=h(X)+\log|a| \]
    • 图示
    • 证明: 令 \(Y = aX\),则 \(f_Y(y)=\frac{1}{|a|}f_X(\frac{y}{a})\),且 \(S_Y = \{ax:x\in S_X\}\)。 将 \(x = \frac{y}{a}\) 代入 \(h(X)\) 的表达式:

      \[ \begin{align *} h(X)&=-\int_{S_X}f_X(x)\log f_X(x)dx\\ &=-\int_{S_Y}f_X(\frac{y}{a})\log f_X(\frac{y}{a})\frac{dy}{|a|}\\ &=-\int_{S_Y}|a|f_Y(y)\log (f_Y(y)|a|)\frac{1}{|a|}dy\\ &=-\int_{S_Y}f_Y(y)(\log f_Y(y)+\log|a|)dy\\ &=-\int_{S_Y}f_Y(y)\log f_Y(y)dy-\log|a|\int_{S_Y}f_Y(y)dy\\ &=h(Y)-\log|a|\\ &=h(aX)-\log|a| \end{align*} \]

      移项可得 \(h(aX)=h(X)+\log|a|\)

    • 示例:示例

联合微分熵,条件微分熵及互信息

  1. 定义(联合微分熵) 联合概率密度函数为 \(f(\vec{x_{}})\) 的随机向量 \(\vec{x_{}}\) 的联合微分熵 \(h(\vec{x_{}})\) 定义为

    \[ h(\vec{x_{}})=-\int_{S}f(\vec{x_{}})\log f(\vec{x_{}})d\vec{x_{}}=-E\log f(\vec{x_{}}) \]

    如果 \(X_1,X_2,\cdots,X_n\) 相互独立,则有

    \[ h(\vec{x_{}})=\sum_{i = 1}^{n}h(X_i) \]
  2. 平移\(\vec{c_{}}\)\(\mathbb{R}^n\)\(n\) 维实数空间)中的一个列向量,则

    \[ h(\vec{x_{}}+\vec{c_{}}) = h(\vec{x_{}}) \]
  3. 缩放\(A\) 是一个 \(n\times n\) 的非奇异矩阵,则

    \[ h(A\vec{x_{}})=h(\vec{x_{}})+\log|\det(A)| \]
  4. 多元高斯分布\(\vec{X_{}} \sim N(\vec{\mu_{}},K)\) 。 令 \(N(\vec{\mu_{}},K)\) 表示均值为 \(\vec{\mu_{}}\),协方差矩阵为 \(K\) 的多元高斯分布,即对于所有 \(\vec{x_{}} \in \mathbb{R}^n\) ,其联合概率密度函数为:

    \[ f(\vec{x_{}}) = \frac{1}{(\sqrt{2\pi})^n|K|^{\frac{1}{2}}} e^{-\frac{1}{2}(\vec{x_{}}-\vec{\mu_{}})^T K^{-1}(\vec{x_{}}-\vec{\mu_{}})} \]

    其中 \(K\) 是正定对称矩阵,\(|K|\) 表示 \(K\) 的行列式值,\(\vec{x_{}},\vec{\mu_{}}\) 为列向量。

    其微分熵 \(h(\vec{X_{}})\) 为:

    \[ h(\vec{X_{}}) = \frac{1}{2} \log[(2\pi e)^n|K|] \]

    这里 \(|K|\)\(K\) 的行列式值。

    • 证明: 设 \(K\) 可以对角化为 \(Q\Lambda Q^T\) ,记 \(\vec{X_{}} = Q\vec{Y_{}}\) ,其中 \(\vec{Y_{}}\) 中的随机变量不相关,且有 \(Var(Y_i)=\lambda_i\) ,为 \(\Lambda\) 中第 \(i\) 个对角元素。由于 \(\vec{X_{}}\) 是高斯的,所以 \(\vec{Y_{}}\) 也是高斯的。又由于 \(\vec{Y_{}}\) 中的随机变量是不相关的,可知它们相互独立。

      \[ \begin{align *} h(\vec{X_{}})&=h(Q\vec{Y_{}})\\ &=h(\vec{Y_{}})+\log|\det(Q)|\\ &=h(\vec{Y_{}}) + 0\\ &=\sum_{i = 1}^{n}h(Y_i)\\ &=\sum_{i = 1}^{n}\frac{1}{2}\log(2\pi e\lambda_i)\\ &=\frac{1}{2}\log[(2\pi e)^n\prod_{i = 1}^{n}\lambda_i]\\ &=\frac{1}{2}\log[(2\pi e)^n|\Lambda|]\\ &=\frac{1}{2}\log[(2\pi e)^n|K|] \end{align*} \]
  5. 定义(条件微分熵) 如果 \(X\)\(Y\) 的联合密度函数为 \(f(x,y)\),定义条件微分熵 \(h(X|Y)\) 为:

    \[ h(X|Y)=-\int f(x,y)\log f(x|y)dxdy \]

    由于 \(f(x|y)=f(x,y)/f(y)\),所以有:

    \[ h(X|Y)=h(X,Y)-h(Y) \]
  6. 定义(相对熵) 两个密度函数 \(f\)\(g\) 之间的相对熵 \(D(f||g)\) 定义为:

    \[ D(f||g)=\int f\log\frac{f}{g} \]
  7. 定义(互信息) 联合概率密度函数为 \(f(x,y)\) 的两个随机变量间的互信息 \(I(X;Y)\) 定义为:

    \[ I(X;Y)=\int f(x,y)\log\frac{f(x,y)}{f(x)f(y)}dxdy \]

    显然有:

    \[ \begin{align *} I(X;Y)&=h(X)-h(X|Y)=h(Y)-h(Y|X)\\ &=h(X)+h(Y)-h(X,Y) \end{align*} \]

    以及:

    \[ I(X;Y)=D(f(x,y)||f(x)f(y)) \]
  8. 定理:相对熵的非负性

    \[ D(f||g) \geq 0 \]
    • 证明: 设 \(f\) 的支撑集是 \(S\)

      \[ \begin{align *} -D(f||g)&=\int_{S} f \log\frac{g}{f}\\ &\leq \log\int_{S} f\frac{g}{f} \quad (\text{Jensen 不等式})\\ &=\log\int_{S} g\\ &\leq \log 1 = 0 \end{align*} \]
    • 推论

      • \(I(X;Y) \geq 0\) ,当且仅当 \(X\)\(Y\) 相互独立等号成立。
      • \(h(X|Y) \leq h(X)\)
  9. 定理(链式法则)

    \[ h(X_1,X_2,X_3,\cdots,X_n)=\sum_{i = 1}^{n}h(X_i|X_1,X_2,\cdots,X_{i - 1}) \]
    • 推论
      • \(h(X_1,X_2,\cdots,X_n) \leq \sum_{i = 1}^{n}h(X_i)\)
  10. Hadamard 阿达玛不等式\(\vec{X_{}} \sim N(0,K)\) 是一个多元正态分布。 则有

    \[ \begin{align *} h(X_1,X_2,\cdots,X_n)&=\frac{1}{2}\log((2\pi e)^n|K|)\\ &\leq \sum_{i = 1}^{n}\frac{1}{2}\log(2\pi e K_{ii})\\ &=\frac{1}{2}\log((2\pi e K_{11} \times 2\pi e K_{22} \times \cdots \times 2\pi e K_{nn})) \end{align*} \]

    \(|K| \leq \prod_{i = 1}^{n}K_{ii}\)

    • 注意有关行列式的不等式可以由信息论中的不等式推导而得到。