간단 요약

Cross Entropy - Entropy

두 분포의 차이, 정보량을 의미한다.

metric이 아니다.

엔트로피의 상대성에 대해 이야기한다.

유도 과정

$$ \begin{aligned}H(p, q) & =-\sum_i p_i \log q_i \\& =-\sum_i p_i \log q_i-\sum_i p_i \log p_i+\sum_i p_i \log p_i \\& =H(p)+\sum_i p_i \log p_i-\sum_i p_i \log q_i \\& =H(p)+\sum_i p_i \log \frac{p_i}{q_i}\end{aligned} $$

이 때, $H(p,q) - H(p)$로 정리되는 다음 수식을 KL-Divergence 혹은 Relative Entropy라고 부른다.

$$ \sum_i p_i \log \frac{p_i}{q_i}=H(p, q)-H(p) $$

$$ KL(p|q) = \sum_xp_i\log{p_i\over q_i} = E_p[\log{\left({p_i\over q_i}\right)}] $$

두 분포 간의 차이를 측정한다.

$P(X)$를 기준으로 두 분포의 차이를 의미한다.

Metric이 아니다.

  • $K L(p \mid q) \geq 0$을 만족한다.

  • 모든 x에 대해 $Q(X) =0\rightarrow P(X) =0$가 성립한다.

  • Symmetry가 성립하지 않는다.

    $K L(p \mid q) \neq K L(q \mid p)$

  • Triangle inequality를 만족하지 않는다.

연속 변수의 KL 발산은 Entropy와 마찬가지로 합을 적분으로 대체하여 정의할 수 있다.

  • 예제 — Relative Entropy 계산

    kullback_leibler_kl_divergence

    $$ H(p) = -\left( \frac{1}{2}\log\frac{1}{2} + \frac{1}{4}\log\frac{1}{4} + \frac{1}{4}\log\frac{1}{4} \right)\\ = \frac{3}{2}\log 2 = 0.45154499349 $$

    $$ H(q) = -\left( \frac{1}{3}\log\frac{1}{3} + \frac{1}{3}\log\frac{1}{3} + \frac{1}{3}\log\frac{1}{3} \right)\\ = \log 3 = 0.47712125472 $$

    $$ H(p,q) = -\left( \frac{1}{2}\log\frac{1}{3} + \frac{1}{4}\log\frac{1}{3} + \frac{1}{4}\log\frac{1}{3} \right)\\ = \log 3 = 0.47712125472 $$

    $$ H(q,p) = -\left( \frac{1}{3}\log\frac{1}{2} + \frac{1}{3}\log\frac{1}{4} + \frac{1}{3}\log\frac{1}{4} \right)\\ = \frac{5}{3}\log 2 = 0.50171665944 $$

    • $D_{KL}(p||q) = H(p,q) - H(p)$

      $$ H(p,q) - H(p) = \log 3 - \frac{3}{2}\log 2 = 0.02557626122 $$

    • $D_{KL}(q||p) = H(q,p) - H(q)$

    $$ H(q,p) - H(q) = \frac{5}{3}\log 2 - \log 3 = 0.02459540472 $$

참조

초보를 위한 정보이론 안내서 - KL divergence 쉽게 보기

연관 개념? 알아보기

elbo, variational inference

MLE