【情報理論】相互情報量

大学情報
スポンサーリンク

この記事では相互情報量についてまとめています。

情報量とエントロピーに関しては以下の記事をご覧下さい。

相互情報量

突然ですが、あなたはある事件を解決しようとしています。

その事件の犯人は赤色の帽子を被っていたとの情報があり、被疑者はAさん、Bさん、Cさんの3人がいます。

そんな中Aさんだけが赤色の帽子を被っていました

この情報を知った時点で、あなたは「Aさんが犯人である可能性が高い」と考えるはずです。

そして捜査を進めていると犯人はAさんであると分かりました。

では、次のケースを考えてみましょう。

Aさん、Bさん、Cさんの3人全員が赤色の帽子を被っていたとします。

そして捜査を進めていると犯人はAさんであると分かりました。

この場合、最初のケースよりも「Aさんが犯人だ」と推測するのが難しかったはずです。

このように

  • A : Aさんが犯人であるかどうかという事象
  • B : 誰が赤色の帽子を被っているかという事象

としたとき事象Bにより事象Aの不確実さが変化すると思います。

例えば、 Bの情報が「Aさんだけが帽子を被っている」ならAさんが犯人の可能性は非常に高くなります。

一方で、Bの情報が「全員が帽子を被っている」なら、Aさんが犯人かどうかを判断する材料にはなりません。

ここでBを知ることによるAに関する不確実性の減少分を相互情報量といいます。

相互情報量の定義式

上記までの例では

  • A : Aさんが犯人であるかどうかという事象
  • B : 誰が赤色の帽子を被っているかという事象

という二つの事象を考えていきました。

それでは、相互情報量を式で定義していきましょう。

事象系Aと事象系Bの相互情報量$I(A ; B)$とすると、

$$
I(A ; B)=H(A)-H(A|B)
$$

と定義されます。

ここから条件付きエントロピーを使用しますが分からない方は以下の記事を参考にしてください。

上記の式にエントロピーの定義式を代入していきます。

$$
\begin{align}
I(A ; B)=-\sum_{i}p(a_i)\log_2p(a_i)+\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(a_i|b_j)
\end{align}
$$

ここで右辺の二項目に注目すると条件付き確率の定義より、

$$
\begin{align}
&\sum_{i}\sum_{j}p(a_i,b_j)\log_2\frac{p(a_i,b_j)}{p(b_j)}\\
&=\sum_{i}\sum_{j}p(a_i,b_j)(\log_2p(a_i,b_j)-\log_2p(b_j))\\
&=\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(a_i,b_j)-\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(b_j)\\
\end{align}
$$

$\sum_ip(a_i,b_j)=p(b_j)$より二項目は、

$$
\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(b_j)=\sum_{j}p(b_j)\log_2b_j
$$

これにより、

$$
\begin{align}
I(A ; B)&=-\sum_{i}p(a_i)\log_2p(a_i)+\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(a_i,b_j)-\sum_{j}p(b_j)\log_2b_j\\
&=H(A)-H(A,B)+H(B)\\
&=\sum_{i}\sum_{j}p(a_i,b_j)\log_2\frac{p(a_i,b_j)}{p(a_i,b_j)}
\end{align}
$$

事象系Aと事象系Bがあった時、Bを知ることによるAに関する不確実性の減少分を相互情報量といい。

$$
I(A ; B)=H(A)-H(A|B)
$$

で定義され、定義式は以下のようになる。

$$
I(A ; B)=\sum_{i}\sum_{j}p(a_i,b_j)\log_2\frac{p(a_i,b_j)}{p(a_i)p(b_j)}
$$

コメント

タイトルとURLをコピーしました