この記事では相互情報量についてまとめています。
情報量とエントロピーに関しては以下の記事をご覧下さい。
相互情報量
突然ですが、あなたはある事件を解決しようとしています。
その事件の犯人は赤色の帽子を被っていたとの情報があり、被疑者はAさん、Bさん、Cさんの3人がいます。
そんな中Aさんだけが赤色の帽子を被っていました。
この情報を知った時点で、あなたは「Aさんが犯人である可能性が高い」と考えるはずです。
そして捜査を進めていると犯人はAさんであると分かりました。
では、次のケースを考えてみましょう。
Aさん、Bさん、Cさんの3人全員が赤色の帽子を被っていたとします。
そして捜査を進めていると犯人はAさんであると分かりました。
この場合、最初のケースよりも「Aさんが犯人だ」と推測するのが難しかったはずです。
このように
- A : Aさんが犯人であるかどうかという事象
- B : 誰が赤色の帽子を被っているかという事象
としたとき事象Bにより事象Aの不確実さが変化すると思います。
例えば、 Bの情報が「Aさんだけが帽子を被っている」ならAさんが犯人の可能性は非常に高くなります。
一方で、Bの情報が「全員が帽子を被っている」なら、Aさんが犯人かどうかを判断する材料にはなりません。
ここでBを知ることによるAに関する不確実性の減少分を相互情報量といいます。
相互情報量の定義式
上記までの例では
- A : Aさんが犯人であるかどうかという事象
- B : 誰が赤色の帽子を被っているかという事象
という二つの事象を考えていきました。
それでは、相互情報量を式で定義していきましょう。
事象系Aと事象系Bの相互情報量$I(A ; B)$とすると、
$$
I(A ; B)=H(A)-H(A|B)
$$
と定義されます。
ここから条件付きエントロピーを使用しますが分からない方は以下の記事を参考にしてください。
上記の式にエントロピーの定義式を代入していきます。
$$
\begin{align}
I(A ; B)=-\sum_{i}p(a_i)\log_2p(a_i)+\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(a_i|b_j)
\end{align}
$$
ここで右辺の二項目に注目すると条件付き確率の定義より、
$$
\begin{align}
&\sum_{i}\sum_{j}p(a_i,b_j)\log_2\frac{p(a_i,b_j)}{p(b_j)}\\
&=\sum_{i}\sum_{j}p(a_i,b_j)(\log_2p(a_i,b_j)-\log_2p(b_j))\\
&=\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(a_i,b_j)-\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(b_j)\\
\end{align}
$$
$\sum_ip(a_i,b_j)=p(b_j)$より二項目は、
$$
\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(b_j)=\sum_{j}p(b_j)\log_2b_j
$$
これにより、
$$
\begin{align}
I(A ; B)&=-\sum_{i}p(a_i)\log_2p(a_i)+\sum_{i}\sum_{j}p(a_i,b_j)\log_2p(a_i,b_j)-\sum_{j}p(b_j)\log_2b_j\\
&=H(A)-H(A,B)+H(B)\\
&=\sum_{i}\sum_{j}p(a_i,b_j)\log_2\frac{p(a_i,b_j)}{p(a_i,b_j)}
\end{align}
$$
事象系Aと事象系Bがあった時、Bを知ることによるAに関する不確実性の減少分を相互情報量といい。
$$
I(A ; B)=H(A)-H(A|B)
$$
で定義され、定義式は以下のようになる。
$$
I(A ; B)=\sum_{i}\sum_{j}p(a_i,b_j)\log_2\frac{p(a_i,b_j)}{p(a_i)p(b_j)}
$$
コメント