情報理論、機械学習などで使用される情報量とエントロピーの基本についてまとめてみました。
情報量とは
例えば、毎年サマージャンボを購入している友達が

今年もサマージャンボ外れちゃったよー
この話を聞いた時、あなたは「へー、そうなんだ」と特に驚きはしないと思います。
しかし、

今年のサマージャンボは1等の5億円当たったよ!
これを聞いたあなたは「え!?本当に?」とかなり驚くと思います。
この時、なぜ驚くのかというとサマージャンボが1等である確率がとても低いためと考えられます。
つまり、その出来事の起こる確率が低いほど驚き具合は大きくなることが分かります。
この驚き具合というのを具体的に数値化したものが自己情報量です。
自己情報量
サマージャンボの例から確率の低い事象ほど自己情報量は大きいということが分かりました。
ここで、その事象が起こる確率を生起確率と呼びます。
そして生起確立が低いほど自己情報量というのが大きくなることから情報量は生起確率に反比例すると分かります。
ここで、事象aの生起確率を$P(a)$とすると自己情報量$I(a)$は
$$
I(a)\propto \frac{1}{P(a)}
$$
となります。
しかし、この式では十分とは言えません。
例えば絶対に当たりが出るくじを引いた時を想像してみてください。
この時、あなたは当たりが出ても全く驚かないと思います。
つまり、生起確率が1の時(100%の確率で起こる時)には、自己情報量は0となるはずです。
しかし、上記で示した反比例では生起確率が1となっても自己情報量は0にはなりません。
そこで生起確率が1の時に自己情報量を0とするために式の右辺の対数を取ることで解決します。
$$
I(a)=-\log{P(a)}
$$
実際に$P(a)=1$にすると$I(a)$が0となることが確認できると思います。
生起確率$P(a)$の事象の発生を知った時に得られる情報量I(a)は、
$$
I(a)=-\log_2P(a)[bit]
$$
情報理論においては、bit単位の方が扱いやすいため上記のように対数の底を2として情報量$I(a)$の単位をbitとします。
エントロピー
エントロピーとは
エントロピーという言葉を聞いたことはありますか?
筆者が好きな映画「TENET」でも使われていた言葉です。
TENETではエントロピーを減少させることで時間を逆行していましたね。
ここでいうエントロピーは熱力学において物質の”無秩序さ”や”曖昧さ”などを表す概念です。
このエントロピーがどのように情報の分野で使用されるのか説明していきます。
上記までで見てきた自己情報量とは既に起こった事象によって得られます。
しかし、日常的には起こったことよりも”これから起こること“について考えたい場面の方が多いと思います。
そんな”これから起こること”というのは曖昧で無秩序です。
そこで事象の情報の”曖昧さ”を示したものがエントロピーです。
平均情報量とエントロピー
エントロピーは”曖昧さ”を表すと書きましたが、自己情報量のように数式として表したい場合はどうすれば良いのでしょうか?
結論から言うと、情報量の期待値をとることで表現することが出来ます。
それは何故かと言うと、曖昧さと言う表現がややこしくしているかもしれませんが、要はその事象が発生した時にどのくらいの情報量が得れるかという指標がエントロピーなのです。
ここで、エントロピーは自己情報量の期待値により求められることから平均情報量ともいいます。
平均情報量とエントロピーは本質的には同じなので本サイトではエントロピーで統一します。
しかし、平均情報量はある特定の完全事象系のエントロピーを求める際に”完全事象系Aの平均情報量”のように使用されることがあるので覚えておきましょう。
それでは実際に期待値を求めていきましょう。
{$a_1,a_2,a_3,…,a_n$}からなる完全事象系Aの生起確立を{$P(a_1),P(a_2),P(a_3),…,P(a_n)$}とすると、エントロピー$H(A)$は
$$
\begin{align}
H(A)&=\sum_{i=1}^{n}P(a_i)I(a_i)\\
&=\sum_{i=1}^{n}P(a_i)(-\log_2P(a_i))\\
&=-\sum_{i=1}^{n}P(a_i)\log_2P(a_i)\\
\end{align}
$$
{$a_1,a_2,…,a_n$}からなる完全事象系Aの生起確立を{$P(a_1),P(a_2),…,P(a_n)$}とするとエントロピー$H(A)$は
$$
H(A)=-\sum_{i=1}^{n}P(a_i)\log_2P(a_i)
$$
また、エントロピーは平均情報量ともいう。
コメント