G検定に役立つ情報理論のまとめ

AI

情報理論とは

情報理論とは、文字通り「情報とは何かを定義し、より良い扱い方を考える学問」といえます。
その中でも大きく3つのジャンルに分けることができます。

1つ目は、そもそも情報量をどのように定義するか、という問題を解決するジャンル。
2つ目は、情報を、いかに効率よく送受信させるかを考えるジャンル。
3つ目は、送信された情報に雑音が入った時に、どのようにしてノイズを減らすかを考えるジャンルです。

2つ目は「符号理論」などと呼ばれることもあります。
3つ目は「誤り検出・訂正符号」という問題で多くの成果を残しています。

もちろん、この3つに分類ができないものもあるでしょうが、おおよその見取り図として「情報量を定義して、ノイズを減らしつつ、うまいこと送受信する」という大きな目的があるのだと思うとわかりよいかと思います。



自己情報量とは

自己情報量とは、ある事象が起きたと知ることで、どれだけの情報量が得られるのかを数値化したものです。

エントロピーとは

エントロピーが「~~ということが起こる場合の数」として定式化されたことで、新たな意味を獲得した。直感的に分かるかと思うが、これはその状態が持っている「情報量」そのものなのである。

この場合のエントロピーは3つの意味を持つ:

情報の量 (Amount of Information)
不確実性 (Uncertainty)
圧縮の出来なさ (Incompressibility)

即ち、エントロピーが高い場合、情報量が増え不確実性が増し、圧縮ができにくくなる。例として、表しか出ないコインが持つ不確実性は0である(確実に表になる)。したがって、このコインに最低限の情報しか持たない。

ある事象が起こる確率を論じる時、普通はその事象とは異なる(が関係のある)事象と比較をしているはずです。具体的には、「明日は雨」「明日は晴れ」という二択に関して、明日は雨であるという事象に関して確率を考えれば、それは晴れの確率と比較していることになります。

要するに「明日は雨」という神からの絶対的なお告げを頂いた時に、どれだけの情報量を得たことになるかというのが、先程まで話してきたことです。

では次は話題を少し変えてみて、「明日は雨」「明日は晴れ」という二択に関して、これから神からお告げを貰おうと思った時に、得られるであろう情報量はどれほどでしょうか。

まだ「晴れ」か「雨か」お告げをもらう前に、この情報をこれから教えてもらえるとなったときに、どれくらい情報量を獲得できそうかというのは、現実的に単なる情報量よりも重要な問題だと思います。もちろん現実には神からのお告げはありませんが、これから本腰を入れて何かを調べようと考えたときに、一体努力の末にどれだけの事を知れるのかというのは興味がある問題なはずです。

つまり情報量の期待値に興味があるのです。

相互情報量とは

相互情報量または伝達情報量は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量である。最も典型的な相互情報量の物理単位はビットであり、2 を底とする対数が使われることが多い。

相互情報量

G検定 用語集

交差エントロピーとは

情報理論において、交差エントロピーまたはクロスエントロピーは、2つの確率分布の間に定義される尺度である。符号化方式が、真の確率分布 p ではなく、ある所定の確率分布 q に基づいている場合に、とりうる複数の事象の中からひとつの事象を特定するために必要となるビット数の平均値を表す。

交差エントロピー誤差をわかりやすく説明してみる - Qiita
※コメントで説明の一部に誤りを指摘頂いたので記事を修正しました(2020/3/30)教師あり機械学習では必須の損失関数。教師あり機械学習の場合、学習するというのは損失関数の値を小さくする事とほぼ…

次回7月4日G検定、受験料半額での実施を決定

タイトルとURLをコピーしました