information gainについてメモ1
information gainについてメモ1
decision treeの説明で出てきたID3アルゴリズムの説明で省略したinformation gainという量についてメモ。 キーワードとしては、Kullback-Leibler divergence, エントロピー、情報量のことが分かればよさそう。 まずは情報量について調べた範囲でメモ。
情報量とは何であってほしいか
は離散確率変数で、何らかの事象を表すものとする。 の値を観測したときの「情報量」*1を考える。 情報量は、以下の性質を満たすものとする。 *2
- 1.情報量は以上の値をとる。
- 2.確率の小さい事象を観測した(あまり起こりそうにないことが起こった)場合、確率の大きい事象を観測した(いつでも起こりそうなことが起こった)場合に比べて、得られる情報量は多い。
- 3.事象が無関係の場合、その2つによって得られる情報量はそれぞれの情報量の和である。
- 4.事象は、その確率を通してのみ、情報量に影響する。
先に結論
事象によって得られる情報量をと書くことにする。
理由
上記の性質から、以下を仮定してよい。*5
とする。
このとき正整数に対して.
したがってであるすべての有理数について.
したがってのとき.
区間では稠密なので、の単調性から
ここでの値は確定されていないが、 に関する制約が上記の4つの仮定だけであれば、 はの範囲で自由に選択することができる。
対数の底の変化は、このの選択によって吸収できる。 たとえば とすれば、
が得られる。 その意味で、対数の底は自由に選択することができる。 状況に応じて便利なものを使えばよい。
参考
PRML 1章 http://www.amazon.co.jp/dp/4621061224
■Wikipedia - Information gain in decision trees https://en.wikipedia.org/wiki/Information_gain_in_decision_trees
*1:PRML(という本)では「驚きの度合い」と呼んでいる。
*2:これらの性質は、気分とか感覚によって納得するべき前提であって、何か根拠があって論理的に導かれるようなものではない。 もし納得できなくても、とりあえず仮定しておくことにする。
*3:対数の底はより大きければ何でもよいが、だいたいかを使う。
*4:「妥当である」という言葉遣いに違和感を覚える人がいるかもしれないが、今回は「情報量」という言葉に定義を与えるのが目的である。 主張していることは、何かが数学的に正しいことではなく、定義が妥当であることだから、この表現が正しい。
*5:本当によいかどうか検討が必要な部分はあるが省略する。
*6:であるような実数の集合のこと。
*7:が大きくなるとは小さくなるということ。
*8:このあたりの議論はだいぶ省略してあるので、できれば1ステップずつ確認したほうが良い。