mlmrm’s blog

information gainについてメモ1

information gainについてメモ1

decision treeの説明で出てきたID3アルゴリズムの説明で省略したinformation gainという量についてメモ。キーワードとしては、Kullback-Leibler divergence, エントロピー、情報量のことが分かればよさそう。まずは情報量について調べた範囲でメモ。

情報量とは何であってほしいか

$X$ は離散確率変数で、何らかの事象を表すものとする。 $X$ の値 $x$ を観測したときの「情報量」*1を考える。情報量は、以下の性質を満たすものとする。 *2

1.情報量は $0$ 以上の値をとる。
2.確率 $p(x)$ の小さい事象 $x$ を観測した（あまり起こりそうにないことが起こった）場合、確率 $p(x)$ の大きい事象を観測した（いつでも起こりそうなことが起こった）場合に比べて、得られる情報量は多い。
3.事象 $x, y$ が無関係の場合、その2つによって得られる情報量はそれぞれの情報量の和である。
4.事象 $x$ は、その確率 $p(x)$ を通してのみ、情報量に影響する。

先に結論

事象 $x$ によって得られる情報量を $h(x)$ と書くことにする。

${\displaystyle h(x) = -\log(p(x)) }$

とするのが妥当である。 *3 *4

理由

上記の性質から、以下を仮定してよい。*5

（4から）区間 $(0,1)$ *6で定義された関数 $f$ が存在して、 $h(x) = f(p(x))$ .
（1から）上記 $f$ は、常に $0$ 以上の値をとる。
（2から）上記 $f$ は、単調減少である。*7
（3から）上記 $f$ は、 $s, t \in (0,1)$ のとき、 $f(st)=f(s)+f(t)$ を満たす。

$a=\frac{1}{2}, \alpha=f(\frac{1}{2})$ とする。
このとき正整数 $m, n$ に対して $f( a^{\frac{m}{n}}) = \frac{m}{n}\alpha$ .
したがって $0\lt a^{r}\lt 1$ であるすべての有理数 $r\gt 0$ について $f(a^{r})=r \alpha$ .
したがって $t \in \{a^{r}|r \in \mathbb{Q}\} \cap (0,1)$ のとき $f(t) = \alpha \log_a t$ .
区間 $(0,1)$ で $\{a^{r}|r \in \mathbb{Q}\}$ は稠密なので、 $f$ の単調性から

${\displaystyle f(t) = -\alpha\log_2 t }$

がすべての $t\in (0,1)$ で成り立つ。 *8 *9

ここで $\alpha$ の値は確定されていないが、 $f$ に関する制約が上記の4つの仮定だけであれば、 $\alpha$ は $\alpha>0$ の範囲で自由に選択することができる。

対数の底の変化は、この $\alpha$ の選択によって吸収できる。たとえば $\alpha = \log_e 2$ とすれば、

${\displaystyle f(t) = -\log_e t }$

が得られる。その意味で、対数の底は自由に選択することができる。状況に応じて便利なものを使えばよい。

参考

PRML 1章 http://www.amazon.co.jp/dp/4621061224

■Wikipedia - Information gain in decision trees https://en.wikipedia.org/wiki/Information_gain_in_decision_trees

*1:PRML（という本）では「驚きの度合い」と呼んでいる。

*2:これらの性質は、気分とか感覚によって納得するべき前提であって、何か根拠があって論理的に導かれるようなものではない。もし納得できなくても、とりあえず仮定しておくことにする。

*3:対数の底は $1$ より大きければ何でもよいが、だいたい $2$ か $e$ を使う。

*4:「妥当である」という言葉遣いに違和感を覚える人がいるかもしれないが、今回は「情報量」という言葉に定義を与えるのが目的である。主張していることは、何かが数学的に正しいことではなく、定義が妥当であることだから、この表現が正しい。

*5:本当によいかどうか検討が必要な部分はあるが省略する。

*6: $0\lt x\lt 1$ であるような実数 $x$ の集合のこと。

*7: $t$ が大きくなると $f(t)$ は小さくなるということ。

*8:このあたりの議論はだいぶ省略してあるので、できれば1ステップずつ確認したほうが良い。

*9: $f$ の微分可能性を仮定すれば、このあたりの話はもっと簡単に済む。 $tf'(t)$ が $t$ によらず一定であることを言えばよい。