mlmrm’s blog

回帰と分類についてメモ

回帰

回帰（かいき） regression りぐれっしょん

回帰の例

ある森のヒノキの直径から、高さを推定する。

数学的には

ヒノキの直径を $X$ , 高さを $Y$ として、

${ \displaystyle Y = f(X) }$

となるような関数 $f$ を作ればよい。もちろん厳密に等しくなることは期待できないので、誤差が小さくなるような $f$ を目指す。

機械学習では

$f$ がたとえば

${ \displaystyle f(X) = aX +b }$

という形の場合は、このモデルは $a,b$ という2つのパラメータを持つことになる。訓練データを使って、パラメータ $a,b$ を正解に近づくように（誤差が小さくなるように）調整することを、学習と呼ぶ。

モデルの選択の仕方はいろいろ考えられる。

${ \displaystyle f(X) = aX^{2} +bX +c }$

とか。どのモデルを選択するかは、たぶんかなり難しい問題。

分類

クラス化(classification、くらしふぃけいしょん)とクラスタリング(clustering)がある。

classificationの例

数字が一つ書かれた画像が、何を表すものかを分類する。

数学的には

画像は、ベクトル（数値の並び）として扱うことができる。たとえば10×10ピクセルの白黒の画像であれば、すべての成分が0（黒）か1（白）であるようなサイズ100のベクトルと見ることができる。このベクトル $X$ に対して、 $g(X)$ がその画像の表す数になるような関数 $g$ を作ればよい。

回帰との関連

画像Xの「3っぽさ」「3以外ではないっぽさ」に点数をつける関数 $h$ がある場合、

$h(X)$ がある値以上であれば、画像 $X$ は3を表すものと判断する

という方法が考えられる。この方法で分類を試みる場合、 $h$ を構成するプロセスは回帰である。

clusteringの例

ECサイトユーザの商品購買履歴から、利用の傾向を分類する（ことで、同じグループのユーザが買う傾向にある商品をおすすめとして表示する）。

classificationとclustering

classificationでは、分類の各クラスにラベルがついている。（画像が「0」,「1」,「2」,...のどれに属するかを判定する、みたいな。）

clusteringでは、ラベルはつかない。（このユーザとこのユーザは似ている、みたいな。どういうグループかは考えない。）（分類した後で「ミステリーばっかり買う人たち」「野菜ジュースをよく買う人たち」みたいな分析をしてもよいけど。）

機械学習の言葉では、教師あり学習による分類はclassification, 教師なし学習による分類はclusteringと言える。