回帰と分類についてメモ

回帰

回帰(かいき) regression りぐれっしょん

回帰の例

ある森のヒノキの直径から、高さを推定する。

数学的には

ヒノキの直径をX, 高さをYとして、

{ \displaystyle
Y = f(X)
}

となるような関数fを作ればよい。 もちろん厳密に等しくなることは期待できないので、誤差が小さくなるようなfを目指す。

機械学習では

fがたとえば

{ \displaystyle
f(X) = aX +b
}

という形の場合は、このモデルはa,bという2つのパラメータを持つことになる。 訓練データを使って、パラメータa,bを正解に近づくように(誤差が小さくなるように)調整することを、学習と呼ぶ。

モデルの選択の仕方はいろいろ考えられる。

{ \displaystyle
f(X) = aX^{2} +bX +c
}

とか。 どのモデルを選択するかは、たぶんかなり難しい問題。

分類

クラス化(classification、くらしふぃけいしょん)とクラスタリング(clustering)がある。

classificationの例

数字が一つ書かれた画像が、何を表すものかを分類する。

数学的には

画像は、ベクトル(数値の並び)として扱うことができる。 たとえば10×10ピクセルの白黒の画像であれば、 すべての成分が0(黒)か1(白)であるようなサイズ100のベクトルと見ることができる。 このベクトルXに対して、 g(X)がその画像の表す数になるような関数gを作ればよい。

回帰との関連

画像Xの「3っぽさ」「3以外ではないっぽさ」に点数をつける関数hがある場合、

  • h(X)がある値以上であれば、画像Xは3を表すものと判断する

という方法が考えられる。 この方法で分類を試みる場合、hを構成するプロセスは回帰である。

clusteringの例

ECサイトユーザの商品購買履歴から、利用の傾向を分類する (ことで、同じグループのユーザが買う傾向にある商品をおすすめとして表示する)。

classificationとclustering

classificationでは、分類の各クラスにラベルがついている。 (画像が「0」,「1」,「2」,...のどれに属するかを判定する、みたいな。)

clusteringでは、ラベルはつかない。 (このユーザとこのユーザは似ている、みたいな。どういうグループかは考えない。) (分類した後で「ミステリーばっかり買う人たち」「野菜ジュースをよく買う人たち」みたいな分析をしてもよいけど。)

機械学習の言葉では、教師あり学習による分類はclassification, 教師なし学習による分類はclusteringと言える。