回帰と分類についてメモ
回帰
回帰(かいき) regression りぐれっしょん
回帰の例
ある森のヒノキの直径から、高さを推定する。
数学的には
ヒノキの直径を, 高さをとして、
となるような関数を作ればよい。 もちろん厳密に等しくなることは期待できないので、誤差が小さくなるようなを目指す。
機械学習では
がたとえば
という形の場合は、このモデルはという2つのパラメータを持つことになる。 訓練データを使って、パラメータを正解に近づくように(誤差が小さくなるように)調整することを、学習と呼ぶ。
モデルの選択の仕方はいろいろ考えられる。
とか。 どのモデルを選択するかは、たぶんかなり難しい問題。
分類
クラス化(classification、くらしふぃけいしょん)とクラスタリング(clustering)がある。
classificationの例
数字が一つ書かれた画像が、何を表すものかを分類する。
数学的には
画像は、ベクトル(数値の並び)として扱うことができる。 たとえば10×10ピクセルの白黒の画像であれば、 すべての成分が0(黒)か1(白)であるようなサイズ100のベクトルと見ることができる。 このベクトルに対して、 がその画像の表す数になるような関数を作ればよい。
回帰との関連
画像Xの「3っぽさ」「3以外ではないっぽさ」に点数をつける関数がある場合、
- がある値以上であれば、画像は3を表すものと判断する
という方法が考えられる。 この方法で分類を試みる場合、を構成するプロセスは回帰である。
clusteringの例
ECサイトユーザの商品購買履歴から、利用の傾向を分類する (ことで、同じグループのユーザが買う傾向にある商品をおすすめとして表示する)。
classificationとclustering
classificationでは、分類の各クラスにラベルがついている。 (画像が「0」,「1」,「2」,...のどれに属するかを判定する、みたいな。)
clusteringでは、ラベルはつかない。 (このユーザとこのユーザは似ている、みたいな。どういうグループかは考えない。) (分類した後で「ミステリーばっかり買う人たち」「野菜ジュースをよく買う人たち」みたいな分析をしてもよいけど。)
機械学習の言葉では、教師あり学習による分類はclassification, 教師なし学習による分類はclusteringと言える。