katz's adversaria

パターン認識と機械学習入門第2回参加メモ

機械学習

資料

スライド

ベイズ確率論

ベイズ確率論
- 確定していることに頻度主義は適用できない
- 「不確かさ」を定量的に扱うための代表的な体系がベイズ確率論

ベイズ改訂
- 主観的に確率を決めたのち、新たな情報により客観性を高めていく作業
- ベイズ改訂にはベイズの定理を利用する

データが少ないのに頻度主義を使うのはダメ。大数の法則等は使えない。

MAP推定値(事後分布最大化推定量)
- 事後分布を最大にするようなパラメータを求める
マルコフ連鎖モンテカルロ法（MCMC法）
変分ベイズ法（VB法）

ベイズ識別

汎化能力：学習データに基いて作られた識別器の未知の新しいデータに対する識別能力
ベイズ識別を識別関数とすると、これは0-1損失関数に対する期待損失を最小化する

モデル選択

過学習(overfitting)：学習データの確率的変動を忠実に拾ってしまい汎化能力が低下すること

汎化能力の評価方法

ホールドアウト検証
- 学習用データが十分にある場合には、それを学習用データと検証用データの2つに分け
  - 学習用データで学習を行う
  - 検証用データに対する誤り率などによって評価をする

K-交差検証 (K-cross validation)
- 学習用データが少ない場合には学習用データの出来るだけ多くを利用して訓練を行いたいので、以下の方法が使える
  - 学習用データを K 組に分割する
  - K-1 組を使って学習し, 残りの1組で検証を行う
  - 上記を K パターン行ってその平均をとる

LEAVE-ONE-OUT交差検証
- データがN個の場合、N-1個で学習、残り1個で検証をNパターン行う（K-交差検証の K=データ個数バージョン）