パターン認識と機械学習入門 第2回 参加メモ
資料
ベイズ確率論
- データが少ないのに頻度主義を使うのはダメ。大数の法則等は使えない。
- MAP推定値(事後分布最大化推定量)
- 事後分布を最大にするようなパラメータを求める
- マルコフ連鎖モンテカルロ法(MCMC法)
- 変分ベイズ法(VB法)
ベイズ識別
- 汎化能力:学習データに基いて作られた識別器の未知の新しいデータに対する識別能力
- ベイズ識別を識別関数とすると、これは0-1損失関数に対する期待損失を最小化する
モデル選択
- 過学習(overfitting):学習データの確率的変動を忠実に拾ってしまい汎化能力が低下すること
汎化能力の評価方法
- ホールドアウト検証
- 学習用データが十分にある場合には、それを学習用データと検証用データの2つに分け
- 学習用データで学習を行う
- 検証用データに対する誤り率などによって評価をする
- 学習用データが十分にある場合には、それを学習用データと検証用データの2つに分け
- K-交差検証 (K-cross validation)
- 学習用データが少ない場合には学習用データの出来るだけ多くを利用して訓練を行いたいので、以下の方法が使える
- 学習用データを K 組に分割する
- K-1 組を使って学習し, 残りの1組で検証を行う
- 上記を K パターン行ってその平均をとる
- 学習用データが少ない場合には学習用データの出来るだけ多くを利用して訓練を行いたいので、以下の方法が使える
- LEAVE-ONE-OUT交差検証
- データがN個の場合、N-1個で学習、残り1個で検証をNパターン行う(K-交差検証の K=データ個数 バージョン)