パターン認識と機械学習入門 第2回 参加メモ

資料

ベイズ確率論

  • ベイズ確率論
    • 確定していることに頻度主義は適用できない
    • 「不確かさ」を定量的に扱うための代表的な体系がベイズ確率論
  • ベイズ改訂
    • 主観的に確率を決めたのち、新たな情報により客観性を高めていく作業
    • ベイズ改訂にはベイズの定理を利用する
  • データが少ないのに頻度主義を使うのはダメ。大数の法則等は使えない。

ベイズ識別

  • 汎化能力:学習データに基いて作られた識別器の未知の新しいデータに対する識別能力
  • ベイズ識別を識別関数とすると、これは0-1損失関数に対する期待損失を最小化する

モデル選択

  • 過学習(overfitting):学習データの確率的変動を忠実に拾ってしまい汎化能力が低下すること

汎化能力の評価方法

  • ホールドアウト検証
    • 学習用データが十分にある場合には、それを学習用データと検証用データの2つに分け
      • 学習用データで学習を行う
      • 検証用データに対する誤り率などによって評価をする
  • K-交差検証 (K-cross validation)
    • 学習用データが少ない場合には学習用データの出来るだけ多くを利用して訓練を行いたいので、以下の方法が使える
      • 学習用データを K 組に分割する
      • K-1 組を使って学習し, 残りの1組で検証を行う
      • 上記を K パターン行ってその平均をとる
  • LEAVE-ONE-OUT交差検証
    • データがN個の場合、N-1個で学習、残り1個で検証をNパターン行う(K-交差検証の K=データ個数 バージョン)