第7回 データ構造と情報検索と言語処理勉強会 参加メモ

第7回 データ構造と情報検索と言語処理勉強会 #DSIRNLP 07に参加してきた。

30分でわかるAdam (@echizen_tm)

  • Adamとは
    • state of the artなオンライン学習器
    • AdaGrad + RMSProp のようなもの(らしい)
    • 論文に推奨パラメータが書いてある
    • 正則化項は入っていない
  • 更新式


Θ_t = Θ_{t-1} - α E[g] / √E[g^2]

    • 更新幅が学習率α以下になる
    • 更新幅が自動で調整される(学習率を減衰させる必要がない)
  • 指数移動平均
    • 初期のデータの重みが指数的に小さくなるタイプの重み付き平均
  • まとめ
    • E[g] / √E[g^2] でパラメータを更新
    • 期待値計算に指数移動平均を使う
    • 指数移動平均のバイアスを打ち消す工夫がある


隠れセミマルコフモデルによる教師なし形態素解析 (@uchumik)



  • 教師なし品詞推定
    • 基本的にHidden Markov Modelで行う
    • 単語分割が与えられていることが前提
  • 単語分割と品詞の教師なし同時学習
  • ゼロ頻度問題
    • 観測されていないngramにも適切な確率を与える必要がある
      • 階層Pitman-Yor言語モデルを用いる


形態素解析器 売ってみた (@klmquasi)

  • 登録する?しない?
    • 説明性
      • 一貫性
      • 規範性
    • 新語
      • 一過性かどうか
    • 弊害
      • 辞書の肥大化
  • 人手の介入
    • クリティカルな事例
      • どうしても直さなきゃいけない
    • 機械学習では
      • 挙動を説明できない
      • 学習のたび結果が変わる
  • どこかに介入できるところをつくる
    • ルールによる補正
    • ユーザー辞書
  • まとめ
    • 統計的手法 + 人手介入
    • 辞書が大事


最近のJUMANとKNP (@cacaho)

  • KNP
    • 統計ベースの統合解析器
  • JUMANと他の解析器の比較
    • 基本的にはMeCabがおすすめ:速度が速く、精度も高い
  • JUMANがオススメな場合
    • リッチなJUMAN辞書の意味解析を使いたい
    • くだけた表現を多く含む
    • コストやルールを人手で追加・調整したい
    • KNPを使いたい
  • KNPとCaboCha+SynChaの主な違い
    1. KNPは文全体を見て最適な構文・各構造を決定
    2. KNPは格フレームに含まれる全ての格が解析対象
    3. 受身文、使役文の場合、出現格を解析
  • 構文解析が目的の場合はCaboCha, J.DepPがオススメ


日本語の語彙平易化システムおよび評価セットの構築 (@moguranosenshi)

  1. 形態素解析
  2. 平易語リスト(学習基本語彙)に含まれない内容語を抽出
  3. 内容語換言辞書、日本語WordNet同義語DB等を用いて換言
  4. 単語親密度データベースを用いて単語に難易度を付与


mecab-ipadic-NEologdの名詞系エントリ生成周辺の話 2015春 (@overlast)

  • mecab-ipadic-NEologdとは
    • IPA辞書を拡張したmecabのシステム辞書
    • 新語・固有表現などを160万語以上再録
    • Apache License 2.0なOSS