第7回 データ構造と情報検索と言語処理勉強会 参加メモ
第7回 データ構造と情報検索と言語処理勉強会 #DSIRNLP 07に参加してきた。
30分でわかるAdam (@echizen_tm)
- Adamとは
- state of the artなオンライン学習器
- AdaGrad + RMSProp のようなもの(らしい)
- 論文に推奨パラメータが書いてある
- 正則化項は入っていない
- 更新式
Θ_t = Θ_{t-1} - α E[g] / √E[g^2]
-
- 更新幅が学習率α以下になる
- 更新幅が自動で調整される(学習率を減衰させる必要がない)
- 指数移動平均
- 初期のデータの重みが指数的に小さくなるタイプの重み付き平均
隠れセミマルコフモデルによる教師なし形態素解析 (@uchumik)
Dsirnlp#7 from Kei Uchiumi
- 教師なし品詞推定
- 基本的にHidden Markov Modelで行う
- 単語分割が与えられていることが前提
- 単語分割と品詞の教師なし同時学習
- ゼロ頻度問題
- 観測されていないngramにも適切な確率を与える必要がある
- 階層Pitman-Yor言語モデルを用いる
- 観測されていないngramにも適切な確率を与える必要がある
形態素解析器 売ってみた (@klmquasi)
- 登録する?しない?
- 説明性
- 一貫性
- 規範性
- 新語
- 一過性かどうか
- 弊害
- 辞書の肥大化
- 説明性
- 人手の介入
- クリティカルな事例
- どうしても直さなきゃいけない
- 機械学習では
- 挙動を説明できない
- 学習のたび結果が変わる
- クリティカルな事例
- どこかに介入できるところをつくる
- ルールによる補正
- ユーザー辞書
- まとめ
- 統計的手法 + 人手介入
- 辞書が大事
最近のJUMANとKNP (@cacaho)
- JUMAN
- ルールベースの形態素解析器
- KNP
- 統計ベースの統合解析器
- JUMANと他の解析器の比較
- 基本的にはMeCabがおすすめ:速度が速く、精度も高い
- JUMANがオススメな場合
- リッチなJUMAN辞書の意味解析を使いたい
- くだけた表現を多く含む
- コストやルールを人手で追加・調整したい
- KNPを使いたい
- KNPとCaboCha+SynChaの主な違い
- KNPは文全体を見て最適な構文・各構造を決定
- KNPは格フレームに含まれる全ての格が解析対象
- 受身文、使役文の場合、出現格を解析
- 構文解析が目的の場合はCaboCha, J.DepPがオススメ
日本語の語彙平易化システムおよび評価セットの構築 (@moguranosenshi)
mecab-ipadic-NEologdの名詞系エントリ生成周辺の話 2015春 (@overlast)
- 形態素解析の目的
- 接続コストの決定方法