katz's adversaria

第7回データ構造と情報検索と言語処理勉強会参加メモ

NLP

第7回データ構造と情報検索と言語処理勉強会 #DSIRNLP 07に参加してきた。

30分でわかるAdam (@echizen_tm)

資料

Adamとは
- state of the artなオンライン学習器
- AdaGrad + RMSProp のようなもの(らしい)
- 論文に推奨パラメータが書いてある
- 正則化項は入っていない

更新式



Θ_t = Θ_{t-1} - α E[g] / √E[g^2]

- 更新幅が学習率α以下になる
- 更新幅が自動で調整される（学習率を減衰させる必要がない）

指数移動平均
- 初期のデータの重みが指数的に小さくなるタイプの重み付き平均

まとめ
- E[g] / √E[g^2] でパラメータを更新
- 期待値計算に指数移動平均を使う
- 指数移動平均のバイアスを打ち消す工夫がある

Adam: A method for Stochastic Optimization

隠れセミ マルコフモデルによる教師なし形態素解析 (@uchumik)

Dsirnlp#7 from Kei Uchiumi

教師あり形態素解析
- 形態素辞書を引いて、見つかった形態素でラティスを作る

従来の教師なし形態素解析
- 最小記述長原理に基づく手法
  - 分割方法はヒューリスティック
- ベイズ学習手法
  - 単語境界を隠れ変数として推定する
- 品詞は考慮されていない

教師なし品詞推定
- 基本的にHidden Markov Modelで行う
- 単語分割が与えられていることが前提

単語分割と品詞の教師なし同時学習

提案手法の生成モデル
- 隠れセミマルコフモデル

ゼロ頻度問題
- 観測されていないngramにも適切な確率を与える必要がある
  - 階層Pitman-Yor言語モデルを用いる

形態素解析器売ってみた (@klmquasi)

形態素解析器売ってみた from JustSystems Corpration

登録する？しない？
- 説明性
  - 一貫性
  - 規範性
- 新語
  - 一過性かどうか
- 弊害
  - 辞書の肥大化

人手の介入
- クリティカルな事例
  - どうしても直さなきゃいけない
- 機械学習では
  - 挙動を説明できない
  - 学習のたび結果が変わる

どこかに介入できるところをつくる
- ルールによる補正
- ユーザー辞書

まとめ
- 統計的手法 + 人手介入
- 辞書が大事

最近のJUMANとKNP (@cacaho)

JUMAN
- ルールベースの形態素解析器

KNP
- 統計ベースの統合解析器

JUMANと他の解析器の比較
- 基本的にはMeCabがおすすめ：速度が速く、精度も高い

JUMANがオススメな場合
- リッチなJUMAN辞書の意味解析を使いたい
- くだけた表現を多く含む
- コストやルールを人手で追加・調整したい
- KNPを使いたい

KNPとCaboCha+SynChaの主な違い
1. KNPは文全体を見て最適な構文・各構造を決定
2. KNPは格フレームに含まれる全ての格が解析対象
3. 受身文、使役文の場合、出現格を解析

構文解析が目的の場合はCaboCha, J.DepPがオススメ

日本語の語彙平易化システムおよび評価セットの構築 (@moguranosenshi)

日本語の語彙平易化システムおよび評価セットの構築 from Tomoyuki Kajiwara

語彙平易化システム

形態素解析
平易語リスト（学習基本語彙）に含まれない内容語を抽出
内容語換言辞書、日本語WordNet同義語DB等を用いて換言
単語親密度データベースを用いて単語に難易度を付与

SNOW E4:語彙平易化評価セット

mecab-ipadic-NEologdの名詞系エントリ生成周辺の話 2015春 (@overlast)

mecab-ipadic-NEologdとは
- IPA辞書を拡張したmecabのシステム辞書
- 新語・固有表現などを160万語以上再録
- Apache License 2.0なOSS

形態素解析の目的
- 形態素解析結果を得ること自体
  - 分析したり、モデルを作ったり
- 検索エンジンの転置インデックス
  - 日本語は単語境界が機械から見て非自明
- テキスト情報から特徴ベクトル作成
- 表記の誤り訂正のための読み仮名付与

接続コストの決定方法
- ヒューリスティック