Snorkelの識別モデルについて(理論編)
前回で生成モデルを用いてを推定するところをまとめた。
kento1109.hatenablog.com
(論文の解釈に自信が無い部分もあるが・・)
生成モデルにより、データに対応するラベルが生成できた。
https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf
教師ありデータを識別モデルを用いてモデリングする。
Weak Supervisionより引用
2値分類の識別モデルなので、損失関数はロジスティック損失を用いる。
ロジスティック損失は、次式で定義される。
を与えて、で正しく識別している。の時、の値が大きいほど、識別境界から離れて余裕をもって識別できる。(その分、は小さくなるので、損失値も小さい。)パラメータは、最尤法により求める。
ただし、今回の場合、は観測できないので、生成モデルにより求めたを利用する。
よってロジスティック損失は、
となる。
確率的勾配法などで最適なを求める。
また、論文の後半では、ラベリング関数同士の依存関係を考慮したモデルなどが紹介されているが、まとめられる程理解できていない・・
もう少し、勉強して理解できたら補足していきたい。