[mecab-users 102] Re: CRFパラメータ学習について

アーカイブの一覧に戻る

NOKUBI Takatsugu knok****@daion*****
2006年 5月 9日 (火) 08:38:50 JST


At Tue, 9 May 2006 02:29:08 +0900,
Taku Kudo wrote:
> mecab-tool -b -i foo.txt -o foo
> 
> としてバイナリに変換すればそのまま辞書作成のモデルになります。

  バイナリへの変換自体はたいしてメモリを必要としないようですね。なんと
か実現できました。どうもありがとうございます。

  できあがった辞書を評価してみました。

              precision        recall         F
LEVEL 2:   85.7621(1866527/2176401) 84.3684(1866527/2212353) 85.0595
              precision        recall         F
LEVEL ALL: 76.0847(1655908/2176401) 74.8483(1655908/2212353) 75.4614

  mecab-system-eval出力の読み方なのですが、ソースを見たところ数値はパー
セントだと理解しました。precisionは正確性についてだと思うのですが、
recallの値が何を意味しているのかはちょっとよくわかりません(想起の正し
さ?)。

  素性はせいぜい2-3ぐらいしか使っていないので、2でみる限りはまあそこそ
この精度がでているように見えます。

  実データをみてみると、単語が同じで読み方や素性が異なるものが選択され
ることがままあるようです。とはいえ、自分の用途ではそれほど大きな問題で
はないので、実用にはなりそうな感じです。

> はい。もし余裕があるのでしたら、重複を許しつつランダムにサンプリングして、最後にマージするといい結果が得られるかもしれません。

  このあたりにも挑戦して、どれくらい精度が向上するか試してみようと思い
ます。
-- 
野首 貴嗣
E-mail: knok****@daion*****
	knok****@namaz***** / knok****@debia*****



mecab-users メーリングリストの案内
アーカイブの一覧に戻る