Yuichi MURATA
i0712****@coins*****
2007年 8月 6日 (月) 02:36:26 JST
村田です Windows バイナリで mecab を利用しているのですが、 mecab-dict-gen で上手くコスト値が書き出せていないように思います。 コスト値が 3 桁ごとにカンマ付きで出力されてしまっているようです。 つまり "単語 100,100,1300,素性1,素性2" となるはずが "単語 100,100,1,300,素性1,素性2" となってしまうのです。 このカンマが csv のカンマと勘違いされて、コスト値が誤認識されたり、 上記 300 の部分が素性として扱われてしまったりします。 Microsft Visual C++ では、 locale が japanese に設定されていると、 ofstream で整数を出力する際に 3 桁ごとに勝手にカンマを入れてしまいます。 どうもこの辺が悪さをしているようです。 -- #Yuichi MURATA Collage of Information, Univ. of Tsukuba i0712****@coins*****