Mamoru KOMACHI
usata****@usata*****
2007年 3月 6日 (火) 22:57:05 JST
小町です。 At Tue, 06 Mar 2007 21:23:16 +0900, Yusuke TABATA wrote: > すいません、今はMEMMじゃなくなってます。 > 去年ぐらいに色々面倒だったので、最大エントロピーの分布にfittingさせるのを > やめて、経験的確率をそのままハードコードしてます。 なるほど。ある素性の組み合わせが有効だと経験的に知られているときに、デー タが少ないと組み合せで学習してくれないので、その組み合わせが出たらオン になるような素性を明示的に作っていたのかと思っていました。 やること依存だとは思いますが、やっぱり学習しようと思うとけっこうデータ が必要なので、MEMM とかにして意味が出てくるのは数千とか数万例文対がな いと厳しいかな、と予想しています。とりあえず性能があからさまに悪くなる と問題でしょうし、例文が少ないところではモデルをどう工夫してもたかが知 れているので、ハードコードでもいいのかなと思います。 > 確率もある素性の組み合わせの出現する確率じゃなくて、 > ある素性の組み合わせを出して誤変換にならなかった確率を > 使うようにしてます。 > memory basedな識別モデルというべきでしょうか。 学習誤りを最小化するような学習を行なう、ということですね。 > あと、現時点では単語を素性とはしていないので、候補の順序には > 手を付けられてないです。 単語を素性にすると一気に次元数増えるので、速く動くことも求められたりし て大変かもしれませんね。ただ単に頻度だけで同音異義語を変換し分けるのは 不可能なので、なんらかの形で周辺の文字列との組み合わせを見るような素性 を入れないと無理な気がします。Anthy の内部見ていないので適当なこと言っ ているかもしれませんが、いまは内海さんに取っていただいているような単語 1グラムの頻度を入れられるようですが、単語2グラム(「かれは」→「彼は」 と「枯葉」のどちらが多いか)・単語3グラム(「かれはが」→「彼はが」と 「枯葉が」のどちらが多いか)の頻度も入れられるなら、どちらがよく出たか という順序だけでもけっこう効くかもしれませんね。 ではでは -- Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****> Nara Institute of Science and Technology