[Anthy-dev 3413] Re: alt-cannadic の非活用語を mecab-ipadic に取り込む

アーカイブの一覧に戻る

Mamoru KOMACHI usata****@usata*****
2007年 3月 6日 (火) 22:57:05 JST


小町です。

At Tue, 06 Mar 2007 21:23:16 +0900,
Yusuke TABATA wrote:

> すいません、今はMEMMじゃなくなってます。
> 去年ぐらいに色々面倒だったので、最大エントロピーの分布にfittingさせるのを
> やめて、経験的確率をそのままハードコードしてます。

なるほど。ある素性の組み合わせが有効だと経験的に知られているときに、デー
タが少ないと組み合せで学習してくれないので、その組み合わせが出たらオン
になるような素性を明示的に作っていたのかと思っていました。

やること依存だとは思いますが、やっぱり学習しようと思うとけっこうデータ
が必要なので、MEMM とかにして意味が出てくるのは数千とか数万例文対がな
いと厳しいかな、と予想しています。とりあえず性能があからさまに悪くなる
と問題でしょうし、例文が少ないところではモデルをどう工夫してもたかが知
れているので、ハードコードでもいいのかなと思います。

> 確率もある素性の組み合わせの出現する確率じゃなくて、
> ある素性の組み合わせを出して誤変換にならなかった確率を
> 使うようにしてます。
> memory basedな識別モデルというべきでしょうか。

学習誤りを最小化するような学習を行なう、ということですね。

> あと、現時点では単語を素性とはしていないので、候補の順序には
> 手を付けられてないです。

単語を素性にすると一気に次元数増えるので、速く動くことも求められたりし
て大変かもしれませんね。ただ単に頻度だけで同音異義語を変換し分けるのは
不可能なので、なんらかの形で周辺の文字列との組み合わせを見るような素性
を入れないと無理な気がします。Anthy の内部見ていないので適当なこと言っ
ているかもしれませんが、いまは内海さんに取っていただいているような単語
1グラムの頻度を入れられるようですが、単語2グラム(「かれは」→「彼は」
と「枯葉」のどちらが多いか)・単語3グラム(「かれはが」→「彼はが」と
「枯葉が」のどちらが多いか)の頻度も入れられるなら、どちらがよく出たか
という順序だけでもけっこう効くかもしれませんね。

ではでは

-- 
Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****>
Nara Institute of Science and Technology



Anthy-dev メーリングリストの案内
アーカイブの一覧に戻る