yusuk****@cheru*****
yusuk****@cheru*****
2004年 1月 1日 (木) 04:12:45 JST
田畑です。 最近のanthyの開発では次のようなことをやってます。 (1)文節の関係を解析する機構をつける 文節が「〜は 〜です」のように並んでいればそれを統合し 擬似的な文節を作るというような処理をして、文中の構造を 作っていくようなコードを書いています。専門用語ではこれを 統語処理というらしいです。 文節にはどういう種類があり、どのように結合するかの モデルを作るのに時間がかかっています。 (2)UTF-8対応する ソースコードのあちこちにEUC-JPがハードコードされて いるので、 少しずつ直しています。 この手の大物の他にもどうでも良いハックを日々やっていて、 郵便番号辞書へのアクセスを付けました。いまのところ 手抜きで、わざわざ設定してまで使う程のことはないですが、 とりあえず使いかたを書いておきます /usr/(local/)etc/anthy-conf としてインストールされる anthyの設定ファイルに ZIPDICT_EUC /var/lib/canna/dic/canna/zipcode.ctd のようにRedHatのCannaについていた郵便番号辞書ファイルを 指定するという他のOSのユーザには申し訳ない手抜きです。 辞書ファイルへのアクセスは候補が出た時だけになってるので、 メモリはほとんど消費しません。 #このコードを書いている時に「100にん」を変換すると #「東京都千代田区人」が出てくるというヘマをやってました、、、 -- CHAOS AND CHANCE! Yusuke TABATA (yusuk****@cheru*****)