[Anthy-dev 338] anthy-4901

アーカイブの一覧に戻る

yusuk****@cheru***** yusuk****@cheru*****
2004年 1月 1日 (木) 04:12:45 JST


田畑です。

最近のanthyの開発では次のようなことをやってます。
(1)文節の関係を解析する機構をつける
 文節が「〜は 〜です」のように並んでいればそれを統合し
 擬似的な文節を作るというような処理をして、文中の構造を
 作っていくようなコードを書いています。専門用語ではこれを
 統語処理というらしいです。
 文節にはどういう種類があり、どのように結合するかの
 モデルを作るのに時間がかかっています。
(2)UTF-8対応する
 ソースコードのあちこちにEUC-JPがハードコードされて
 いるので、 少しずつ直しています。

この手の大物の他にもどうでも良いハックを日々やっていて、
郵便番号辞書へのアクセスを付けました。いまのところ
手抜きで、わざわざ設定してまで使う程のことはないですが、
とりあえず使いかたを書いておきます
/usr/(local/)etc/anthy-conf としてインストールされる
anthyの設定ファイルに
ZIPDICT_EUC /var/lib/canna/dic/canna/zipcode.ctd
のようにRedHatのCannaについていた郵便番号辞書ファイルを
指定するという他のOSのユーザには申し訳ない手抜きです。
辞書ファイルへのアクセスは候補が出た時だけになってるので、
メモリはほとんど消費しません。

#このコードを書いている時に「100にん」を変換すると
#「東京都千代田区人」が出てくるというヘマをやってました、、、

--
 CHAOS AND CHANCE!
  Yusuke TABATA (yusuk****@cheru*****)



Anthy-dev メーリングリストの案内
アーカイブの一覧に戻る