yusuk****@cheru*****
yusuk****@cheru*****
2004年 1月 27日 (火) 22:44:47 JST
田畑です。 anthy-4925をリリースしました。 #anthy.elのundoの処理はまだです。 今まで「統語解析」と言ってたものが少し動きはじめて、 それなりに精度が向上しているのですが、人間の統語過程の モデルとしては実物に程遠いので、今後は「統語解析」と 言うのはやめておこうと思います。 anthyの変換過程は、まず、文節の形をした文字列を文の中から 列挙し、それを選択していくというものですが、 文節を組み合わせたデータ構造をあらかじめ作っておいて、 それも選択肢とするというように移行しつつあります。 興味のある人はsrc-splitter/syntactic.cを見てください。 #小さな構文木を多数作っているので、構文森などとネタで言ってます。 計算量を抑えるためのheuristicsを適当に考えつつ、検索範囲を 広げるのが目の前のテーマです。また、最近はutf8化してもSEGV しなくなりました(←変換までは行ってないです)。 PS. 197 @ 2chスレ#1さん、長く放置してごめんなさい。sf.jpに wikiを設置して、そこに内容を移そうと思うのですが、 手が付けられていません。 -- CHAOS AND CHANCE! Yusuke TABATA (yusuk****@cheru*****)