UTUMI Hirosi
utuhi****@yahoo*****
2005年 9月 2日 (金) 15:15:37 JST
内海です。 anthy の辞書はファイルが多岐に分かれている上に (gcanna.ctd, base.t, katakana.t, compound.t, extra.t, name.t) Anthy形式/Canna形式/adjust.t/*.depword などがあるので、 誤変換が起きたときどの辞書に問題があるのか分かりづらいです。 語句のダブり欠落を防いだり表記の統一を図るには 一覧性が大事だと思います。また 辞書編集ツールからすれば辞書形式が統一されていないと 統合的に辞書を編集することができません。 *.depword はやむを得ないにしても、その他のファイルは 形式を揃えてひとつのファイルにまとまっているほうが 良いと思います。 辞書編集を多人数で行うための布石にもなります。 以前 田畑さんが変換エンジン間で辞書形式を統一するプロジェクトを 提唱されていたと思うのですが、Anthy だけでもその形式に 準拠できないでしょうか。 http://ukai.org/wiliki/wiliki.cgi?%BC%AD%BD%F1%B6%A6%C4%CC%B2%BD&l=jp ---------------------------------- たたき台 tabata 案 例: <word name="雨" yomi="あめ"> <entry> <pos>一般名詞</pos> <cclass>無活用</cclass> <freq>100</freq> </entry> </word> <!-- ;name 見出し ;yomi 読み ;pos (Part Of Speech) 品詞 ;cclass (Conjugate Class) 活用型 ;freq (Frequency) 頻度 --> ---------------------------------- 一語を複数行に分けて登録すると一覧性が落ちるので、 私は ---------------------------------- ;見出し,読み,品詞,活用型,頻度 雨,あめ,無活用,100 ---------------------------------- のような形が良いと思います。 カンマ区切りの CSV 形式にすると、 表計算ソフトで開く -> 頻度で並べ替え -> 一定頻度以下の特殊な単語を削除 ということができるかもしれません。 (管腔 や 京濤 や 趣味語をまとめて削れる) 私の環境で何万行も開けるかどうかは分かりませんが。:-) また見出しで並べ替えて "御" で始まる語を "お" に 表記を統一することも易しいと思います。 __________________________________ Take an action against poverty http://pr.mail.yahoo.co.jp/whiteband/