UTUMI Hirosi
utuhi****@yahoo*****
2006年 8月 13日 (日) 18:59:05 JST
内海です。 mecab-users メーリングリストで cannadic の改善についてお尋ねしたところ、 http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-August/000154.html -----c-----c----- さて、mecab のダウンロードページでは http://mecab.sourceforge.jp/#download > Canna 辞書: 公開予定 となっていますが、おおよその公開予定はいつごろでしょうか。 cannadic では単語の頻度を人間が勘で指定しているため、 日常では使われないような単語が第一候補になってしまうことがあります。 頻度を機械的に補正した cannadic が現れれば、 Anthy など cannadic を使用した変換エンジンの精度が 大きく上がるものと期待しています。 -----c-----c-----c----- 工藤さんから次のように返信をいただきました。 http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-August/000160.html -----c-----c----- 同意します。もっと統計処理を使って頻度情報をうまく提供できたらと 思っています。 (snip) まずやらなければならないことをリストアップしておきます。 できれば手伝っていただけると非常に助かります。 1. cannna dic の機能語の整理 私の理解が乏しいかもしれませんが、canna dic には助詞や助動詞といった 付属語、機能語の単語が含まれていないような気がします。(おそらく canna 本体にハードコーディングされているのかも?) これらを明示的に単語として 取り出す必要があります 2. ipa 品詞体系とのアライメント これは結構厄介ですが、IPA の品詞体系と canna の品詞体系をできる限り 1対1対応で対応付けると統計処理が容易になります。 -----c-----c-----c----- これらの点について協力してくださるかたがいらっしゃいましたら、 ぜひ mecab-users メーリングリストにご参加ください。 http://lists.sourceforge.jp/mailman/listinfo/mecab-users よろしくお願いします。 -------------------------------------- Let's start Yahoo! Auction - Free Campaign Now! http://pr.mail.yahoo.co.jp/auction/