[Anthy-dev 3118] Cannadic の改善について

アーカイブの一覧に戻る

UTUMI Hirosi utuhi****@yahoo*****
2006年 8月 13日 (日) 18:59:05 JST


内海です。

mecab-users メーリングリストで cannadic の改善についてお尋ねしたところ、
http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-August/000154.html
-----c-----c-----
さて、mecab のダウンロードページでは
http://mecab.sourceforge.jp/#download
> Canna 辞書: 公開予定
となっていますが、おおよその公開予定はいつごろでしょうか。

cannadic では単語の頻度を人間が勘で指定しているため、
日常では使われないような単語が第一候補になってしまうことがあります。
頻度を機械的に補正した cannadic が現れれば、
Anthy など cannadic を使用した変換エンジンの精度が
大きく上がるものと期待しています。
-----c-----c-----c-----

工藤さんから次のように返信をいただきました。
http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-August/000160.html
-----c-----c-----
同意します。もっと統計処理を使って頻度情報をうまく提供できたらと
思っています。

(snip)

まずやらなければならないことをリストアップしておきます。
できれば手伝っていただけると非常に助かります。

1. cannna dic の機能語の整理
 私の理解が乏しいかもしれませんが、canna dic には助詞や助動詞といった
付属語、機能語の単語が含まれていないような気がします。(おそらく canna
本体にハードコーディングされているのかも?) これらを明示的に単語として
取り出す必要があります

2. ipa 品詞体系とのアライメント
 これは結構厄介ですが、IPA の品詞体系と canna の品詞体系をできる限り
 1対1対応で対応付けると統計処理が容易になります。
-----c-----c-----c-----

これらの点について協力してくださるかたがいらっしゃいましたら、
ぜひ mecab-users メーリングリストにご参加ください。
http://lists.sourceforge.jp/mailman/listinfo/mecab-users

よろしくお願いします。


--------------------------------------
Let's start Yahoo! Auction  -  Free Campaign Now!
http://pr.mail.yahoo.co.jp/auction/



Anthy-dev メーリングリストの案内
アーカイブの一覧に戻る