Taku Kudo
taku****@chase*****
2007年 3月 6日 (火) 02:58:29 JST
工藤です mecab-jumandic-5.1-20070304 を公開しました. http://mecab.sourceforge.net/ からダウンロードできます. Juman の元辞書から mecab の辞書へ変換するスクリプトに 致命的なバグがあり,一部の単語が追加されていませんでした. スクリプトを修正しCRF の再学習をすることで,オリジナルの Jumanと同程度かそれ以上の精度を達成しています. mecab: precision recall F LEVEL 0: 99.1688(964807/972894) 98.7096(964807/977420) 98.9386 LEVEL 1: 98.0406(953831/972894) 97.5866(953831/977420) 97.8131 LEVEL 2: 97.1800(945458/972894) 96.7300(945458/977420) 96.9544 LEVEL 3: 97.1628(945291/972894) 96.7129(945291/977420) 96.9373 LEVEL 4: 97.1235(944909/972894) 96.6738(944909/977420) 96.8981 juman: precision recall F LEVEL 0: 99.0246(963404/972894) 98.6340(963404/976746) 98.8289 LEVEL 1: 97.4439(948026/972894) 97.0596(948026/976746) 97.2514 LEVEL 2: 96.3871(937744/972894) 96.0069(937744/976746) 96.1966 LEVEL 3: 96.2323(936238/972894) 95.8528(936238/976746) 96.0421 LEVEL 4: 96.2295(936211/972894) 95.8500(936211/976746) 96.0394 (それぞれ京大コーパスを使ったオープンテストです) 解析速度は,Juman の 1/6 ぐらいです. % time juman < sen > /dev/null juman < sen > /dev/null 122.97s user 1.00s system 99% cpu 2:04.53 total % time mecab -d ../ < sen > /dev/null mecab -d ../ < sen > /dev/null 20.13s user 0.60s system 99% cpu 20.769 total - taku