[mecab-devel 15] Re: コーパスから推定したパラメータ値について

アーカイブの一覧に戻る

Taku Kudo taku****@chase*****
2006年 2月 15日 (水) 22:08:28 JST


工藤です

> そして、"final" folder にある辞書ファイル "MySeed.csv"
> を開いて、単語のコストを確認しましたが、同じ品詞なのに、単語によって単語コストは結構違います。例えば、
>
>  本,28,28,402,名詞,一般,*,*,*,*,本,ホン,ホン
>  株式,28,28,-400,名詞,一般,*,*,*,*,株式,カブシキ,カブシキ
>  市場,28,28,31,名詞,一般,*,*,*,*,市場,シジョウ,シジョー
>
> この現象が expected behavior かどうか、どういう原因か、ちょっと教えていただけますか。

corpus の内容が分からないのでなんともいえませんが、一般的に
たとえおなじ品詞でも単語によってコストが変わります。ただし、
コーパスの量が極端に少ないとコストの値そのものの信頼性は低くなります。



Mecab-devel メーリングリストの案内
アーカイブの一覧に戻る