Re: 形態素インデックスで投入に1秒以上かかります (Ludia-users 105) - Ludia

田中です。

返信ありがとうございます。

mecab -D の実行結果は以下の通りです。

filename:       /usr/local/lib/mecab/dic/ipadic/sys.dic
version:        102
charset:        utf8
type:   0
size:   392126
left size:      1316
right size:     1316

文字コードはutf8になっています。
インストールマニュアルの通りにインストールして、
utf8と設定した記憶もあります。

投入したデータはEUC_JPです。
PostgreSQLの方はinitdb実行時に --encoding=EUC_JP --no-locale オプション
を付けています。
Sennaの方は /var/senna/senna.conf に DEFAULT_ENCODING utf8 と設定しています。
(前にLudia 1.0.0をインストールしたときに設定してそのままになってました。)

utf8とEUC_JPが混在していて良くない感じですね。
データはEUC_JPのままで使いたいので、全てをEUC_JPに統一して、
もう一度やってみたいと思います。


それから、
インデックス対象のテキストデータの総サイズは3万件程度では10GBは超えないと思います。
10万件くらいになると10GBは超える可能性があるので、
データ投入がスムーズにできるようになり、10万件くらい投入できて、
それっぽいエラーが出るようならば、initial_n_segmentsを変えて試してみたいと思います。

> 末永と申します。
> 
> MeCabの辞書の文字コードは何になっていますでしょうか？
> シェルで「mecab -D」を実行した結果を教えていただけると
> 切り分けに役立ちます。
> 
> Shunsuke Tanaka さんは書きました:
> > 田中と申します。
> > 
> > 初めて投稿します。よろしくお願いします。
> > 
> > 形態素インデックスでデータを連続して投入していたら、3万件くらい投入した
> > ところから1件投入するのに1秒以上かかるようになり、処理がほとんど進まなく
> > なってしまい困っております。
> > 
> > 行った作業の順番は以下の通りです。
> >   テーブルを作成
> >   形態素インデックスを作成
> >   データを1件ずつINSERT文で投入
> > 
> > テーブルには列が4つありますが、1つの列だけに形態素インデックスを作成しま
> > した。
> > 形態素インデックスを作成した列のデータは、可変長で、小さいものは数十Kバ
> > イト、大きい物では数Mバイトで、たいていは100Kバイト程度です。
> > 
> > PostgreSQLのログに以下の出力が大量に出ているのが少し気になります。
> > LOG:  pgsenna2: |w| invalid euc-jp string end on sen_str_charlen
> > 
> > なお、同じデータを2-gramインデックスで投入したときは上記のログは出力されません。
> > 
> > 使用したソフトウェアは以下の通りです。
> > Ludia 1.3.0
> > Senna 1.0.9
> > mecab 0.96
> > mecab-ipadic 2.7.0 20070801
> > PostgreSQL 8.2.4
> > Linux ( Fedora Core 2 (32bit版) (Kernel 2.6.5) )
> > 
> > 使用したハードウェアは以下の通りです。
> > Dell Precision 470
> > CPU:  Xeon 2.8GHz × 2
> > Memory:  2Gbyte
> > HDD:  SATA 400Gbyte  7200rpm
> > 
> > よろしくお願いします。
> ---
> Tasuku SUENAGA <a****@razil*****>
> 
> _______________________________________________
> Ludia-users mailing list
> Ludia****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/ludia-users
>

Ludia

[Ludia-users 105] Re: 形態素インデックスで投入に1秒以上かかります