Shunsuke Tanaka
tanak****@nttda*****
2007年 10月 10日 (水) 09:23:51 JST
田中です。 返信ありがとうございます。 mecab -D の実行結果は以下の通りです。 filename: /usr/local/lib/mecab/dic/ipadic/sys.dic version: 102 charset: utf8 type: 0 size: 392126 left size: 1316 right size: 1316 文字コードはutf8になっています。 インストールマニュアルの通りにインストールして、 utf8と設定した記憶もあります。 投入したデータはEUC_JPです。 PostgreSQLの方はinitdb実行時に --encoding=EUC_JP --no-locale オプション を付けています。 Sennaの方は /var/senna/senna.conf に DEFAULT_ENCODING utf8 と設定しています。 (前にLudia 1.0.0をインストールしたときに設定してそのままになってました。) utf8とEUC_JPが混在していて良くない感じですね。 データはEUC_JPのままで使いたいので、全てをEUC_JPに統一して、 もう一度やってみたいと思います。 それから、 インデックス対象のテキストデータの総サイズは3万件程度では10GBは超えないと思います。 10万件くらいになると10GBは超える可能性があるので、 データ投入がスムーズにできるようになり、10万件くらい投入できて、 それっぽいエラーが出るようならば、initial_n_segmentsを変えて試してみたいと思います。 > 末永と申します。 > > MeCabの辞書の文字コードは何になっていますでしょうか? > シェルで「mecab -D」を実行した結果を教えていただけると > 切り分けに役立ちます。 > > Shunsuke Tanaka さんは書きました: > > 田中と申します。 > > > > 初めて投稿します。よろしくお願いします。 > > > > 形態素インデックスでデータを連続して投入していたら、3万件くらい投入した > > ところから1件投入するのに1秒以上かかるようになり、処理がほとんど進まなく > > なってしまい困っております。 > > > > 行った作業の順番は以下の通りです。 > > テーブルを作成 > > 形態素インデックスを作成 > > データを1件ずつINSERT文で投入 > > > > テーブルには列が4つありますが、1つの列だけに形態素インデックスを作成しま > > した。 > > 形態素インデックスを作成した列のデータは、可変長で、小さいものは数十Kバ > > イト、大きい物では数Mバイトで、たいていは100Kバイト程度です。 > > > > PostgreSQLのログに以下の出力が大量に出ているのが少し気になります。 > > LOG: pgsenna2: |w| invalid euc-jp string end on sen_str_charlen > > > > なお、同じデータを2-gramインデックスで投入したときは上記のログは出力されません。 > > > > 使用したソフトウェアは以下の通りです。 > > Ludia 1.3.0 > > Senna 1.0.9 > > mecab 0.96 > > mecab-ipadic 2.7.0 20070801 > > PostgreSQL 8.2.4 > > Linux ( Fedora Core 2 (32bit版) (Kernel 2.6.5) ) > > > > 使用したハードウェアは以下の通りです。 > > Dell Precision 470 > > CPU: Xeon 2.8GHz × 2 > > Memory: 2Gbyte > > HDD: SATA 400Gbyte 7200rpm > > > > よろしくお願いします。 > --- > Tasuku SUENAGA <a****@razil*****> > > _______________________________________________ > Ludia-users mailing list > Ludia****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/ludia-users >