[Ludia-users 118] Re: 形態素インデックスで投入に1秒以上かかります

アーカイブの一覧に戻る

iwasa****@nttda***** iwasa****@nttda*****
2007年 10月 17日 (水) 17:45:27 JST


岩崎です。


> デフォルト設定(initial_n_segments=512)で実施したところ、15万件ほど投入し
> たところで下記のエラーが出ました。
> 
> LOG:  pgsenna2: |A| malloc fail (132633168)=(nil) (inv.c:934) <605>
> ERROR:  pgsenna2: sen_index_update failed 

返信が遅くなってすみません。
もしかすると、
バージョン1.3のマルチカラムインデックス対応で改変した部分が
関係しているかもしれません。

可能であれば、
一度ludia-1.2.0を使って試してみていただけないでしょうか。


> そこで、initial_n_segments=2048、max_n_index_cache=64に設定して、
> もう一度行ったところ、15万件ほど投入したところで、
> 突然、ルートファイルシステムが読み取り専用になってしまい、
> 投入するプロセスが異常終了するという結果になりました。

もしテストする過程で不要になったインデックスファイルが
ディスクにたまってしまっている場合、
psql等で不要なインデックスをDROPしたあと、
以下の要領でクリーンアップしてみてください。

  # SELECT pgs2destroy();


よろしくおねがいします。



-----Original Message-----
From: ludia****@lists*****
[mailto:ludia****@lists*****] On Behalf Of Shunsuke
Tanaka
Sent: Thursday, October 11, 2007 10:21 AM
To: ludia****@lists*****
Subject: [Ludia-users 108] Re: 形態素インデックスで投入に1秒以上かかります

田中です。

> utf8とEUC_JPが混在していて良くない感じですね。
> データはEUC_JPのままで使いたいので、全てをEUC_JPに統一して、
> もう一度やってみたいと思います。
 
mecab、mecabの辞書、senna、PostgreSQL、データを全てEUC_JPに統一したところ、
10万件以上スムーズに(1件の投入時間が1秒未満で)投入できるようになりました。
 
> それから、
> インデックス対象のテキストデータの総サイズは3万件程度では10GBは超えないと
思います。
> 10万件くらいになると10GBは超える可能性があるので、
> データ投入がスムーズにできるようになり、10万件くらい投入できて、
> それっぽいエラーが出るようならば、initial_n_segmentsを変えて試してみたいと
思います。

デフォルト設定(initial_n_segments=512)で実施したところ、15万件ほど投入し
たところで下記のエラーが出ました。

LOG:  pgsenna2: |A| malloc fail (132633168)=(nil) (inv.c:934) <605>
ERROR:  pgsenna2: sen_index_update failed

そこで、initial_n_segments=2048、max_n_index_cache=64に設定して、
もう一度行ったところ、15万件ほど投入したところで、
突然、ルートファイルシステムが読み取り専用になってしまい、
投入するプロセスが異常終了するという結果になりました。
ログにはエラーは出ていませんでした。

使用したハードウェアは以下の通りなのですが、
メモリは2Gでは足らないのでしょうか?

> > > Dell Precision 470
> > > CPU:  Xeon 2.8GHz × 2
> > > Memory:  2Gbyte
> > > HDD:  SATA 400Gbyte  7200rpm

よろしくお願いします。

_______________________________________________
Ludia-users mailing list
Ludia****@lists*****
http://lists.sourceforge.jp/mailman/listinfo/ludia-users




Ludia-users メーリングリストの案内
アーカイブの一覧に戻る