[groonga-dev,01768] Re: 仮想メモリサイズを超えるmroongaのインデックス構築について

アーカイブの一覧に戻る

Naoya Murakami visio****@gmail*****
2013年 9月 11日 (水) 08:19:09 JST


お世話になっております。村上です。

>トークンの最大出現回数に違いはありそうですか?例えば、
>1つの文 書に「the」がたくさんあり、さらに多くの文書が同じように「the」
>をたくさん含んでいる、というようなことがあるかどうかです。

> ↑はGRN_II_MAX_TFが関連してくる値なのですが、GRN_II_MAX_TFを
>大きくしたためにデータが壊れているのではないか、というのが気
>になりました。

以下、4パターンでためしてみましたが、全部失敗しました。。

(1)GRN_II_MAX_TFをもとの値にもどす。
(2)物理的に別のサーバで試す。
(3)スワップを増やす。
(4)語彙数を減らすために頻出するストップワードがインデックスされないようにトークナイザをいじる。
サイズは、46GiB→38GiBに減りましたが、やはり失敗しました。
https://github.com/Naoyami/groonga-tokenizer-customized

んー。。前は、テーブル分割すれば、まちがいなくインデックス構築できていたのですが。
もう一度、テーブルを分割して、インデックス構築ができるか試して、データが
おかしくなっていないか試してみたいと思います。
0x00の置換処理したときにおかしくなったのかなぁ。。

テーブル分割してみて、インデックス構築ができるのであれば、カラムをわけてもだめで、
テーブル全体である程度インデックスまたはデータが大きくなると失敗する?
あれ、でも、日本語の方はいけたのになぁ。。

あとは、でかいカラムをテーブル参照に置き換えてみたり、もう少し、試行錯誤してみようと
思います。大変だなぁ。。

以上です。



groonga-dev メーリングリストの案内
アーカイブの一覧に戻る