Re: 仮想メモリサイズを超えるmroongaのインデックス構築について (groonga-dev,01768) - Groonga - fulltext search engine.

お世話になっております。村上です。

>トークンの最大出現回数に違いはありそうですか？例えば、
>1つの文 書に「the」がたくさんあり、さらに多くの文書が同じように「the」
>をたくさん含んでいる、というようなことがあるかどうかです。

> ↑はGRN_II_MAX_TFが関連してくる値なのですが、GRN_II_MAX_TFを
>大きくしたためにデータが壊れているのではないか、というのが気
>になりました。

以下、４パターンでためしてみましたが、全部失敗しました。。

（１）GRN_II_MAX_TFをもとの値にもどす。
（２）物理的に別のサーバで試す。
（３）スワップを増やす。
（４）語彙数を減らすために頻出するストップワードがインデックスされないようにトークナイザをいじる。
サイズは、46GiB→38GiBに減りましたが、やはり失敗しました。
https://github.com/Naoyami/groonga-tokenizer-customized

んー。。前は、テーブル分割すれば、まちがいなくインデックス構築できていたのですが。
もう一度、テーブルを分割して、インデックス構築ができるか試して、データが
おかしくなっていないか試してみたいと思います。
0x00の置換処理したときにおかしくなったのかなぁ。。

テーブル分割してみて、インデックス構築ができるのであれば、カラムをわけてもだめで、
テーブル全体である程度インデックスまたはデータが大きくなると失敗する？
あれ、でも、日本語の方はいけたのになぁ。。

あとは、でかいカラムをテーブル参照に置き換えてみたり、もう少し、試行錯誤してみようと
思います。大変だなぁ。。

以上です。

Groonga - fulltext search engine.

[groonga-dev,01768] Re: 仮想メモリサイズを超えるmroongaのインデックス構築について