Naoya Murakami
visio****@gmail*****
2013年 9月 11日 (水) 08:19:09 JST
お世話になっております。村上です。 >トークンの最大出現回数に違いはありそうですか?例えば、 >1つの文 書に「the」がたくさんあり、さらに多くの文書が同じように「the」 >をたくさん含んでいる、というようなことがあるかどうかです。 > ↑はGRN_II_MAX_TFが関連してくる値なのですが、GRN_II_MAX_TFを >大きくしたためにデータが壊れているのではないか、というのが気 >になりました。 以下、4パターンでためしてみましたが、全部失敗しました。。 (1)GRN_II_MAX_TFをもとの値にもどす。 (2)物理的に別のサーバで試す。 (3)スワップを増やす。 (4)語彙数を減らすために頻出するストップワードがインデックスされないようにトークナイザをいじる。 サイズは、46GiB→38GiBに減りましたが、やはり失敗しました。 https://github.com/Naoyami/groonga-tokenizer-customized んー。。前は、テーブル分割すれば、まちがいなくインデックス構築できていたのですが。 もう一度、テーブルを分割して、インデックス構築ができるか試して、データが おかしくなっていないか試してみたいと思います。 0x00の置換処理したときにおかしくなったのかなぁ。。 テーブル分割してみて、インデックス構築ができるのであれば、カラムをわけてもだめで、 テーブル全体である程度インデックスまたはデータが大きくなると失敗する? あれ、でも、日本語の方はいけたのになぁ。。 あとは、でかいカラムをテーブル参照に置き換えてみたり、もう少し、試行錯誤してみようと 思います。大変だなぁ。。 以上です。