morit****@razil*****
morit****@razil*****
2013年 9月 11日 (水) 12:41:35 JST
お世話になっております。森です。 提供頂いたデータで手元で実行したところ、mysqldがsegvで停止するところまで 再現することができました。まだ再現しただけで原因の解析まではできていないのですが、 時間がとれたタイミングでこちらの方でも原因を調査したいと考えています。 どうぞよろしくお願いします。 2013/9/11 Naoya Murakami <visio****@gmail*****> > お世話になっております。村上です。 > > >トークンの最大出現回数に違いはありそうですか?例えば、 > >1つの文 書に「the」がたくさんあり、さらに多くの文書が同じように「the」 > >をたくさん含んでいる、というようなことがあるかどうかです。 > > > ↑はGRN_II_MAX_TFが関連してくる値なのですが、GRN_II_MAX_TFを > >大きくしたためにデータが壊れているのではないか、というのが気 > >になりました。 > > 以下、4パターンでためしてみましたが、全部失敗しました。。 > > (1)GRN_II_MAX_TFをもとの値にもどす。 > (2)物理的に別のサーバで試す。 > (3)スワップを増やす。 > (4)語彙数を減らすために頻出するストップワードがインデックスされないようにトークナイザをいじる。 > サイズは、46GiB→38GiBに減りましたが、やはり失敗しました。 > https://github.com/Naoyami/groonga-tokenizer-customized > > んー。。前は、テーブル分割すれば、まちがいなくインデックス構築できていたのですが。 > もう一度、テーブルを分割して、インデックス構築ができるか試して、データが > おかしくなっていないか試してみたいと思います。 > 0x00の置換処理したときにおかしくなったのかなぁ。。 > > テーブル分割してみて、インデックス構築ができるのであれば、カラムをわけてもだめで、 > テーブル全体である程度インデックスまたはデータが大きくなると失敗する? > あれ、でも、日本語の方はいけたのになぁ。。 > > あとは、でかいカラムをテーブル参照に置き換えてみたり、もう少し、試行錯誤してみようと > 思います。大変だなぁ。。 > > 以上です。 > _______________________________________________ > groonga-dev mailing list > groon****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/groonga-dev >