Haruhiko Mitsuya
3arro****@gmail*****
2008年 6月 14日 (土) 17:09:41 JST
お世話になっております。みつやと申します。 Senna(Tritonn)のNGRAMインデックスを利用している場合の キーワードマッチ条件について調べております。 今のところ、最新のTritton1.0.9の設定を規定値で動作させております。 インデックスも規定値で作成していますので、n-gram(Sennaの規定値で おそらくbigram?)形式になっているはずです。 n-gramであればmecabで動作させている場合にくらべて、辞書に無い キーワードでもヒットし易いはずと考えておりました。 ところが、英単語の一部分などで検索をかけると、結構な割合で検索 漏れが発生してしまいます。 例えば、 cards audio では検索ヒットしますが、 ca aud ではヒットしません。 TCD-12 KH-Y54 このようなありがちな製品IDのような文字列もヒットしたり、ヒット しなかったりします。 [Senna-dev 664] NGRAM での英数字の部分一致検索について http://lists.sourceforge.jp/mailman/archives/senna-dev/2007-August/000663.html ここでも説明されているように、純粋にn-gram化されているわけではない ように感じられるのですが、規定値の動作としては、実際のところどのような 仕様になっているのでしょうか。 ※公式サイトなどを探してみましたが、そのものズバリと思えるような解説 ページなどは見つけられませんでした。。 もし、どなたかご教示頂けましたら誠に幸いです。