[Senna-dev 918] NGRAMインデックスを利用している場合のキーワードマッチ条件について

アーカイブの一覧に戻る

Haruhiko Mitsuya 3arro****@gmail*****
2008年 6月 14日 (土) 17:09:41 JST


お世話になっております。みつやと申します。

Senna(Tritonn)のNGRAMインデックスを利用している場合の
キーワードマッチ条件について調べております。



今のところ、最新のTritton1.0.9の設定を規定値で動作させております。

インデックスも規定値で作成していますので、n-gram(Sennaの規定値で
おそらくbigram?)形式になっているはずです。


n-gramであればmecabで動作させている場合にくらべて、辞書に無い
キーワードでもヒットし易いはずと考えておりました。


ところが、英単語の一部分などで検索をかけると、結構な割合で検索
漏れが発生してしまいます。

例えば、

cards
audio

では検索ヒットしますが、


ca
aud


ではヒットしません。



TCD-12
KH-Y54


このようなありがちな製品IDのような文字列もヒットしたり、ヒット
しなかったりします。




[Senna-dev 664] NGRAM での英数字の部分一致検索について
http://lists.sourceforge.jp/mailman/archives/senna-dev/2007-August/000663.html


ここでも説明されているように、純粋にn-gram化されているわけではない
ように感じられるのですが、規定値の動作としては、実際のところどのような
仕様になっているのでしょうか。


※公式サイトなどを探してみましたが、そのものズバリと思えるような解説
ページなどは見つけられませんでした。。


もし、どなたかご教示頂けましたら誠に幸いです。




Senna-dev メーリングリストの案内
アーカイブの一覧に戻る