OSDN > ソフトウェアを探す > インターネット > WWW/HTTP > インデキシング/検索 > Ludia > チケット一覧/検索 > チケット #11202

Ludia

チケット #11202
チケット一覧/検索 新規チケット登録  RSS

類似分書検索の特徴語抽出の条件について

登録: 2007-10-26 19:29 最終更新: 2007-11-16 10:08

モニタ

報告者:

ssn

担当者:

(未割り当て)

チケットの種類:

バグ

状況:

オープン

コンポーネント:

(未割り当て)

マイルストーン:

(未割り当て)

優先度:

5 - 中

重要度:

5 - 中

解決法:

なし

ファイル:

なし

詳細

類似分書検索の特徴語抽出の条件について

■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4

■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048

■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素

■現象

特徴語の抽出条件は文章中で出現頻度が高い語のはずなので

１．ヒットするケース
whre DATA @@ '*S1 "ライオン　ライオン　トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする

２．ヒットしないケース
whre DATA @@ '*S1 "トラ　ライオン　ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。

私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。

よろしくお願いします。

チケットの履歴 (6 件中 3 件表示)

2007-10-31 09:01 更新者: co-saka

Logged In: YES
user_id=23292

ご報告ありがとうございます！！！
非常に助かります。

上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html

Subversionでの取得方法
http://qwik.jp/senna/Download.html

今後もバグなど見つかりましたら、
ご報告よろしくお願いします。

2007-11-09 11:57 更新者: ssn

Logged In: YES
user_id=31583

rev 610にて確認しました。

上記の異常ケース
＞２．ヒットしないケース
については対応確認出来ました。
ありがとうございます。

しかし新たに問題が…
３．ヒットするケース
whre DATA @@ '*S1 "トラ　トラ　ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。

仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね？

また同じ出現頻度の物があった場合
例
検索文字列(トラ　トラ　ライオン　ライオン)
抽出後 (トラ　ライオン)
で *S1　とした場合はどちらで検索しに行くのでしょうか？

追加質問で申し訳ありませんが

よろしくお願いします。

2007-11-13 08:42 更新者: co-saka

Logged In: YES
user_id=23292

> で認識あってますよね？
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い（0は除く）形態素が特徴語
になります。
> ３．ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。

検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。

> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。

2007-11-13 11:44 更新者: ssn

Logged In: YES
user_id=31583

問題解決しました。ありがとうございます。

類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか？

2007-11-16 08:57 更新者: co-saka

Logged In: YES
user_id=23292

類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。

2007-11-16 10:08 更新者: ssn

Logged In: YES
user_id=31583

回答ありがとうございます。

sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。

たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。

添付ファイルリスト

添付ファイルはありません

Ludia

チケット #11202
チケット一覧/検索 新規チケット登録  RSS

類似分書検索の特徴語抽出の条件について

登録: 2007-10-26 19:29 最終更新: 2007-11-16 10:08

モニタ

詳細

チケットの履歴 (6 件中 3 件表示)

2007-10-31 09:01 更新者: co-saka

コメント

2007-11-09 11:57 更新者: ssn

コメント

2007-11-13 08:42 更新者: co-saka

コメント

2007-11-13 11:44 更新者: ssn

コメント

2007-11-16 08:57 更新者: co-saka

コメント

2007-11-16 10:08 更新者: ssn

コメント

添付ファイルリスト

編集

Ludia

チケット #11202 チケット一覧/検索 新規チケット登録 RSS

類似分書検索の特徴語抽出の条件について 登録: 2007-10-26 19:29 最終更新: 2007-11-16 10:08 モニタ ON OFF

詳細 返信

チケットの履歴 (6 件中 3 件表示) 古い履歴を表示

2007-10-31 09:01 更新者: co-saka

コメント 返信

2007-11-09 11:57 更新者: ssn

コメント 返信

2007-11-13 08:42 更新者: co-saka

コメント 返信

2007-11-13 11:44 更新者: ssn

コメント 返信

2007-11-16 08:57 更新者: co-saka

コメント 返信

2007-11-16 10:08 更新者: ssn

コメント 返信

添付ファイルリスト

編集

チケット #11202
チケット一覧/検索新規チケット登録 RSS

類似分書検索の特徴語抽出の条件について

登録: 2007-10-26 19:29 最終更新: 2007-11-16 10:08

モニタ

詳細

チケットの履歴 (6 件中 3 件表示)

コメント

コメント

コメント

コメント

コメント

コメント