ダウンロード
Magazine
開発
アカウント
ダウンロード
Magazine
開発
ログイン
アカウント/パスワードを忘れた
アカウント作成
言語
ヘルプ
言語
ヘルプ
×
ログイン
ログイン名
パスワード
×
アカウント/パスワードを忘れた
日本語の翻訳状況
カテゴリ:
ソフトウェア
人物
PersonalForge
Magazine
Wiki
検索
OSDN
>
ソフトウェアを探す
>
インターネット
>
WWW/HTTP
>
インデキシング/検索
>
Ludia
>
チケット一覧/検索
>
チケット #11202
Ludia
概要
プロジェクト概要
開発ダッシュボード
Webページ
開発メンバー
画像ギャラリー
公開フィード一覧
活動
統計情報
活動履歴
ダウンロード
リリース一覧
統計
チケット
チケット一覧
マイルストーン一覧
チケットの種類一覧
コンポーネント一覧
よく使われるチケット一覧のリスト/RSS
新規チケット登録
文書
Wiki
FrontPageの表示
ページ一覧
最近の更新
文書マネージャ
文書一覧
コミュニケーション
フォーラム
フォーラム一覧
ヘルプ (2)
公開討議 (1)
メーリングリスト
MLの一覧
ludia-users
ニュース
チケット #11202
チケット一覧/検索
新規チケット登録
RSS
類似分書検索の特徴語抽出の条件について
登録:
2007-10-26 19:29
最終更新:
2007-11-16 10:08
モニタ
ON
OFF
報告者:
ssn
担当者:
(未割り当て)
チケットの種類:
バグ
状況:
オープン
コンポーネント:
(未割り当て)
マイルストーン:
(未割り当て)
優先度:
5 - 中
重要度:
5 - 中
解決法:
なし
ファイル:
なし
詳細
返信
類似分書検索の特徴語抽出の条件について
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。
チケットの履歴 (6 件中 3 件表示)
古い履歴を表示
2007-10-31 09:01
更新者:
co-saka
コメント
返信
Logged In: YES
user_id=23292
ご報告ありがとうございます!!!
非常に助かります。
上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html
Subversionでの取得方法
http://qwik.jp/senna/Download.html
今後もバグなど見つかりましたら、
ご報告よろしくお願いします。
2007-11-09 11:57
更新者:
ssn
コメント
返信
Logged In: YES
user_id=31583
rev 610にて確認しました。
上記の異常ケース
>2.ヒットしないケース
については対応確認出来ました。
ありがとうございます。
しかし新たに問題が…
3.ヒットするケース
whre DATA @@ '*S1 "トラ トラ ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。
仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね?
また同じ出現頻度の物があった場合
例
検索文字列(トラ トラ ライオン ライオン)
抽出後 (トラ ライオン)
で *S1 とした場合はどちらで検索しに行くのでしょうか?
追加質問で申し訳ありませんが
よろしくお願いします。
2007-11-13 08:42
更新者:
co-saka
コメント
返信
Logged In: YES
user_id=23292
> で認識あってますよね?
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い(0は除く)形態素が特徴語
になります。
> 3.ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。
検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。
> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。
2007-11-13 11:44
更新者:
ssn
コメント
返信
Logged In: YES
user_id=31583
問題解決しました。ありがとうございます。
類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか?
2007-11-16 08:57
更新者:
co-saka
コメント
返信
Logged In: YES
user_id=23292
類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。
2007-11-16 10:08
更新者:
ssn
コメント
返信
Logged In: YES
user_id=31583
回答ありがとうございます。
sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。
たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。
添付ファイルリスト (
0
)
添付ファイルリスト
添付ファイルはありません
編集
コメントの追加
ログインしていません。
ログインしていない状態では、コメントに記載者の記録が残りません。 »
ログインする
コメントの追加
プレビュー
適用
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。