石橋 卓見
ishib****@syste*****
2017年 6月 2日 (金) 14:31:52 JST
堀本さま お世話になります。システムソフト石橋です。 ご連絡遅くなりすみません。 これは推定値なのですね。勉強になります! 今回、TF-IDFスコア算出結果をアプリで利用することを検討しているの ですが、その際のスコアの妥当性や、もう一歩踏み込んで、独自の ロジックでスコアの補正などを行いたいと考えております。 この推定値についてもアプリで今後何らか役に立つかもしれませんので 必要に応じてソースを見ていきたいと思います。 今回、お忙しいところありがとうございました! 以上 -- 株式会社システムソフト システム事業部 情報テクノロジ部 石橋 卓見 <ishib****@syste*****> 常駐先 ( KDDI研究所SS分室 ) 049-278-7507 携帯電話 090-9689-0997 自宅 04-2928-6313 On Wed, 31 May 2017 18:32:40 +0900 HorimotoYasuhiro <horim****@clear*****> wrote: > To:石橋さん > > こんにちは。堀本です。 > > 「select Terms」の結果、表示されている、「message_index」は「_key」で > 検索を行った場合に何件程度Hitするかの推定値です。 > > 例えば [4,"マクドナルド",1] であれば、「マクドナルド」で検索した際に、 > 1件程度Hitしそう という意味です。 > あくまでも、推定値なので、正確な値ではありません。 > > 以上です。失礼いたします。 > > On 2017年05月24日 18:12, 石橋 卓見 wrote: > > > > 各位様 > > > > 大変有用なGroonga、ならびにMroongaをいつも利用させていただいております。 > > 石橋と申します。お忙しいところ恐縮ですが、1点質問をさせて下さい。 > > > > > > 以下の手順にて、文書テーブル(Logs)と、全文検索の為の索引テーブル > > (Terms - message_index)を作成し、文書テーブルにサンプルデータを > > 3行 登録致しました。 > > -------------------------------------------------------------------- > > $ groonga -n /tmp/sample.db > >> table_create Logs TABLE_NO_KEY > >> column_create Logs message COLUMN_SCALAR Text > >> table_create Terms TABLE_PAT_KEY ShortText \ > > --default_tokenizer TokenMecab \ > > --normalizer NormalizerAuto > >> column_create Terms message_index COLUMN_INDEX|WITH_POSITION Logs message > >> load --table Logs > > [ > > {"message": "【衝撃】マクドナルドが公式に「ベッキーバーガー」を発売! その味はゲスなほどウマかった(笑)"}, > > {"message": "ベッキー「気持ち分かる」ノンスタ井上に共感"}, > > {"message": "ゲス不倫にお買い物中毒…20代女子が親に秘密にしていること3選"}, > > ] > > -------------------------------------------------------------------- > > > > その後に、select Terms にてデータを確認したところ、期待通りMecabにて > > トークナイズされていることを確認出来ました。 > > -------------------------------------------------------------------- > >> select Terms --limit 999 > > [[0,1495615305.558772,0.0003552436828613281],[[[47],[["_id","UInt32"],["_key","ShortText"],["message_index","UInt32"]],[13,"!",1],[23,"(",1],[25,")",1],[36,"...",1],[37,"20",1],[46,"3",1],[8,"「",11],[10,"」",13],[1,"【",1],[3,"】",1],[44,"いる",1],[33,"お",1],[21,"かっ",1],[5,"が",8],[45,"こと",1],[42,"し",1],[14,"その",1],[22,"た",1],[43,"て",1],[18,"な",1],[7,"に",11],[16,"は",1],[19,"ほど",1],[11,"を",1],[20,"ウマ",1],[17,"ゲス",20],[29,"ノンスタ",1],[26,"ベッキー",1],[9,"ベッキーバーガー",1],[4,"マクドナルド",1],[32,"不倫",1],[35,"中毒",1],[30,"井上",1],[38,"代",1],[6,"公式",1],[31,"共感",1],[28,"分かる",1],[15,"味",1],[39,"女子",1],[27,"気持ち",1],[12,"発売",1],[41,"秘密",1],[24,"笑",1],[2,"衝撃",1],[40,"親",1],[34,"買い物",1],[47,"$ > > BA*�",1]]]] > > -------------------------------------------------------------------- > > > > この時の結果 "message_index"についてですが、どのような意味があるのかが > > わからず、今回質問をさせていただきました。 > > [17,"ゲス",20] の20の値の意味を教えていただけると助かります・・・ > > ぱっと見たところ、出現数が多い程大きいように見受けられるので、スコアの > > ようなものでしょうか? > > > > 元々、message_indexには、単語毎に、Logsテーブルのどの文書(id)に出現したか > > どうかの情報が入っているのかと思っておりました。 > > # 例えば、「ゲス」という単語であれば、1,3 、「ベッキー」は 1,2 のようなもの > > > > このような情報はGroongaより取得できるのでしょうか。 > > > > Groongaの内部的な仕組みについてよくわかっておらず、恐縮ですが、アドバイスを > > 頂けると助かります。 > > > > どうぞよろしくお願い致します。 > > > > > > -- > > > > 株式会社システムソフト > > システム事業部 情報テクノロジ部 > > 石橋 卓見 <ishib****@syste*****> > > 常駐先 ( KDDI研究所SS分室 ) 049-278-7507 > > 携帯電話 090-9689-0997 自宅 04-2928-6313 > > > > > > > > _______________________________________________ > > groonga-dev mailing list > > groon****@lists***** > > http://lists.osdn.me/mailman/listinfo/groonga-dev > > > > _______________________________________________ > groonga-dev mailing list > groon****@lists***** > http://lists.osdn.me/mailman/listinfo/groonga-dev