Sumio Ebisawa
ebisa****@aa*****
2004年 12月 28日 (火) 01:36:01 JST
海老澤です。お世話になります。 連絡が遅れてしまい、申し訳ございません。 > テキスト形式で実行するとMUSASHIは > 自動でソートしてくれませんので、 Unixのuniqコマンドと同じようですね。ご指摘の通り、ソートしてから 集計したら正しく動作しました。これは「-q」のオプションと同じ、と いう理解でよろしいのでしょうか? ----- Original Message ----- From: "nakahara" <nakap****@yahoo*****> To: <musas****@lists*****> Sent: Wednesday, December 22, 2004 1:44 AM Subject: [MUSASHI-users 447] Re: テキストファイルと XML テーブルで xtcount の結果が異なる > 中原です。 > > 以下で問題となるのはソートだと思います。 > テキスト形式で実行するとMUSASHIは > 自動でソートしてくれませんので、 > xtcountを使用する前にキー項目のソートが必要だと > 思います。 > > xtcountの前に以下のソートを付け加えて実行して見てくださ > い。 > > xtsort -t -k1,2 | > > これで問題なく動作すると思います。 > > --- Sumio Ebisawa <ebisa****@aa*****> からのメッセー > ジ: > > 海老澤です。お世話になります。 > > > > > > musashiを利用したアクセスログ解析システムを構築中です > 。ログ > > ファイルを「会員ID URL 時間 > > 参照元」と並べ替えたログファイルを > > 会員IDとURLの組み合わせで集計したいと考えています。 > > > > つまり > > > > 001 /a.html 2月1日 www.yahoo.co.jp > > 001 /b.html 2月1日 www.yahoo.co.jp > > 001 /a.html 2月1日 www.yahoo.co.jp > > 002 /a.html 2月1日 www.yahoo.co.jp > > 003 /a.html 2月1日 www.yahoo.co.jp > > > > というデータを > > > > 001 /a.html 1 > > 001 /b.html 2 > > 002 /a.html 1 > > 003 /a.html 1 > > > > とまとめたいわけです。 > > > > txt2xt -aID,URL,TIME,REF -l test -i > > 【ログファイル】| xtcut -fID,URL | > > xtcount -kID,SI -a PV -o 【出力結果】 > > > > で問題なく処理できたのですが、これをXMLテーブルを使用 > しない形 > > > > xtcut -f1,2-i 【ログファイル】| xtcount -k1,2 -o > > 【出力結果】 > > > > で実行すると、同じ会員IDとURLの組み合わせがマージされ > たり > > されなかったり、という現象が発生しています。 > > > > 検証用に少ないデータで実行すると問題ないのですが、100 > 万行くらい > > かけると誤差(最終的に足し合わせれば数字は合うのですが > )が発生 > > します。なにか、私の設定で足りないところがあるのでしょ > うか? > > > > > > > > > > > > > > _______________________________________________ > > MUSASHI-users mailing list > > MUSAS****@lists***** > > > http://lists.sourceforge.jp/mailman/listinfo/musashi-users > > _______________________________________________ > MUSASHI-users mailing list > MUSAS****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/musashi-users > > > ---- Mail UNO! Advertising ------------------------------------------------- > ■■ザ・プロバイダ、インフォスフィア。 http://www.sphere.ad.jp ■■ > --------------------------------------------------------------- by ad system