[MUSASHI-users 454] Re: テキストファイルと XML テーブルで xtcount の結果が異なる

アーカイブの一覧に戻る

nakahara nakap****@yahoo*****
2004年 12月 28日 (火) 22:02:47 JST


中原です。

> Unixのuniqコマンドと同じようですね。ご指摘の通り、ソー
トしてから
> 集計したら正しく動作しました。これは「-q」のオプション
と同じ、と
> いう理解でよろしいのでしょうか?

-qは、-kが指定されていても、入力データのレコード順で処理
しなさいというオプションですので、上記は違う意味だと思い
ます。

テキスト形式のデータを処理する場合は、-qの有無に関わらず
キー項目が自動で並び換えされませんので、-qはxmlTableのと
きに
意味のあるオプションだと思います。

わかりにくいと思いますので、以下に例を示します。

入力データがxmlTableの場合
1. xtcount -kID -aNum -i file1.xt -o file2.xt
2. xtcount -q -kID -aNum -i file1.xt -o file2.xt

1.の場合は-kIDが指定されていますので、入力ファイルがID順
に並んでいなければ、自動で並び換えてから、カウント処理が
行われます。
2.の場合は、-kIDが指定されているのですが、-qも指定されて
いるため入力ファイルがID順に並んでいるか、並んでないかに
関わらず、入力ファイルのレコード順に処理されます。

入力データがテキストの場合
3. xtcount -t -k1 -i file1.txt -o file2.txt
4. xtcount -q -t -k1 -i file1.txt -o file2.txt

テキストの場合は、-kが指定されていても、
自動では並び換えてくれませんので、レコード順に処理されま
す。
ですからテキストの場合ですと3、4は同じ結果になります

--- Sumio Ebisawa <ebisa****@aa*****>さんからのメッセ
ージ:
> 海老澤です。お世話になります。
> 
> 
> 連絡が遅れてしまい、申し訳ございません。
> 
> > テキスト形式で実行するとMUSASHIは
> > 自動でソートしてくれませんので、
> 
> Unixのuniqコマンドと同じようですね。ご指摘の通り、ソー
トしてから
> 集計したら正しく動作しました。これは「-q」のオプション
と同じ、と
> いう理解でよろしいのでしょうか?
> 
> 
> ----- Original Message ----- 
> From: "nakahara" <nakap****@yahoo*****>
> To: <musas****@lists*****>
> Sent: Wednesday, December 22, 2004 1:44 AM
> Subject: [MUSASHI-users 447] Re: テキストファイルと
> XML テーブルで xtcount
> の結果が異なる
> 
> 
> > 中原です。
> >
> > 以下で問題となるのはソートだと思います。
> > テキスト形式で実行するとMUSASHIは
> > 自動でソートしてくれませんので、
> > xtcountを使用する前にキー項目のソートが必要だと
> > 思います。
> >
> >
> xtcountの前に以下のソートを付け加えて実行して見てくだ
さ
> > い。
> >
> > xtsort -t -k1,2 |
> >
> > これで問題なく動作すると思います。
> >
> > --- Sumio Ebisawa <ebisa****@aa*****>
> からのメッセー
> > ジ:
> > > 海老澤です。お世話になります。
> > >
> > >
> > >
> musashiを利用したアクセスログ解析システムを構築中です
> > 。ログ
> > > ファイルを「会員ID URL 時間
> > > 参照元」と並べ替えたログファイルを
> > >
> 会員IDとURLの組み合わせで集計したいと考えています。
> > >
> > > つまり
> > >
> > > 001 /a.html 2月1日 www.yahoo.co.jp
> > > 001 /b.html 2月1日 www.yahoo.co.jp
> > > 001 /a.html 2月1日 www.yahoo.co.jp
> > > 002 /a.html 2月1日 www.yahoo.co.jp
> > > 003 /a.html 2月1日 www.yahoo.co.jp
> > >
> > > というデータを
> > >
> > > 001 /a.html 1
> > > 001 /b.html 2
> > > 002 /a.html 1
> > > 003 /a.html 1
> > >
> > > とまとめたいわけです。
> > >
> > > txt2xt -aID,URL,TIME,REF -l test -i
> > > 【ログファイル】| xtcut -fID,URL |
> > > xtcount -kID,SI -a PV -o 【出力結果】
> > >
> > >
> で問題なく処理できたのですが、これをXMLテーブルを使用
> > しない形
> > >
> > > xtcut -f1,2-i 【ログファイル】| xtcount -k1,2 -o
> > > 【出力結果】
> > >
> > >
> で実行すると、同じ会員IDとURLの組み合わせがマージされ
> > たり
> > > されなかったり、という現象が発生しています。
> > >
> > >
> 検証用に少ないデータで実行すると問題ないのですが、100
> > 万行くらい
> > >
> かけると誤差(最終的に足し合わせれば数字は合うのですが
> > )が発生
> > >
> します。なにか、私の設定で足りないところがあるのでしょ
> > うか?
> > >
> > >
> > >
> > >
> > >
> > >
> > > _______________________________________________
> > > MUSASHI-users mailing list
> > > MUSAS****@lists*****
> > >
> >
>
http://lists.sourceforge.jp/mailman/listinfo/musashi-users
> >
> > _______________________________________________
> > MUSASHI-users mailing list
> > MUSAS****@lists*****
> >
>
http://lists.sourceforge.jp/mailman/listinfo/musashi-users
> >
> >
> > ---- Mail UNO!
> Advertising
> -------------------------------------------------
> > 
>
 ■■ザ・プロバイダ、インフォスフィア。  http://www.sphere.ad.jp
> ■■
>  
> >
>
---------------------------------------------------------------
> by ad
> system
> 
> _______________________________________________
> MUSASHI-users mailing list
> MUSAS****@lists*****
>
http://lists.sourceforge.jp/mailman/listinfo/musashi-users




MUSASHI-users メーリングリストの案内
アーカイブの一覧に戻る