対象データサンプルは、gooブログアドバンスドのバックアップデータ、および、goo編集画面の該当する過去記事一覧から取得したhtmlソースコードである。

gooブログのバックアップデータには、ブログ記事本体のURLの記載がない。よってそれを補完するために、goo編集画面から取得した過去記事一覧のhtmlソースコードが必要となった。 これらを適宜マージすることにより gooブログ記事のバックアップ、と、そのURL、との対照、が可能となるであろう。

その次に行わなくてはならないのが、データの解析用ミニマム部分の抽出。

my必要部分は別途抽出するとして、差しさわりの少ない部分だけを公開しようか。 とりあえずは本文からは、リンク情報の抽出部のみ

*記事作成日時刻 記事タイトル名 記事URL 記事本文中<a herf URL トラックバック先URL コメント者URL

このうち、記事タイトル名は省略できる可能性もある。 記事作成日時刻に重複がなければ、記事作成日時刻を記事とURLを繋ぐキーとする。まあ、同時刻秒で記事作成は無いかな?

で、ブログ記事のデータ構造をしらべていきたい。


余裕があれば、myブログ主要参照先数箇所のトラックバックの参照元との和集合も確認しときたい、、