ダウンロード
Magazine
開発
アカウント
ダウンロード
Magazine
開発
ログイン
アカウント/パスワードを忘れた
アカウント作成
言語
ヘルプ
言語
ヘルプ
×
ログイン
ログイン名
パスワード
×
アカウント/パスワードを忘れた
日本語の翻訳状況
カテゴリ:
ソフトウェア
人物
PersonalForge
Magazine
Wiki
検索
OSDN
>
ソフトウェアを探す
>
インターネット
>
WWW/HTTP
>
インデキシング/検索
>
Fess: 全文検索システム
>
フォーラム
>
【移行しました】サポート
>
ウェブクロールについて教えて下さい
概要
プロジェクト概要
開発ダッシュボード
Webページ
開発メンバー
画像ギャラリー
公開フィード一覧
活動
統計情報
活動履歴
ダウンロード
リリース一覧
統計
ソースコード
コードリポジトリリスト
Subversion
リポジトリ閲覧
コミュニケーション
フォーラム
フォーラム一覧
【移行しました】サポート (1161)
【移行しました】機能要求 (35)
メーリングリスト
MLの一覧
fess-user
ニュース
フォーラム:
【移行しました】サポート
(スレッド #39206)
話題(スレッド)一覧に戻る
RSS
ウェブクロールについて教えて下さい (2018-02-05 10:19 by
hiromin
#80774)
返信
FESSはとても素晴らしい検索システムだと思っています。
FESS12.0をCentOS6.8にrpmパッケージでインストールしました。
自サーバのファイルクロールは問題なくできています。
file:/home/~username/dir/ はOKです。
ただ、ウェブクロールだと no docs になってしまいデータを取得できません。
http://host.domain/~username/dir/
はNGです。
robots.txt や .htaccess 、ウェブクロールの深さなどは確認しました。
自サーバから、w3m
http://host.domain/~username/dir/
だと、ちゃんと表示
され、wget -r
http://host.domain/~username/dir/
でも、全ファイルを取得できます。
fess-crawler.logは次のようになっています。
どのような原因が考えられるのでしょうか?
よろしくお願いします。
ついでで申し訳ありません。
ファイルクロールは wget -r のように再帰的にファイルを取得できます。
ウェブクロールの動作はhtmlファイルのリンクを辿っていく方法なのでしょうか?(=wget -r のような動作ではない?)
そうなのかなと思って、あえて、
http://host.domain/~username/dir/index.html
に
配下のディレクトリのリンクを記述したのですが、結果は同じく、このindex.htmlだけを取得しただけで、リンク先のファイルは取得されませんでした。
2018-02-04 21:18:02,048 [main] INFO Starting Crawler..
2018-02-04 21:18:02,239 [WebFsCrawler] INFO no modules loaded
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.in
dex.reindex.ReindexPlugin]
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.jo
in.ParentJoinPlugin]
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.pe
rcolator.PercolatorPlugin]
2018-02-04 21:18:02,241 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.sc
ript.mustache.MustachePlugin]
2018-02-04 21:18:02,241 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.tr
ansport.Netty4Plugin]
2018-02-04 21:18:02,338 [WebFsCrawler] INFO Connected to localhost:9300
2018-02-04 21:18:02,650 [WebFsCrawler] INFO Target URL:
http://host.domain/~username/dir/
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Included URL: .*/$
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Included URL: .*\.html$
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Excluded URL: .*\.jpg$
2018-02-04 21:18:02,652 [WebFsCrawler] INFO Excluded URL: .*\.png$
2018-02-04 21:18:12,723 [IndexUpdater] INFO Processing no docs (Doc:{access 10m
s}, Mem:{used 122MB, heap 191MB, max 494MB})
2018-02-04 21:18:22,690 [IndexUpdater] INFO Processing no docs (Doc:{access 7ms
}, Mem:{used 123MB, heap 191MB, max 494MB})
2018-02-04 21:18:52,690 [IndexUpdater] INFO Processing no docs (Doc:{access 7ms
}, Mem:{used 124MB, heap 191MB, max 494MB})
2018-02-04 21:19:02,064 [CoreLib-TimeoutManager] INFO [SYSTEM MONITOR] {"os":{"
memory":{"physical":{"free":113922048,"total":3024973824},"swap_space":{"free":6
(中略)
2018-02-04 21:20:02,690 [IndexUpdater] INFO Processing no docs (Doc:{access 6ms}, Mem:{used 133MB, heap 191MB, max 494MB})
2018-02-04 21:20:02,690 [IndexUpdater] INFO [EXEC TIME] index update time: 126ms
2018-02-04 21:20:02,964 [main] INFO Finished Crawler
2018-02-04 21:20:03,239 [main] INFO [CRAWL INFO] CrawlerEndTime=2018-02-04T21:20:02.965+0900,WebFsCrawlExecTime=111006,CrawlerStatus=true,CrawlerStartTime=2018-02-04T21:18:02.048+0900,WebFsCrawlEndTime=2018-02-04T21:20:02.964+0900,WebFsIndexExecTime=126,WebFsIndexSize=0,CrawlerExecTime=120917,WebFsCrawlStartTime=2018-02-04T21:18:02.114+0900
2018-02-04 21:20:08,274 [main] INFO Disconnected to elasticsearch:localhost:9300
メッセージ #80774 への返信
×
題名
本文
メッセージ #80774 への返信 > FESSはとても素晴らしい検索システムだと思っています。 > FESS12.0をCentOS6.8にrpmパッケージでインストールしました。 > > 自サーバのファイルクロールは問題なくできています。 > file:/home/~username/dir/ はOKです。 > > ただ、ウェブクロールだと no docs になってしまいデータを取得できません。 > http://host.domain/~username/dir/ はNGです。 > robots.txt や .htaccess 、ウェブクロールの深さなどは確認しました。 > 自サーバから、w3m http://host.domain/~username/dir/ だと、ちゃんと表示 > され、wget -r http://host.domain/~username/dir/ でも、全ファイルを取得できます。 > > fess-crawler.logは次のようになっています。 > どのような原因が考えられるのでしょうか? > よろしくお願いします。 > > ついでで申し訳ありません。 > ファイルクロールは wget -r のように再帰的にファイルを取得できます。 > ウェブクロールの動作はhtmlファイルのリンクを辿っていく方法なのでしょうか?(=wget -r のような動作ではない?) > > そうなのかなと思って、あえて、http://host.domain/~username/dir/index.html に > 配下のディレクトリのリンクを記述したのですが、結果は同じく、このindex.htmlだけを取得しただけで、リンク先のファイルは取得されませんでした。 > > 2018-02-04 21:18:02,048 [main] INFO Starting Crawler.. > 2018-02-04 21:18:02,239 [WebFsCrawler] INFO no modules loaded > 2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.in > dex.reindex.ReindexPlugin] > 2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.jo > in.ParentJoinPlugin] > 2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.pe > rcolator.PercolatorPlugin] > 2018-02-04 21:18:02,241 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.sc > ript.mustache.MustachePlugin] > 2018-02-04 21:18:02,241 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.tr > ansport.Netty4Plugin] > 2018-02-04 21:18:02,338 [WebFsCrawler] INFO Connected to localhost:9300 > 2018-02-04 21:18:02,650 [WebFsCrawler] INFO Target URL: http://host.domain/~username/dir/ > 2018-02-04 21:18:02,651 [WebFsCrawler] INFO Included URL: .*/$ > 2018-02-04 21:18:02,651 [WebFsCrawler] INFO Included URL: .*\.html$ > 2018-02-04 21:18:02,651 [WebFsCrawler] INFO Excluded URL: .*\.jpg$ > 2018-02-04 21:18:02,652 [WebFsCrawler] INFO Excluded URL: .*\.png$ > 2018-02-04 21:18:12,723 [IndexUpdater] INFO Processing no docs (Doc:{access 10m > s}, Mem:{used 122MB, heap 191MB, max 494MB}) > 2018-02-04 21:18:22,690 [IndexUpdater] INFO Processing no docs (Doc:{access 7ms > }, Mem:{used 123MB, heap 191MB, max 494MB}) > 2018-02-04 21:18:52,690 [IndexUpdater] INFO Processing no docs (Doc:{access 7ms > }, Mem:{used 124MB, heap 191MB, max 494MB}) > 2018-02-04 21:19:02,064 [CoreLib-TimeoutManager] INFO [SYSTEM MONITOR] {"os":{" > memory":{"physical":{"free":113922048,"total":3024973824},"swap_space":{"free":6 > (中略) > 2018-02-04 21:20:02,690 [IndexUpdater] INFO Processing no docs (Doc:{access 6ms}, Mem:{used 133MB, heap 191MB, max 494MB}) > 2018-02-04 21:20:02,690 [IndexUpdater] INFO [EXEC TIME] index update time: 126ms > 2018-02-04 21:20:02,964 [main] INFO Finished Crawler > 2018-02-04 21:20:03,239 [main] INFO [CRAWL INFO] CrawlerEndTime=2018-02-04T21:20:02.965+0900,WebFsCrawlExecTime=111006,CrawlerStatus=true,CrawlerStartTime=2018-02-04T21:18:02.048+0900,WebFsCrawlEndTime=2018-02-04T21:20:02.964+0900,WebFsIndexExecTime=126,WebFsIndexSize=0,CrawlerExecTime=120917,WebFsCrawlStartTime=2018-02-04T21:18:02.114+0900 > 2018-02-04 21:20:08,274 [main] INFO Disconnected to elasticsearch:localhost:9300 >
Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。
ログインする
ニックネーム
プレビュー
投稿
キャンセル