フォーラム: 【移行しました】サポート (スレッド #39206)

ウェブクロールについて教えて下さい (2018-02-05 10:19 by hiromin #80774)

FESSはとても素晴らしい検索システムだと思っています。
FESS12.0をCentOS6.8にrpmパッケージでインストールしました。

自サーバのファイルクロールは問題なくできています。
file:/home/~username/dir/ はOKです。

ただ、ウェブクロールだと no docs になってしまいデータを取得できません。
http://host.domain/~username/dir/ はNGです。
robots.txt や .htaccess 、ウェブクロールの深さなどは確認しました。
自サーバから、w3m http://host.domain/~username/dir/ だと、ちゃんと表示
され、wget -r http://host.domain/~username/dir/ でも、全ファイルを取得できます。

fess-crawler.logは次のようになっています。
どのような原因が考えられるのでしょうか?
よろしくお願いします。

ついでで申し訳ありません。
ファイルクロールは wget -r のように再帰的にファイルを取得できます。
ウェブクロールの動作はhtmlファイルのリンクを辿っていく方法なのでしょうか?(=wget -r のような動作ではない?)

そうなのかなと思って、あえて、http://host.domain/~username/dir/index.html
配下のディレクトリのリンクを記述したのですが、結果は同じく、このindex.htmlだけを取得しただけで、リンク先のファイルは取得されませんでした。

2018-02-04 21:18:02,048 [main] INFO Starting Crawler..
2018-02-04 21:18:02,239 [WebFsCrawler] INFO no modules loaded
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.in
dex.reindex.ReindexPlugin]
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.jo
in.ParentJoinPlugin]
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.pe
rcolator.PercolatorPlugin]
2018-02-04 21:18:02,241 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.sc
ript.mustache.MustachePlugin]
2018-02-04 21:18:02,241 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.tr
ansport.Netty4Plugin]
2018-02-04 21:18:02,338 [WebFsCrawler] INFO Connected to localhost:9300
2018-02-04 21:18:02,650 [WebFsCrawler] INFO Target URL: http://host.domain/~username/dir/
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Included URL: .*/$
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Included URL: .*\.html$
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Excluded URL: .*\.jpg$
2018-02-04 21:18:02,652 [WebFsCrawler] INFO Excluded URL: .*\.png$
2018-02-04 21:18:12,723 [IndexUpdater] INFO Processing no docs (Doc:{access 10m
s}, Mem:{used 122MB, heap 191MB, max 494MB})
2018-02-04 21:18:22,690 [IndexUpdater] INFO Processing no docs (Doc:{access 7ms
}, Mem:{used 123MB, heap 191MB, max 494MB})
2018-02-04 21:18:52,690 [IndexUpdater] INFO Processing no docs (Doc:{access 7ms
}, Mem:{used 124MB, heap 191MB, max 494MB})
2018-02-04 21:19:02,064 [CoreLib-TimeoutManager] INFO [SYSTEM MONITOR] {"os":{"
memory":{"physical":{"free":113922048,"total":3024973824},"swap_space":{"free":6
(中略)
2018-02-04 21:20:02,690 [IndexUpdater] INFO Processing no docs (Doc:{access 6ms}, Mem:{used 133MB, heap 191MB, max 494MB})
2018-02-04 21:20:02,690 [IndexUpdater] INFO [EXEC TIME] index update time: 126ms
2018-02-04 21:20:02,964 [main] INFO Finished Crawler
2018-02-04 21:20:03,239 [main] INFO [CRAWL INFO] CrawlerEndTime=2018-02-04T21:20:02.965+0900,WebFsCrawlExecTime=111006,CrawlerStatus=true,CrawlerStartTime=2018-02-04T21:18:02.048+0900,WebFsCrawlEndTime=2018-02-04T21:20:02.964+0900,WebFsIndexExecTime=126,WebFsIndexSize=0,CrawlerExecTime=120917,WebFsCrawlStartTime=2018-02-04T21:18:02.114+0900
2018-02-04 21:20:08,274 [main] INFO Disconnected to elasticsearch:localhost:9300

メッセージ #80774 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする