スレッド【移行しました】サポート:ウェブクロールについて教えて下さい - Fess: 全文検索システム

OSDN > ソフトウェアを探す > インターネット > WWW/HTTP > インデキシング/検索 > Fess: 全文検索システム > フォーラム > 【移行しました】サポート > ウェブクロールについて教えて下さい

フォーラム: 【移行しました】サポート (スレッド #39206)
話題(スレッド)一覧に戻る  RSS

ウェブクロールについて教えて下さい (2018-02-05 10:19 by hiromin #80774)

FESSはとても素晴らしい検索システムだと思っています。
FESS12.0をCentOS6.8にrpmパッケージでインストールしました。

自サーバのファイルクロールは問題なくできています。
file:/home/~username/dir/　はＯＫです。

ただ、ウェブクロールだと　no docs になってしまいデータを取得できません。
http://host.domain/~username/dir/　はＮＧです。
robots.txt や .htaccess 、ウェブクロールの深さなどは確認しました。
自サーバから、w3m http://host.domain/~username/dir/　だと、ちゃんと表示
され、wget -r http://host.domain/~username/dir/ でも、全ファイルを取得できます。

fess-crawler.logは次のようになっています。
どのような原因が考えられるのでしょうか？
よろしくお願いします。

ついでで申し訳ありません。
ファイルクロールは wget -r のように再帰的にファイルを取得できます。
ウェブクロールの動作はhtmlファイルのリンクを辿っていく方法なのでしょうか？（＝wget -r のような動作ではない？）

そうなのかなと思って、あえて、http://host.domain/~username/dir/index.html に
配下のディレクトリのリンクを記述したのですが、結果は同じく、このindex.htmlだけを取得しただけで、リンク先のファイルは取得されませんでした。

2018-02-04 21:18:02,048 [main] INFO Starting Crawler..
2018-02-04 21:18:02,239 [WebFsCrawler] INFO no modules loaded
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.in
dex.reindex.ReindexPlugin]
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.jo
in.ParentJoinPlugin]
2018-02-04 21:18:02,240 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.pe
rcolator.PercolatorPlugin]
2018-02-04 21:18:02,241 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.sc
ript.mustache.MustachePlugin]
2018-02-04 21:18:02,241 [WebFsCrawler] INFO loaded plugin [org.elasticsearch.tr
ansport.Netty4Plugin]
2018-02-04 21:18:02,338 [WebFsCrawler] INFO Connected to localhost:9300
2018-02-04 21:18:02,650 [WebFsCrawler] INFO Target URL: http://host.domain/~username/dir/
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Included URL: .*/$
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Included URL: .*\.html$
2018-02-04 21:18:02,651 [WebFsCrawler] INFO Excluded URL: .*\.jpg$
2018-02-04 21:18:02,652 [WebFsCrawler] INFO Excluded URL: .*\.png$
2018-02-04 21:18:12,723 [IndexUpdater] INFO Processing no docs (Doc:{access 10m
s}, Mem:{used 122MB, heap 191MB, max 494MB})
2018-02-04 21:18:22,690 [IndexUpdater] INFO Processing no docs (Doc:{access 7ms
}, Mem:{used 123MB, heap 191MB, max 494MB})
2018-02-04 21:18:52,690 [IndexUpdater] INFO Processing no docs (Doc:{access 7ms
}, Mem:{used 124MB, heap 191MB, max 494MB})
2018-02-04 21:19:02,064 [CoreLib-TimeoutManager] INFO [SYSTEM MONITOR] {"os":{"
memory":{"physical":{"free":113922048,"total":3024973824},"swap_space":{"free":6
（中略）
2018-02-04 21:20:02,690 [IndexUpdater] INFO Processing no docs (Doc:{access 6ms}, Mem:{used 133MB, heap 191MB, max 494MB})
2018-02-04 21:20:02,690 [IndexUpdater] INFO [EXEC TIME] index update time: 126ms
2018-02-04 21:20:02,964 [main] INFO Finished Crawler
2018-02-04 21:20:03,239 [main] INFO [CRAWL INFO] CrawlerEndTime=2018-02-04T21:20:02.965+0900,WebFsCrawlExecTime=111006,CrawlerStatus=true,CrawlerStartTime=2018-02-04T21:18:02.048+0900,WebFsCrawlEndTime=2018-02-04T21:20:02.964+0900,WebFsIndexExecTime=126,WebFsIndexSize=0,CrawlerExecTime=120917,WebFsCrawlStartTime=2018-02-04T21:18:02.114+0900
2018-02-04 21:20:08,274 [main] INFO Disconnected to elasticsearch:localhost:9300

メッセージ #80774 への返信×

題名

本文

メッセージ #80774 への返信
> FESSはとても素晴らしい検索システムだと思っています。
> FESS12.0をCentOS6.8にrpmパッケージでインストールしました。
> 
> 自サーバのファイルクロールは問題なくできています。
> file:/home/~username/dir/　はＯＫです。
> 
> ただ、ウェブクロールだと　no docs になってしまいデータを取得できません。
> http://host.domain/~username/dir/　はＮＧです。
> robots.txt や .htaccess 、ウェブクロールの深さなどは確認しました。
> 自サーバから、w3m http://host.domain/~username/dir/　だと、ちゃんと表示
> され、wget -r http://host.domain/~username/dir/ でも、全ファイルを取得できます。
> 
> fess-crawler.logは次のようになっています。
> どのような原因が考えられるのでしょうか？
> よろしくお願いします。
> 
> ついでで申し訳ありません。
> ファイルクロールは wget -r のように再帰的にファイルを取得できます。
> ウェブクロールの動作はhtmlファイルのリンクを辿っていく方法なのでしょうか？（＝wget -r のような動作ではない？）
> 
> そうなのかなと思って、あえて、http://host.domain/~username/dir/index.html に
> 配下のディレクトリのリンクを記述したのですが、結果は同じく、このindex.htmlだけを取得しただけで、リンク先のファイルは取得されませんでした。
> 
> 2018-02-04 21:18:02,048 [main] INFO  Starting Crawler..
> 2018-02-04 21:18:02,239 [WebFsCrawler] INFO  no modules loaded
> 2018-02-04 21:18:02,240 [WebFsCrawler] INFO  loaded plugin [org.elasticsearch.in
> dex.reindex.ReindexPlugin]
> 2018-02-04 21:18:02,240 [WebFsCrawler] INFO  loaded plugin [org.elasticsearch.jo
> in.ParentJoinPlugin]
> 2018-02-04 21:18:02,240 [WebFsCrawler] INFO  loaded plugin [org.elasticsearch.pe
> rcolator.PercolatorPlugin]
> 2018-02-04 21:18:02,241 [WebFsCrawler] INFO  loaded plugin [org.elasticsearch.sc
> ript.mustache.MustachePlugin]
> 2018-02-04 21:18:02,241 [WebFsCrawler] INFO  loaded plugin [org.elasticsearch.tr
> ansport.Netty4Plugin]
> 2018-02-04 21:18:02,338 [WebFsCrawler] INFO  Connected to localhost:9300
> 2018-02-04 21:18:02,650 [WebFsCrawler] INFO  Target URL: http://host.domain/~username/dir/
> 2018-02-04 21:18:02,651 [WebFsCrawler] INFO  Included URL: .*/$
> 2018-02-04 21:18:02,651 [WebFsCrawler] INFO  Included URL: .*\.html$
> 2018-02-04 21:18:02,651 [WebFsCrawler] INFO  Excluded URL: .*\.jpg$
> 2018-02-04 21:18:02,652 [WebFsCrawler] INFO  Excluded URL: .*\.png$
> 2018-02-04 21:18:12,723 [IndexUpdater] INFO  Processing no docs (Doc:{access 10m
> s}, Mem:{used 122MB, heap 191MB, max 494MB})
> 2018-02-04 21:18:22,690 [IndexUpdater] INFO  Processing no docs (Doc:{access 7ms
> }, Mem:{used 123MB, heap 191MB, max 494MB})
> 2018-02-04 21:18:52,690 [IndexUpdater] INFO  Processing no docs (Doc:{access 7ms
> }, Mem:{used 124MB, heap 191MB, max 494MB})
> 2018-02-04 21:19:02,064 [CoreLib-TimeoutManager] INFO  [SYSTEM MONITOR] {"os":{"
> memory":{"physical":{"free":113922048,"total":3024973824},"swap_space":{"free":6
> （中略）
> 2018-02-04 21:20:02,690 [IndexUpdater] INFO  Processing no docs (Doc:{access 6ms}, Mem:{used 133MB, heap 191MB, max 494MB})
> 2018-02-04 21:20:02,690 [IndexUpdater] INFO  [EXEC TIME] index update time: 126ms
> 2018-02-04 21:20:02,964 [main] INFO  Finished Crawler
> 2018-02-04 21:20:03,239 [main] INFO  [CRAWL INFO] CrawlerEndTime=2018-02-04T21:20:02.965+0900,WebFsCrawlExecTime=111006,CrawlerStatus=true,CrawlerStartTime=2018-02-04T21:18:02.048+0900,WebFsCrawlEndTime=2018-02-04T21:20:02.964+0900,WebFsIndexExecTime=126,WebFsIndexSize=0,CrawlerExecTime=120917,WebFsCrawlStartTime=2018-02-04T21:18:02.114+0900
> 2018-02-04 21:20:08,274 [main] INFO  Disconnected to elasticsearch:localhost:9300
>

Wiki文法は使えません

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。ログインする

ニックネーム

フォーラム: 【移行しました】サポート (スレッド #39206) 話題(スレッド)一覧に戻る RSS

ウェブクロールについて教えて下さい (2018-02-05 10:19 by hiromin #80774) 返信

メッセージ #80774 への返信×

フォーラム: 【移行しました】サポート (スレッド #39206)
話題(スレッド)一覧に戻る RSS

ウェブクロールについて教えて下さい (2018-02-05 10:19 by hiromin #80774)