ダウンロード
Magazine
開発
アカウント
ダウンロード
Magazine
開発
ログイン
アカウント/パスワードを忘れた
アカウント作成
言語
ヘルプ
言語
ヘルプ
×
ログイン
ログイン名
パスワード
×
アカウント/パスワードを忘れた
日本語の翻訳状況
カテゴリ:
ソフトウェア
人物
PersonalForge
Magazine
Wiki
検索
OSDN
>
ソフトウェアを探す
>
インターネット
>
WWW/HTTP
>
インデキシング/検索
>
Fess: 全文検索システム
>
フォーラム
>
【移行しました】サポート
>
特定の拡張子のファイルのみクロールしたい
概要
プロジェクト概要
開発ダッシュボード
Webページ
開発メンバー
画像ギャラリー
公開フィード一覧
活動
統計情報
活動履歴
ダウンロード
リリース一覧
統計
ソースコード
コードリポジトリリスト
Subversion
リポジトリ閲覧
コミュニケーション
フォーラム
フォーラム一覧
【移行しました】サポート (1161)
【移行しました】機能要求 (35)
メーリングリスト
MLの一覧
fess-user
ニュース
フォーラム:
【移行しました】サポート
(スレッド #38282)
話題(スレッド)一覧に戻る
RSS
特定の拡張子のファイルのみクロールしたい (2017-01-05 10:35 by
masuda_mitsuo
#79206)
返信
以下のフォルダ内にある特定のファイル(例えばテキストファイル)のみクロールを行いたいのですが、「クロール対象とするパス」や「検索対象とするパス」に設定しても思うような動作にならないため、設定方法を教えてください。
C:\work\test\
※testフォルダ内には複数のフォルダがあり、それらフォルダにテキストファイルやそれ以外のファイルが多数あります。
以下のように設定したのですがうまくいきませんでした。
テストしたfessのバージョンは10.3.1となります。
【パス】
smb://testpc/test/
【クロール対象とするパス】
.*\.txt$
.*\.TXT$
【実行結果】
2017-01-05 09:43:48,631 [WebFsCrawler] INFO Target Path: smb://testpc/test/
2017-01-05 09:43:48,632 [WebFsCrawler] INFO Included Path: .*\.txt$
2017-01-05 09:43:48,632 [WebFsCrawler] INFO Included Path: .*\.TXT$
2017-01-05 09:43:58,667 [IndexUpdater] INFO Processing no docs (Doc:{access 5ms}, Mem:{used 38MB, heap 58MB, max 1GB})
2017-01-05 09:44:08,646 [IndexUpdater] INFO Processing no docs (Doc:{access 4ms}, Mem:{used 38MB, heap 58MB, max 1GB})
2017-01-05 09:44:18,645 [IndexUpdater] INFO Processing no docs (Doc:{access 3ms}, Mem:{used 38MB, heap 58MB, max 1GB})
2017-01-05 09:44:18,845 [WebFsCrawler] INFO [EXEC TIME] crawling time: 30537ms
2017-01-05 09:44:28,645 [IndexUpdater] INFO Processing no docs (Doc:{access 3ms}, Mem:{used 39MB, heap 58MB, max 1GB})
2017-01-05 09:44:28,645 [IndexUpdater] INFO [EXEC TIME] index update time: 36ms
2017-01-05 09:44:28,718 [main] INFO Finished Crawler
2017-01-05 09:44:28,807 [main] INFO [CRAWL INFO] CrawlerEndTime=2017-01-05T09:44:28.718+0900,WebFsCrawlExecTime=30537,CrawlerStatus=true,CrawlerStartTime=2017-01-05T09:43:48.134+0900,WebFsCrawlEndTime=2017-01-05T09:44:28.717+0900,WebFsIndexExecTime=36,WebFsIndexSize=0,CrawlerExecTime=40584,WebFsCrawlStartTime=2017-01-05T09:43:48.233+0900
2017-01-05 09:44:28,851 [main] INFO Disconnected to elasticsearch:localhost:9301
2017-01-05 09:44:29,142 [main] INFO Destroyed LaContainer.
過去スレッドの似たような質問では「検索対象とするパス」に設定すれば良いという回答がありましたので、以下のように設定をして試しました。
【パス】
smb://testpc/test/
【検索対象とするパス】
.*\.txt$
.*\.TXT$
この設定では、パスに設定したフォルダ内の全てのファイルをクロールし(fess-crawler.logで確認できます)、検索対象はテキストファイルのみという動きのため、
全てのファイルをクロールしていくため、時間が掛かります。
クロール自体を特定の拡張子のみ(例えばテキストファイルのみ)とする方法がありましたら教えてください。
メッセージ #79206 への返信
×
題名
本文
メッセージ #79206 への返信 > 以下のフォルダ内にある特定のファイル(例えばテキストファイル)のみクロールを行いたいのですが、「クロール対象とするパス」や「検索対象とするパス」に設定しても思うような動作にならないため、設定方法を教えてください。 > C:\work\test\ > > ※testフォルダ内には複数のフォルダがあり、それらフォルダにテキストファイルやそれ以外のファイルが多数あります。 > > 以下のように設定したのですがうまくいきませんでした。 > テストしたfessのバージョンは10.3.1となります。 > > 【パス】 > smb://testpc/test/ > > 【クロール対象とするパス】 > .*\.txt$ > .*\.TXT$ > > 【実行結果】 > 2017-01-05 09:43:48,631 [WebFsCrawler] INFO Target Path: smb://testpc/test/ > 2017-01-05 09:43:48,632 [WebFsCrawler] INFO Included Path: .*\.txt$ > 2017-01-05 09:43:48,632 [WebFsCrawler] INFO Included Path: .*\.TXT$ > 2017-01-05 09:43:58,667 [IndexUpdater] INFO Processing no docs (Doc:{access 5ms}, Mem:{used 38MB, heap 58MB, max 1GB}) > 2017-01-05 09:44:08,646 [IndexUpdater] INFO Processing no docs (Doc:{access 4ms}, Mem:{used 38MB, heap 58MB, max 1GB}) > 2017-01-05 09:44:18,645 [IndexUpdater] INFO Processing no docs (Doc:{access 3ms}, Mem:{used 38MB, heap 58MB, max 1GB}) > 2017-01-05 09:44:18,845 [WebFsCrawler] INFO [EXEC TIME] crawling time: 30537ms > 2017-01-05 09:44:28,645 [IndexUpdater] INFO Processing no docs (Doc:{access 3ms}, Mem:{used 39MB, heap 58MB, max 1GB}) > 2017-01-05 09:44:28,645 [IndexUpdater] INFO [EXEC TIME] index update time: 36ms > 2017-01-05 09:44:28,718 [main] INFO Finished Crawler > 2017-01-05 09:44:28,807 [main] INFO [CRAWL INFO] CrawlerEndTime=2017-01-05T09:44:28.718+0900,WebFsCrawlExecTime=30537,CrawlerStatus=true,CrawlerStartTime=2017-01-05T09:43:48.134+0900,WebFsCrawlEndTime=2017-01-05T09:44:28.717+0900,WebFsIndexExecTime=36,WebFsIndexSize=0,CrawlerExecTime=40584,WebFsCrawlStartTime=2017-01-05T09:43:48.233+0900 > 2017-01-05 09:44:28,851 [main] INFO Disconnected to elasticsearch:localhost:9301 > 2017-01-05 09:44:29,142 [main] INFO Destroyed LaContainer. > > > 過去スレッドの似たような質問では「検索対象とするパス」に設定すれば良いという回答がありましたので、以下のように設定をして試しました。 > 【パス】 > smb://testpc/test/ > > 【検索対象とするパス】 > .*\.txt$ > .*\.TXT$ > > この設定では、パスに設定したフォルダ内の全てのファイルをクロールし(fess-crawler.logで確認できます)、検索対象はテキストファイルのみという動きのため、 > 全てのファイルをクロールしていくため、時間が掛かります。 > クロール自体を特定の拡張子のみ(例えばテキストファイルのみ)とする方法がありましたら教えてください。
Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。
ログインする
ニックネーム
プレビュー
投稿
キャンセル
Re: 特定の拡張子のファイルのみクロールしたい (2017-01-05 10:56 by
shinsuke
#79207)
返信
> 【パス】
> smb://testpc/test/
>
> 【クロール対象とするパス】
> .*\.txt$
> .*\.TXT$
の場合は、クロール対象とするパスにマッチするものしか
クロールしません。Fessはクロール開始時にはパスの
smb://testpc/test/しかわからず、それ以外のパスに関する情報はなく、
クロール対象とするパスにsmb://testpc/test/がマッチしないので
クロールを終了します。
> 【パス】
> smb://testpc/test/
>
> 【検索対象とするパス】
> .*\.txt$
> .*\.TXT$
この場合はsmb://testpc/test/からクロールしていき、
配下にあるパスを次々クロールしていきます。
そして、検索対象とするパスにマッチするものだけを
インデックスしていきます。
Fessからすると、クロールして、アクセスするまでは
何が存在しているのか把握できない状態にあります。
ですので、クロール/検索対象とするパスを工夫する必要が
あるのですが、smbであれば
【クロール対象とするパス】
.*/$
.*\.txt$
.*\.TXT$
という感じにすればディレクトリをクロールしていけるかもしれません。
ベストアンサー
#79206
への返信
メッセージ #79207 への返信
×
題名
本文
メッセージ #79207 への返信 > > 【パス】 > > smb://testpc/test/ > > > > 【クロール対象とするパス】 > > .*\.txt$ > > .*\.TXT$ > > の場合は、クロール対象とするパスにマッチするものしか > クロールしません。Fessはクロール開始時にはパスの > smb://testpc/test/しかわからず、それ以外のパスに関する情報はなく、 > クロール対象とするパスにsmb://testpc/test/がマッチしないので > クロールを終了します。 > > > 【パス】 > > smb://testpc/test/ > > > > 【検索対象とするパス】 > > .*\.txt$ > > .*\.TXT$ > > この場合はsmb://testpc/test/からクロールしていき、 > 配下にあるパスを次々クロールしていきます。 > そして、検索対象とするパスにマッチするものだけを > インデックスしていきます。 > > Fessからすると、クロールして、アクセスするまでは > 何が存在しているのか把握できない状態にあります。 > ですので、クロール/検索対象とするパスを工夫する必要が > あるのですが、smbであれば > > 【クロール対象とするパス】 > .*/$ > .*\.txt$ > .*\.TXT$ > > という感じにすればディレクトリをクロールしていけるかもしれません。
Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。
ログインする
ニックネーム
プレビュー
投稿
キャンセル
Re: 特定の拡張子のファイルのみクロールしたい (2017-01-05 11:59 by
masuda_mitsuo
#79208)
返信
回答ありがとうございました。
「クロール対象とするパス」「検索対象とするパス」について理解することができました。
教えていただいた通り、「クロール対象とするパス」で以下にように設定することで、対象パスにあるテキストファイルのみクロールする動きとなりました。
.*/$
.*\.txt$
.*\.TXT$
また以下のようにテキストファイルとエクセルファイルのクロールという設定も試し、設定通りの動きになることも確認できました。
.*/$
.*\.txt$
.*\.TXT$
.*\.xls$
.*\.XLS$
.*\.xlsx$
.*\.XLSX$
ありがとうございました。
[メッセージ #79207 への返信]
> > 【パス】
> > smb://testpc/test/
> >
> > 【クロール対象とするパス】
> > .*\.txt$
> > .*\.TXT$
>
> の場合は、クロール対象とするパスにマッチするものしか
> クロールしません。Fessはクロール開始時にはパスの
> smb://testpc/test/しかわからず、それ以外のパスに関する情報はなく、
> クロール対象とするパスにsmb://testpc/test/がマッチしないので
> クロールを終了します。
>
> > 【パス】
> > smb://testpc/test/
> >
> > 【検索対象とするパス】
> > .*\.txt$
> > .*\.TXT$
>
> この場合はsmb://testpc/test/からクロールしていき、
> 配下にあるパスを次々クロールしていきます。
> そして、検索対象とするパスにマッチするものだけを
> インデックスしていきます。
>
> Fessからすると、クロールして、アクセスするまでは
> 何が存在しているのか把握できない状態にあります。
> ですので、クロール/検索対象とするパスを工夫する必要が
> あるのですが、smbであれば
>
> 【クロール対象とするパス】
> .*/$
> .*\.txt$
> .*\.TXT$
>
> という感じにすればディレクトリをクロールしていけるかもしれません。
#79207
への返信
メッセージ #79208 への返信
×
題名
本文
メッセージ #79208 への返信 > 回答ありがとうございました。 > 「クロール対象とするパス」「検索対象とするパス」について理解することができました。 > > 教えていただいた通り、「クロール対象とするパス」で以下にように設定することで、対象パスにあるテキストファイルのみクロールする動きとなりました。 > .*/$ > .*\.txt$ > .*\.TXT$ > > また以下のようにテキストファイルとエクセルファイルのクロールという設定も試し、設定通りの動きになることも確認できました。 > .*/$ > .*\.txt$ > .*\.TXT$ > .*\.xls$ > .*\.XLS$ > .*\.xlsx$ > .*\.XLSX$ > > ありがとうございました。 > > > [メッセージ #79207 への返信] > > > 【パス】 > > > smb://testpc/test/ > > > > > > 【クロール対象とするパス】 > > > .*\.txt$ > > > .*\.TXT$ > > > > の場合は、クロール対象とするパスにマッチするものしか > > クロールしません。Fessはクロール開始時にはパスの > > smb://testpc/test/しかわからず、それ以外のパスに関する情報はなく、 > > クロール対象とするパスにsmb://testpc/test/がマッチしないので > > クロールを終了します。 > > > > > 【パス】 > > > smb://testpc/test/ > > > > > > 【検索対象とするパス】 > > > .*\.txt$ > > > .*\.TXT$ > > > > この場合はsmb://testpc/test/からクロールしていき、 > > 配下にあるパスを次々クロールしていきます。 > > そして、検索対象とするパスにマッチするものだけを > > インデックスしていきます。 > > > > Fessからすると、クロールして、アクセスするまでは > > 何が存在しているのか把握できない状態にあります。 > > ですので、クロール/検索対象とするパスを工夫する必要が > > あるのですが、smbであれば > > > > 【クロール対象とするパス】 > > .*/$ > > .*\.txt$ > > .*\.TXT$ > > > > という感じにすればディレクトリをクロールしていけるかもしれません。
Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。
ログインする
ニックネーム
プレビュー
投稿
キャンセル