フォーラム: 【移行しました】サポート (スレッド #38708)

検索出来ないファイルについて (2017-06-21 14:34 by yasagure737 #79976)

Fess「fess-11.0.3」を使用中です。
PDFとPPTファイルについてファイルクローラを行い、検索してもヒットされません。
正しいファイル名でクローラされていない事が考えられます(ファイル名 ≠ title)

もし、可能な様でしたら、変更方法などをご教授願えますと非常に助かります。
以上です。

メッセージ #79976 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: 検索出来ないファイルについて (2017-06-21 22:13 by shinsuke #79980)

fess-crawler.logを確認して、クロールされたのかどうかを確認するのが良いと思います。
#79976 への返信

メッセージ #79980 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: 検索出来ないファイルについて (2017-06-22 13:44 by yasagure737 #79984)

ご返信ありがとうございます。
=====================================
対象クロール先「D:\work」
ファイルは「test.pptx」、「test_2.pdf」の2つ
=====================================
「fess-crawler.log」を確認しましたところ、
2017-06-22 13:31:51,755 [WebFsCrawler] INFO Target Path: file:/d:/work/
...
2017-06-22 13:31:58,375 [Crawler-20170622133119-2-4] INFO Crawling URL: file:/d:/work/test_2.pdf
2017-06-22 13:31:58,378 [Crawler-20170622133119-2-5] INFO Crawling URL: file:/d:/work/test.pptx
として出力されています。

[システム情報 → 検索]より中身を見ますと・・・
・test.pptx
titleは「20170622_ppt」となっておりタイトル不正。
⇒pptxファイルの中身がtitleとなっている。

・test_2.pdf
titleは「test_2.pdf」となっておりタイトルが正しい。

★PDFファイルについては問題がなさそうですが、
PPT(PPTX)についてはタイトルがうまく取れていません。

よろしくお願い致します。
#79980 への返信

メッセージ #79984 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: 検索出来ないファイルについて (2017-06-22 15:21 by shinsuke #79985)

> titleは「20170622_ppt」となっておりタイトル不正。
> ⇒pptxファイルの中身がtitleとなっている。

前提として、デフォルトの仕様としてはpptやpdfなどは
メタ情報のタイトルから取得できる場合はその値を利用して
なければファイル名が採用されます。
20170622_pptという感じでファイル名ではないので、
そのファイルのメタ情報のタイトルが20170622_pptに
なっているのではないでしょうか。

pptのメタ情報はTitleだったと思うので、fess_config.propertiesで
crawler.metadata.name.mapping=\
title=title:string\n\
Title=title:string\n\
のTitleの方を外せば取得しないようになると思います。
ベストアンサー #79984 への返信

メッセージ #79985 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: 検索出来ないファイルについて (2017-06-22 18:44 by yasagure737 #79986)

> pptのメタ情報はTitleだったと思うので、fess_config.propertiesで
> crawler.metadata.name.mapping=\
> title=title:string\n\
> Title=title:string\n\
> のTitleの方を外せば取得しないようになると思います。
早々のご返信ありがとうございます。

確認しましたところ、titleの方を外したところ上手くいきました!
ありがとうございます!!
#79985 への返信

メッセージ #79986 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする