Shinsuke Sugaya
shins****@yahoo*****
2011年 10月 16日 (日) 07:04:57 JST
菅谷です。 > ちなみにですが、MIMEタイプごとにExtractorを変更できるということで良いでしょうか? はい、そのような感じで良いと思います。 shinsuke 2011年10月15日14:36 Hiroshi TATSUMI <honek****@comet*****>: > 菅谷様 > > 最新版POIでのご確認ありがとうございます。 > CommandExtractorで作るほうが確実ということですね。 > こちらを参考にしてやってみようと思います。 > http://s2robot.sandbox.seasar.org/ja/extractor-guide.html > > ちなみにですが、MIMEタイプごとにExtractorを変更できるということで良いでしょうか? > 設定は以下のようになるのかと思いましたが、ドキュメントにこのあたりの記述が無いので、 > 念のため確認させてください。 > > ・Wordのみ、別のExtractorでテキストを取得する場合の設定 > -------------------------------------------------------- > <components> > <component name="tikaExtractor" > class="org.seasar.robot.extractor.impl.TikaExtractor"/> > > <component name="wordCmdExtractor" > class="org.seasar.robot.extractor.impl.CommandExtractor"> > <property name="command">"wordtotext $INPUT_FILE > $OUTPUT_FILE"</property> > <property name="outputEncoding">"UTF-8"</property> > </component> > > <component name="extractorFactory" > class="org.seasar.robot.extractor.ExtractorFactory"> > <initMethod name="addExtractor"> > <arg>{ > "application/xml", > ・・・省略・・・ > "audio/x-aiff" > }</arg> > <arg>tikaExtractor</arg> > </initMethod> > <initMethod name="addExtractor"> > <arg>"application/msword"</arg> > <arg>wordCmdExtractor</arg> > </initMethod> > </component> > </components> > -------------------------------------------------------- > > よろしくお願いいたします。 > > タツミ > > > > -----Original Message----- > From: Shinsuke Sugaya > Sent: Friday, October 14, 2011 9:11 PM > To: fess-****@lists***** > Subject: [fess-user 528] Re:Office文書内のオートシェイプの検索 > > 菅谷です。 > > 情報をありがとうございます。 > 最新の POI 3.8-beta4 にして確認してみたりも > しましたが、状況は変わらないようです。 > 必要であれば MS Office 系文書について、 > CommandExtractor などに差し替えるなど > していただくのが良いと思います。 > よろしくお願いいたします。 > > shinsuke > > > 2011年10月13日7:27 Hiroshi TATSUMI <honek****@comet*****>: >> タツミと申します。初めてMLに投稿させていただきます。 >> >> FessではOffice文書も検索できるということでしたので、 >> Office文書内のオートシェイプの文字列も検索できるかどうかテストしていました。 >> >> 結果は以下の通りとなり、一部のOffice文書のみ、検索できないことが分かりました。 >> >> >> ・オートシェイプ内の文字列を検索できない >> −Word2003 >> −Excel2007 >> ・オートシェイプ内の文字列を検索できる >> −Excel2003 >> −Word2007 >> −PowerPoint2003 >> −PowerPoint2007 >> −Visio2003 >> −Visio2007 >> >> Word2003とExcel2007は使用頻度の高いドキュメントなのですが、 >> これらのフォーマット中のオートシェイプを検索するためには、 >> クロール部分の拡張が必要になるのでしょうか? >> >> Fessではクロール部分にApache Tikaを使っているとのことなので、 >> その部分の拡張が必要なのかと思いましたが、 >> すでに対応方法等が見えている場合には、その方法をご教授いただけると幸いです。 >> >> >> よろしくお願いいたします。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-****@lists***** >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >