[fess-user 530] Re: Office文書内のオートシェイプの検索

アーカイブの一覧に戻る

Shinsuke Sugaya shins****@yahoo*****
2011年 10月 16日 (日) 07:04:57 JST


菅谷です。

> ちなみにですが、MIMEタイプごとにExtractorを変更できるということで良いでしょうか?

はい、そのような感じで良いと思います。

shinsuke


2011年10月15日14:36 Hiroshi TATSUMI <honek****@comet*****>:
> 菅谷様
>
> 最新版POIでのご確認ありがとうございます。
> CommandExtractorで作るほうが確実ということですね。
> こちらを参考にしてやってみようと思います。
> http://s2robot.sandbox.seasar.org/ja/extractor-guide.html
>
> ちなみにですが、MIMEタイプごとにExtractorを変更できるということで良いでしょうか?
> 設定は以下のようになるのかと思いましたが、ドキュメントにこのあたりの記述が無いので、
> 念のため確認させてください。
>
> ・Wordのみ、別のExtractorでテキストを取得する場合の設定
> --------------------------------------------------------
> <components>
>    <component name="tikaExtractor"
> class="org.seasar.robot.extractor.impl.TikaExtractor"/>
>
>    <component name="wordCmdExtractor"
> class="org.seasar.robot.extractor.impl.CommandExtractor">
>        <property name="command">"wordtotext $INPUT_FILE
> $OUTPUT_FILE"</property>
>        <property name="outputEncoding">"UTF-8"</property>
>    </component>
>
>    <component name="extractorFactory"
> class="org.seasar.robot.extractor.ExtractorFactory">
>        <initMethod name="addExtractor">
>            <arg>{
> "application/xml",
>   ・・・省略・・・
> "audio/x-aiff"
>            }</arg>
>            <arg>tikaExtractor</arg>
>        </initMethod>
>        <initMethod name="addExtractor">
>            <arg>"application/msword"</arg>
>            <arg>wordCmdExtractor</arg>
>        </initMethod>
>    </component>
> </components>
> --------------------------------------------------------
>
> よろしくお願いいたします。
>
> タツミ
>
>
>
> -----Original Message-----
> From: Shinsuke Sugaya
> Sent: Friday, October 14, 2011 9:11 PM
> To: fess-****@lists*****
> Subject: [fess-user 528] Re:Office文書内のオートシェイプの検索
>
> 菅谷です。
>
> 情報をありがとうございます。
> 最新の POI 3.8-beta4 にして確認してみたりも
> しましたが、状況は変わらないようです。
> 必要であれば MS Office 系文書について、
> CommandExtractor などに差し替えるなど
> していただくのが良いと思います。
> よろしくお願いいたします。
>
> shinsuke
>
>
> 2011年10月13日7:27 Hiroshi TATSUMI <honek****@comet*****>:
>> タツミと申します。初めてMLに投稿させていただきます。
>>
>> FessではOffice文書も検索できるということでしたので、
>> Office文書内のオートシェイプの文字列も検索できるかどうかテストしていました。
>>
>> 結果は以下の通りとなり、一部のOffice文書のみ、検索できないことが分かりました。
>>
>>
>> ・オートシェイプ内の文字列を検索できない
>> −Word2003
>> −Excel2007
>> ・オートシェイプ内の文字列を検索できる
>> −Excel2003
>> −Word2007
>> −PowerPoint2003
>> −PowerPoint2007
>> −Visio2003
>> −Visio2007
>>
>> Word2003とExcel2007は使用頻度の高いドキュメントなのですが、
>> これらのフォーマット中のオートシェイプを検索するためには、
>> クロール部分の拡張が必要になるのでしょうか?
>>
>> Fessではクロール部分にApache Tikaを使っているとのことなので、
>> その部分の拡張が必要なのかと思いましたが、
>> すでに対応方法等が見えている場合には、その方法をご教授いただけると幸いです。
>>
>>
>> よろしくお願いいたします。
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>>
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
アーカイブの一覧に戻る