Re: Shift-JISの検索 (fess-user 964) - Fess: 全文検索システム

菅谷です。

> Shift-JISで作成された文書を検索することが出来ません。

HTMLファイルはcharsetなどで正しく自動判別できていると
思いますが、テキストファイルも一応エンコーディングの
自動判別をしているものの、なかなか難しいので多くの場合が
UTF-8として判別されていると思います。

明示的に別なエンコーディングを利用するためには
https://github.com/codelibs/s2robot/blob/s2-robot-parent-0.8.0/s2robot/src/main/resources/s2robot_extractor.dicon
をwebapps/fess/WEB-INF/classesに配置して、
text/plainの行を削除して、

<component name="textExtractor"
class="org.codelibs.robot.extractor.impl.TextExtractor"/>
    <property name="encoding">"Shift_JIS"</property>
</component>

を追加して、ExtractorFactoryに

<initMethod name="addExtractor">
    <arg>"text/plain"</arg>
    <arg>textExtractor</arg>
</initMethod>

を追加すれば良いと思います。

> クロール単位でエンコードを切り替えることは可能なので
> しょうか？

S2RobotのExtractorあたりを拡張していただければ
可能だと思います。

> 　ちなみに、こんなこと考えてるより、OSをWindowsにした方が良いのでしょうか？

システム的には基本はUTF-8で動作するようにしているので
Windowsにしてもあまり変わらないような気がします。

shinsuke


2015年2月17日 11:37 斎藤　直正 <nsait****@msk-w*****>:
> 斎藤です。
>
> 　はじめて投稿します。
>
> 　私の環境は、CentOS 6.5上にFessをインストールしています。
> 　OSそのものをWindowsにすれば良かったかな？とか思っているのですが、
> 取りあえず全文検索が可能な状況にまでは至っています。
>
> 　今回、Windows上で作成された
> 　　・Word
> 　　・Excel
> 　　・PowerPoint
> 　　・PDF
> 　　・テキスト
> 　などの文書を検索対象として考えています。
>
> 　文字コードは、テキストを見る限りShift-JISが用いられており、
> ファイルのパスにもShift-JISで２Byte文字のフォルダーが顕在ます。
> 　（半角カタカナは無視します）
>
> 　クロールを行って、ファイルの検索を行ったのですが、やはり、UTF-8で
> 記述されたテキスト文書（テスト的に作った文書）は検索できたのですが、
> Shift-JISで作成された文書を検索することが出来ません。
>
> 　設定方法など具体的にご教示頂けないでしょうか？
>
> 　また、Webの検索を行う際は、UTF-8が基本的な対象となる様に
> 思えているのですが、クロール単位でエンコードを切り替えることは可能なので
> しょうか？
>
> 　ちなみに、こんなこと考えてるより、OSをWindowsにした方が良いのでしょうか？
>
> 　素人的な質問で申し訳ありませんが、よろしくお願いいたします。
>
> 以上
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user

[fess-user 964] Re: Shift-JISの検索