[fess-user 964] Re: Shift-JISの検索

アーカイブの一覧に戻る

Shinsuke Sugaya shins****@yahoo*****
2015年 2月 22日 (日) 17:42:14 JST


菅谷です。

> Shift-JISで作成された文書を検索することが出来ません。

HTMLファイルはcharsetなどで正しく自動判別できていると
思いますが、テキストファイルも一応エンコーディングの
自動判別をしているものの、なかなか難しいので多くの場合が
UTF-8として判別されていると思います。

明示的に別なエンコーディングを利用するためには
https://github.com/codelibs/s2robot/blob/s2-robot-parent-0.8.0/s2robot/src/main/resources/s2robot_extractor.dicon
をwebapps/fess/WEB-INF/classesに配置して、
text/plainの行を削除して、

<component name="textExtractor"
class="org.codelibs.robot.extractor.impl.TextExtractor"/>
    <property name="encoding">"Shift_JIS"</property>
</component>

を追加して、ExtractorFactoryに

<initMethod name="addExtractor">
    <arg>"text/plain"</arg>
    <arg>textExtractor</arg>
</initMethod>

を追加すれば良いと思います。

> クロール単位でエンコードを切り替えることは可能なので
> しょうか?

S2RobotのExtractorあたりを拡張していただければ
可能だと思います。

>  ちなみに、こんなこと考えてるより、OSをWindowsにした方が良いのでしょうか?

システム的には基本はUTF-8で動作するようにしているので
Windowsにしてもあまり変わらないような気がします。

shinsuke


2015年2月17日 11:37 斎藤 直正 <nsait****@msk-w*****>:
> 斎藤です。
>
>  はじめて投稿します。
>
>  私の環境は、CentOS 6.5上にFessをインストールしています。
>  OSそのものをWindowsにすれば良かったかな?とか思っているのですが、
> 取りあえず全文検索が可能な状況にまでは至っています。
>
>  今回、Windows上で作成された
>   ・Word
>   ・Excel
>   ・PowerPoint
>   ・PDF
>   ・テキスト
>  などの文書を検索対象として考えています。
>
>  文字コードは、テキストを見る限りShift-JISが用いられており、
> ファイルのパスにもShift-JISで2Byte文字のフォルダーが顕在ます。
>  (半角カタカナは無視します)
>
>  クロールを行って、ファイルの検索を行ったのですが、やはり、UTF-8で
> 記述されたテキスト文書(テスト的に作った文書)は検索できたのですが、
> Shift-JISで作成された文書を検索することが出来ません。
>
>  設定方法など具体的にご教示頂けないでしょうか?
>
>  また、Webの検索を行う際は、UTF-8が基本的な対象となる様に
> 思えているのですが、クロール単位でエンコードを切り替えることは可能なので
> しょうか?
>
>  ちなみに、こんなこと考えてるより、OSをWindowsにした方が良いのでしょうか?
>
>  素人的な質問で申し訳ありませんが、よろしくお願いいたします。
>
> 以上
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user



Fess-user メーリングリストの案内
アーカイブの一覧に戻る