Shinsuke Sugaya
shins****@yahoo*****
2015年 2月 22日 (日) 17:42:14 JST
菅谷です。 > Shift-JISで作成された文書を検索することが出来ません。 HTMLファイルはcharsetなどで正しく自動判別できていると 思いますが、テキストファイルも一応エンコーディングの 自動判別をしているものの、なかなか難しいので多くの場合が UTF-8として判別されていると思います。 明示的に別なエンコーディングを利用するためには https://github.com/codelibs/s2robot/blob/s2-robot-parent-0.8.0/s2robot/src/main/resources/s2robot_extractor.dicon をwebapps/fess/WEB-INF/classesに配置して、 text/plainの行を削除して、 <component name="textExtractor" class="org.codelibs.robot.extractor.impl.TextExtractor"/> <property name="encoding">"Shift_JIS"</property> </component> を追加して、ExtractorFactoryに <initMethod name="addExtractor"> <arg>"text/plain"</arg> <arg>textExtractor</arg> </initMethod> を追加すれば良いと思います。 > クロール単位でエンコードを切り替えることは可能なので > しょうか? S2RobotのExtractorあたりを拡張していただければ 可能だと思います。 > ちなみに、こんなこと考えてるより、OSをWindowsにした方が良いのでしょうか? システム的には基本はUTF-8で動作するようにしているので Windowsにしてもあまり変わらないような気がします。 shinsuke 2015年2月17日 11:37 斎藤 直正 <nsait****@msk-w*****>: > 斎藤です。 > > はじめて投稿します。 > > 私の環境は、CentOS 6.5上にFessをインストールしています。 > OSそのものをWindowsにすれば良かったかな?とか思っているのですが、 > 取りあえず全文検索が可能な状況にまでは至っています。 > > 今回、Windows上で作成された > ・Word > ・Excel > ・PowerPoint > ・PDF > ・テキスト > などの文書を検索対象として考えています。 > > 文字コードは、テキストを見る限りShift-JISが用いられており、 > ファイルのパスにもShift-JISで2Byte文字のフォルダーが顕在ます。 > (半角カタカナは無視します) > > クロールを行って、ファイルの検索を行ったのですが、やはり、UTF-8で > 記述されたテキスト文書(テスト的に作った文書)は検索できたのですが、 > Shift-JISで作成された文書を検索することが出来ません。 > > 設定方法など具体的にご教示頂けないでしょうか? > > また、Webの検索を行う際は、UTF-8が基本的な対象となる様に > 思えているのですが、クロール単位でエンコードを切り替えることは可能なので > しょうか? > > ちなみに、こんなこと考えてるより、OSをWindowsにした方が良いのでしょうか? > > 素人的な質問で申し訳ありませんが、よろしくお願いいたします。 > > 以上 > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user