[fess-user 756] Re: CommandExtractorとxdco2txtの連携について

アーカイブの一覧に戻る

monolith モノリス monyo****@hotma*****
2013年 7月 12日 (金) 23:47:34 JST


お世話になっております。やまです。

お忙しいところ、ご回答ありがとうございます。
教えていただいた箇所よりダウンロードし、
0.5.7のjarを以下3つと差し換えました。

s2-robot-0.5.1.jar
s2-robot-db-0.5.1.jar
s2-robot-db-h2-0.5.1.jar

しかし、クロール時にインデックスが作成されず、
fess.outに以下エラーが出力されました。(文字化けは無視してください)

Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db
Exception in thread "Robot-20130712223500-1" org.seasar.framework.beans.PropertyNotFoundRuntimeException: [ESSR0065]?N???X(jp.sf.fess.robot.FessS2RobotThread)??v???p?e?B(noWaitOnFolder)?????????????
	at org.seasar.framework.beans.impl.BeanDescImpl.getPropertyDesc(BeanDescImpl.java:137)
	at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:48)
	at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:41)
	at org.seasar.framework.container.assembler.AutoPropertyAssembler.assemble(AutoPropertyAssembler.java:56)
	at org.seasar.framework.container.deployer.PrototypeComponentDeployer.deploy(PrototypeComponentDeployer.java:43)
	at org.seasar.framework.container.impl.ComponentDefImpl.getComponent(ComponentDefImpl.java:111)
	at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:129)
	at org.seasar.robot.S2Robot.run(S2Robot.java:209)
	at java.lang.Thread.run(Thread.java:722)
WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.


s2robot 0.5.1にはnoWaitOnFolderのプロパティが無くDIできないと考え、
s2robot_db.diconの
	<component name="robotThread" class="jp.sf.fess.robot.FessS2RobotThread" instance="prototype" >
		<property name="noWaitOnFolder">true</property>
	</component>
を削除すると以下ログが出力されました。

Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db
Exception in thread "Robot-20130712224331-1" org.seasar.framework.container.ComponentNotFoundRuntimeException: [ESSR0046]?R???|?[?l???g(robotThread)?????????????
	at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponentDef(S2ContainerBehavior.java:165)
	at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponent(S2ContainerBehavior.java:158)
	at org.seasar.framework.container.impl.S2ContainerBehavior.acquireFromGetComponent(S2ContainerBehavior.java:62)
	at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:124)
	at org.seasar.robot.S2Robot.run(S2Robot.java:209)
	at java.lang.Thread.run(Thread.java:722)
WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.

今度はrobotThreadを削除したことにより、robotThreadが見つからないエラーとなってしまいました。

fess 8.1.0ではs2robot 0.5.1を動作させるために、有効な設定などありますでしょうか?
またs2robot 0.5.1が動作する(しそうな)fessのバージョンなどありましたら
教えていただけないでしょうか。

お忙しいところ申し訳ありませんが宜しくお願い致します。

以上



2013/07/12 21:43、"Shinsuke Sugaya" <shins****@yahoo*****> のメッセージ:

菅谷です。

SNAPSHOTバージョンのjarファイルは長期的に
管理していませんので
http://maven.seasar.org/maven2/org/seasar/robot/s2-robot/0.5.1/
を利用していただければ良いかと思います。
よろしくお願いいたします。

shinsuke


2013年7月8日 12:15 monolith モノリス <monyo****@hotma*****>:
> お世話になっております。やまです。
> 
> S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、
> テキスト抽出を検討しております。
> (xdoc2txtがi filterを使用することで、xlsx形式の
>  テキストボックス内文字列抽出が行えるためです。)
> 
> 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、
> インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。
> (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様)
> 
> [fess-user 452] Re: CommandExtractor 仕様について提案
> http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html
> 
> トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した
> S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、
> 入手できませんでした。
> 
> 以下サイトに該当のjarは見つかりませんでした。
> http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/
> 
> 
> 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか?
> また、その他必要な設定ありましたら教えて頂きたいです。
> 宜しくお願い致します。
> 
> 
> ■s2robot_extractor.diconの設定内容
> <?xml version="1.0" encoding="UTF-8"?>
> <!DOCTYPE components PUBLIC "-//SEASAR//DTD S2Container 2.4//EN"
>       "http://www.seasar.org/dtd/components24.dtd">
> <components>
>   <component name="tikaExtractor" class="org.seasar.robot.extractor.impl.TikaExtractor"/>
> 
>   <component name="officeCmdExtractor" class="org.seasar.robot.extractor.impl.CommandExtractor">
>       <property name="command">"cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE"</property>
>       <property name="outputEncoding">"UTF-8"</property>
>       <property name="outputExtension">".txt"</property>
>   </component>
>   <component name="extractorFactory" class="org.seasar.robot.extractor.ExtractorFactory">
>       <initMethod name="addExtractor">
>           <arg>{
> "application/vnd.openxmlformats-officedocument.presentationml.presentation",
> "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
> "application/vnd.ms-excel.sheet.macroenabled.12",
> "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
> }</arg>
>           <arg>officeCmdExtractor</arg>
>       </initMethod>
>   </component>
> </components>
> 
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user

_______________________________________________
Fess-user mailing list
Fess-****@lists*****
http://lists.sourceforge.jp/mailman/listinfo/fess-user




Fess-user メーリングリストの案内
アーカイブの一覧に戻る