プロジェクトの説明

Texterizeは、テキストやメタデータを抽出するツールおよびライブラリで、ファイルからテキストコンテンツを素早く取得するのに使われます。 現在サポートしているファイル形式は次の通りです;PDF、Excel、Powerpoint、Word、RTF、WordPerfect、MP3、Ogg、および全てのOpenDocumentファイルフォーマット Texterizeが出力するファイルはテキストおよびXML形式です。 Unicodeの入出力が可能であり、UTF-8がデフォルトの出力文字コードです。 Texterizeはまた、ディレクトリ全体(またはファイルシステム全体)をテキストに変換可能な再帰モードをも備えています。 この再帰モードは、アーカイブファイルや圧縮ファイル(zip、tar、gzなど)も変換対象としています。

レビュー
あなたの評価
レビューする