Okapi プロジェクトは、規模の大きなオープンソースのローカリゼーションと翻訳ツールを作成するための構成要素を設計することを主な目的としています。ですが、Okapiの多くの構成要素は、テキストマイニング、自然言語処理、およびテキスト検索全体に対する意味に十分対応しています。Okapiの多くのテキストフィルタ(HTML、プロパティ、XML、(ITS XPath-basedルール)、OpenXML、ODF、Regexなど)は、複数のドキュメント・フォーマットのテキストに対応する簡単な方法を提供します。そのドキュメントのイベントとパイプライン処理は、UIMA、LingPipe、OpenPipeline、OpenNLP、GATEやLuceneのような他のフレームワークと統合することができます。Okapiのテキストフィルタの特長は、テキストが抽出されるだけでなく、非テキストフォーマットがすべて保存されることにあります。ドキュメントをイベントに分解し、パイプラインを介してそれらのイベントを処理し、そして元のドキュメントを損なうことなく入力ドキュメントを再構築します。構造情報は、Okapiドキュメントイベントに追加することができるので、テーブル、リスト、リンク、タイトルなどが一つにまとめられ、一つのユニットとして扱われます。このことは、「汎用的な」ドキュメント構造に基づく文脈が必要な場合に役に立ちます。Okapiのイベントモデルは、UIMAに類似しているようなユーザーが設定可能な注釈をサポートしていますが、より簡単かつ範囲においてより制限されています。ユーザーはテキストに注釈をつけたり、翻訳メモリの一致部分、専門用語、トークンタイプ、または音声情報のような新しいリソースを付け加えることができます。