オープンソース・ソフトウェアの開発とダウンロード

OSDN > ソフトウェアを探す > NHocr: 日本語文字認識プログラム > 文書

NHocrについての表示

カテゴリ（タグ）ツリー

ルート

ファイル情報

カテゴリ（タグ）: ルート

ファイル名: about-140830
最終更新: 2008-10-01 12:28
種類: HTML
作成者: H. Goto

概要: NHocrの紹介

バージョン履歴 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 直前との差分バージョンを指定して差分を表示

言語: 日本語; 翻訳する

NHocr - 日本語文字認識プログラム

Since Sep 8, 2008 / Last update: Oct 1, 2008

この文書は nhocr: OCR engine for Japanese language (Google Code) にある紹介文を日本語訳し、若干の変更を加えたものです。

NHocrについて

NHocr は日本語に対応したコマンドライン形式の文字認識(OCR)プログラムです。 NHocr は画像中の日本語文字やASCII文字/シンボルを認識します。 NHocr はフリーのオープンソースな OCRソフトウェアとしてリリースされる予定です。

NHocr はウェブサービス WeOCR でも利用できます。

日本語文字認識 - beta: http://appsv.ocrgrid.org/nhocr/index-j.html

このプログラムは実験的な意味が強く、文字認識の精度に限界があります。
(高性能なOCRが必要ならば、製品を買うべきでしょう。)

NHocr は元々、作者の週末プログラミングの成果物です。開発は遅いかもしれません。

現バージョンにおける制約事項

ソースコードはまだ公開されていません。
現在の NHocr は、ページレイアウトの解析処理が組み込まれていないので、行イメージしか扱うことができません。
全角・半角の文字が混在したり、プロポーショナルフォントが用いられると、認識率が悪化することがあります。というか、します。
文字切り出しアルゴリズムはまだ非常に単純なので、文字切り出しの精度は悪いです。
ASCII文字の認識率は悪いです。欧米言語には、例えば tesseract のような、他のOCRを使うことを奨めます。
傾き補正処理がまだ入っていません。
言語後処理はまだ含まれていません。

サポートされるプラットフォームと要件

後に決定の予定です。
現在のα版はLinux上で走っています。最低限 Solaris と Linux はサポートされる予定です。

コードの入手性

開発がまだ初期の段階なので、当面の間、ソースコードは共同研究者のみに公開の予定です。一般へのソース公開は 2009.2Q に予定されています。

NHocr で用いられている文字特徴量は、 '90年代後半に堀らによって提案された外郭局所モーメント特徴 (Peripheral Local Moment, P-LM) が基本になっています。現在、文字特徴量の抽出のためのコードは、 Google Code のサイトにてダウンロード可能です。

ライセンス

後に決定の予定です。
MIT-Xの派生、BSD、Apache2.0のいずれかになる予定です。

© 2008 Hideaki Goto

サイト情報

ソフトウェアを探す

ソフトウェアを作る

コミュニティ

ヘルプ

Copyright ©Appirits Inc.