入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。
hgot への返信
入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。
ご回答ありがとうございます。 実行前に mogrify -despeckle などでノイズ除去をあらかじめ行なう様にすると 状況が改善しました。
素晴らしいソフトウェアをご提供頂きましてありがとうございます。
現在、Nhocr を利用させて頂いておりますが、 多くの画像データに対してはそれっぽい結果が出てくるのですが まれに、日本語の文字が全く出てこずに 記号のみが出力結果として出てくる事があります。
部分的に記号が出てくるのは仕方がないと思っておりますが 数百文字ある日本語の文書をスキャンした結果なので どこか使用方法がまずかったのかなと思っております。
全体的に日本語として全く認識されない場合に 何か対処方法などの様なものはございますでしょうか?
お手数をおかけして恐縮ですが ご回答頂けましたら幸いです。
よろしくお願い申し上げます。