チケット #39727

実行結果の文字化けについて

登録: 2019-11-06 08:53 最終更新: 2019-11-13 08:43

報告者:
担当者:
チケットの種類:
状況:
オープン [担当者決定済み]
コンポーネント:
(未割り当て)
マイルストーン:
(未割り当て)
優先度:
5 - 中
重要度:
5 - 中
解決法:
なし
ファイル:
なし

詳細

素晴らしいソフトウェアをご提供頂きましてありがとうございます。

現在、Nhocr を利用させて頂いておりますが、 多くの画像データに対してはそれっぽい結果が出てくるのですが まれに、日本語の文字が全く出てこずに 記号のみが出力結果として出てくる事があります。

部分的に記号が出てくるのは仕方がないと思っておりますが 数百文字ある日本語の文書をスキャンした結果なので どこか使用方法がまずかったのかなと思っております。

全体的に日本語として全く認識されない場合に 何か対処方法などの様なものはございますでしょうか?

お手数をおかけして恐縮ですが ご回答頂けましたら幸いです。

よろしくお願い申し上げます。

チケットの履歴 (3 件中 3 件表示)

2019-11-06 08:53 更新者: satstnka
  • 新しいチケット "実行結果の文字化けについて" が作成されました
2019-11-06 10:36 更新者: hgot
コメント

入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。

2019-11-13 08:43 更新者: None
コメント

hgot への返信

入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。

ご回答ありがとうございます。 実行前に mogrify -despeckle などでノイズ除去をあらかじめ行なう様にすると 状況が改善しました。

添付ファイルリスト

添付ファイルはありません

編集

ログインしていません。ログインしていない状態では、コメントに記載者の記録が残りません。 » ログインする