チケット #39727: 実行結果の文字化けについて - NHocr: 日本語文字認識プログラム

チケット #39727
チケット一覧/検索 新規チケット登録  RSS

実行結果の文字化けについて

登録: 2019-11-06 08:53 最終更新: 2019-11-13 08:43

モニタ

報告者:

satstnka

担当者:

hgot

チケットの種類:

機能リクエスト

状況:

オープン [担当者決定済み]

コンポーネント:

(未割り当て)

マイルストーン:

(未割り当て)

優先度:

5 - 中

重要度:

5 - 中

解決法:

なし

ファイル:

なし

詳細

素晴らしいソフトウェアをご提供頂きましてありがとうございます。

現在、Nhocr を利用させて頂いておりますが、多くの画像データに対してはそれっぽい結果が出てくるのですがまれに、日本語の文字が全く出てこずに記号のみが出力結果として出てくる事があります。

部分的に記号が出てくるのは仕方がないと思っておりますが数百文字ある日本語の文書をスキャンした結果なのでどこか使用方法がまずかったのかなと思っております。

全体的に日本語として全く認識されない場合に何か対処方法などの様なものはございますでしょうか？

お手数をおかけして恐縮ですがご回答頂けましたら幸いです。

よろしくお願い申し上げます。

チケットの履歴 (3 件中 3 件表示)

2019-11-06 08:53 更新者: satstnka

新しいチケット "実行結果の文字化けについて" が作成されました

2019-11-06 10:36 更新者: hgot

入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。

2019-11-13 08:43 更新者: None

hgot への返信

入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。

ご回答ありがとうございます。実行前に mogrify -despeckle などでノイズ除去をあらかじめ行なう様にすると状況が改善しました。

添付ファイルリスト

添付ファイルはありません

NHocr: 日本語文字認識プログラム

チケット #39727
チケット一覧/検索 新規チケット登録  RSS

実行結果の文字化けについて

登録: 2019-11-06 08:53 最終更新: 2019-11-13 08:43

モニタ

詳細

チケットの履歴 (3 件中 3 件表示)

2019-11-06 08:53 更新者: satstnka

2019-11-06 10:36 更新者: hgot

コメント

2019-11-13 08:43 更新者: None

コメント

添付ファイルリスト

編集

NHocr: 日本語文字認識プログラム

チケット #39727 チケット一覧/検索 新規チケット登録 RSS

実行結果の文字化けについて 登録: 2019-11-06 08:53 最終更新: 2019-11-13 08:43 モニタ ON OFF

詳細 返信

チケットの履歴 (3 件中 3 件表示)

2019-11-06 08:53 更新者: satstnka

2019-11-06 10:36 更新者: hgot

コメント 返信

2019-11-13 08:43 更新者: None

コメント 返信

添付ファイルリスト

編集

チケット #39727
チケット一覧/検索新規チケット登録 RSS

実行結果の文字化けについて

登録: 2019-11-06 08:53 最終更新: 2019-11-13 08:43

モニタ

詳細

コメント

コメント