チケット #10260

バケツに文字化けした単語が登録されている
登録: 2007-04-08 02:52 最終更新: 2007-04-08 02:52

報告者:
担当者:
(未割り当て)
チケットの種類:
状況:
オープン
コンポーネント:
(未割り当て)
マイルストーン:
(未割り当て)
優先度:
5 - 中
重要度:
5 - 中
解決法:
なし
ファイル:
なし

詳細

バケツに文字化けした単語(EUC-JP でない単語)が登録され
ることがある。
バケツの詳細ページにおいて、半角カタカナと全角ひらがな
の間に文字化けが
起こり、内容を確認すると文字化けした単語が登録されている。
EUC-JP で使用されていない文字を EUC-JP として扱ってしま
うことによって
この問題が起こっている。

Classifier/MailParse.pm
Classifier/WordMangle.pm
UI/HTML.pm

において、EUC-JP の 2 バイト文字を

my $two_bytes_euc_jp = '(?:[\x8E\xA1-\xFE][\xA1-\xFE])';

と定義しているが、\x8EF0-\x8EFE は EUC-JP では使用され
ていない。
(\x8EA1~\x8EDF は半角カタカナ)

上記定義をそれぞれ、

my $two_bytes_euc_jp =
'(?:[\xA1-\xFE][\xA1-\xFE])|(?:\x8E[\xA1-\xDF])';

に修正し、また、

Classifier/MailParse.pm



my $non_symbol_two_bytes_euc_jp =
'(?:[\x8E\xA3-\xA7\xB0-\xFE][\xA1-\xFE])';



my $non_symbol_two_bytes_euc_jp =
'(?:[\xA3-\xA7\xB0-\xFE][\xA1-\xFE])|(?:\x8E[\xA1-\xDF])';

に修正することにより問題が解決するのではないかと考えら
れる(未検証)。

(参考)
http://euc.jp/i18n/charcode.ja.html

(バグ報告の書き込み)
https://sourceforge.jp/forum/message.php?msg_id=28986

チケットの履歴 (0 件中 0 件表示)

添付ファイルリスト

添付ファイルはありません

編集

ログインしていません。ログインしていない状態では、コメントに記載者の記録が残りません。 » ログインする