[Nkf-dev 5] Re: eucJP-msのマッピング変更について

アーカイブの一覧に戻る

Rei FURUKAWA furuk****@tcp-i*****
2006年 1月 28日 (土) 08:15:36 JST


古川です。

最近、全然貢献できてなくてすみません。


From: "NARUSE, Yui" <narus****@airem*****>
Subject: [Nkf-dev 4] eucJP-msのマッピング変更について
Date: Fri, 27 Jan 2006 22:12:22 +0900

naruse> さて、先日EUC-JPのマッピングで迷っていたわけですが、
naruse> ICUがglibcのeucJP-msマッピングをucm形式で公開しているのを見つけました。
naruse> http://dev.icu-project.org/cgi-bin/viewcvs.cgi/charset/data/ucm/
naruse> 
naruse> 調べてみたところ、以下の点で現在のnkfとマッピングが異なるようです。
naruse> 
naruse> nkf.c rev 1.90, utftbl.c rev 1.16
naruse> <U00A5> \xA1\xEF |1
naruse> <U203E> \xA1\xB1 |1
naruse> 
naruse> glibc-EUC_JP_MS-2.3.3.ucm
naruse> <U00A5> \x5C |1
naruse> <U203E> \x7E |1
naruse> 
naruse> これについて、nkfのマッピングをglibcにあわせようと思っているのですが、
naruse> ご意見ありますでしょうか。

私の意見としては、「文字コードの正しさは、別の変換フィルタに任せたほうがよい」
です。

他にもいろいろと変換フィルタがある中で、nkf のような古いものを使うのは、

    それまで nkf を使っていたスクリプトで、nkf を v2 にするだけで
    utf を喰わすことができる

というケースが多いと思っています。

naruse> ASCII外の文字が文字コードの変換によってASCIIに飛び込んでくる件は、
naruse> CP932がどうしようもないことを考えると、
naruse> 「仕様」とし、別途注意を喚起した方がいい気がしてきました。

実際にユーザは、どう注意すればよいのでしょうか?という疑問があります。
出力結果に '\' が出てきたら、もう一度入力を調べて、元々 '\' だった
のかどうかを見る、ということでしょうか?

-- 
Rei FURUKAWA 
furuk****@tcp-i*****



nkf-dev メーリングリストの案内
アーカイブの一覧に戻る