Rei FURUKAWA
furuk****@tcp-i*****
2006年 1月 28日 (土) 08:15:36 JST
古川です。 最近、全然貢献できてなくてすみません。 From: "NARUSE, Yui" <narus****@airem*****> Subject: [Nkf-dev 4] eucJP-msのマッピング変更について Date: Fri, 27 Jan 2006 22:12:22 +0900 naruse> さて、先日EUC-JPのマッピングで迷っていたわけですが、 naruse> ICUがglibcのeucJP-msマッピングをucm形式で公開しているのを見つけました。 naruse> http://dev.icu-project.org/cgi-bin/viewcvs.cgi/charset/data/ucm/ naruse> naruse> 調べてみたところ、以下の点で現在のnkfとマッピングが異なるようです。 naruse> naruse> nkf.c rev 1.90, utftbl.c rev 1.16 naruse> <U00A5> \xA1\xEF |1 naruse> <U203E> \xA1\xB1 |1 naruse> naruse> glibc-EUC_JP_MS-2.3.3.ucm naruse> <U00A5> \x5C |1 naruse> <U203E> \x7E |1 naruse> naruse> これについて、nkfのマッピングをglibcにあわせようと思っているのですが、 naruse> ご意見ありますでしょうか。 私の意見としては、「文字コードの正しさは、別の変換フィルタに任せたほうがよい」 です。 他にもいろいろと変換フィルタがある中で、nkf のような古いものを使うのは、 それまで nkf を使っていたスクリプトで、nkf を v2 にするだけで utf を喰わすことができる というケースが多いと思っています。 naruse> ASCII外の文字が文字コードの変換によってASCIIに飛び込んでくる件は、 naruse> CP932がどうしようもないことを考えると、 naruse> 「仕様」とし、別途注意を喚起した方がいい気がしてきました。 実際にユーザは、どう注意すればよいのでしょうか?という疑問があります。 出力結果に '\' が出てきたら、もう一度入力を調べて、元々 '\' だった のかどうかを見る、ということでしょうか? -- Rei FURUKAWA furuk****@tcp-i*****