[Nkf-dev 1] nkf 2.0.5 からの変更のまとめ

アーカイブの一覧に戻る

NARUSE, Yui narus****@airem*****
2005年 11月 26日 (土) 14:08:43 JST


メーリングリストを作っては見たものの全く使っていないので、
たまには流してみる事にします。

さて、nkf2.0.5がリリースされてから半年経ち、いくつか変更が入っているため、
その変更についてまとめます。

== ひらがなカタカナ変換のドキュメント

ひらがなカタカナ変換のドキュメントが逆になっていたのを修正しました。
正しいドキュメントは以下の通りです。
   \-h1   \--hiragana カタカナ->ひらがな
   \-h2   \--katakana ひらがな->カタカナ
   \-h3   \--katakana-hiragana カタカナ<->ひらがな

== UTF8-MAC の入力への対応

UTF8-MACの入力に対応しました。(出力は非対応)

== --internal-unicode オプションの追加(実験的)
実験的なオプション --internal-unicode オプションを追加しました。
指定する事で内部処理をUnicodeのまま行います。
このオプションを使用すると --hiragana のような、
内部処理がEUC-JPである事を前提とした処理が動かない制限があります。

== fallback オプションの追加
--fb-{skip, html, xml, perl, java, subchar} オプションを追加しました。
UnicodeからShift_JIS/EUC-JP/ISO-2022-JPに変換する際に、
変換できなかった文字をどう扱うかを指定できます。

== --ic --oc オプションの追加
--ic=<input codeset> --oc=<output codeset> オプションを追加しました。
Shift_JIS, CP932, EUC-JP, CP51932, eucJP-ms, ISO-2022-JP,
UTF-8N (UTF-8), UTF-8-BOM,
UTF-16BE, UTF-16BE-BOM(UTF-16), UTF-16LE, UTF-16LE-BOM
入力には UTF8-MACも指定することができます。

== マッピングの追加、変更
JIS系の文字コードとUnicodeとの対応を定義することにしました。
これらからUnicodeへのdecodeは、定義されている範囲での変換が正しく行われ
る事を保障します。
定義されていない範囲での変換は保障しません。
Unicodeからのencodeは、定義されている範囲での変換が正しく行われる事を保
障し、
定義されていない範囲での変換はエラーとなり(fallback可能)、
Unicodeとして不正な文字はスキップされる事を保障します。

=== eucJP-ascii
TOG/JVC CDE/Motif 技術検討 WG の定めた、eucJP-open と Unicode 間のコード
変換規則で、
「JIS X 0221 式の変換 (ASCII と併用する場合)」のこと。

http://www.opengroup.or.jp/jvc/cde/sjis-euc.html
http://www.opengroup.or.jp/jvc/cde/ucs-conv.html

http://nkf.sourceforge.jp/ucm/eucJP-ascii.ucm

=== eucJP-ms
TOG/JVC CDE/Motif 技術検討 WG の定めた、eucJP-open と Unicode 間のコード
変換規則で、
「Windows NT 3.51 で採用されている変換規則」のこと。

http://www.opengroup.or.jp/jvc/cde/sjis-euc.html
http://www.opengroup.or.jp/jvc/cde/ucs-conv.html

http://nkf.sourceforge.jp/ucm/eucJP-ms.ucm

=== CP932
IANA では Windows-31J として登録されているコードセット。
Microsoft Windows における Shift_JIS。

http://www2d.biglobe.ne.jp/~msyk/charcode/cp932/Windows-31J-charset.html
http://www.microsoft.com/globaldev/reference/dbcs/932.htm

http://nkf.sourceforge.jp/ucm/cp932.ucm

=== CP51932
Microsoft Windows における EUC-JP。
IBM拡張文字の範囲をJISX0208、NEC特殊文字、NEC選定IBM拡張文字によせている

http://www.microsoft.com/globaldev/reference/dbcs/932.htm

http://nkf.sourceforge.jp/ucm/cp51932.ucm

=== eucJP-nkf
nkf デフォルトの EUC-JP。
基本的には eucJP-ascii であるが、3bytes になってしまう範囲は CP51932 を
用いる。

http://nkf.sourceforge.jp/ucm/eucJP-nkf.ucm

-- 
NARUSE, Yui  <narus****@airem*****>
DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA



nkf-dev メーリングリストの案内
アーカイブの一覧に戻る