Anthy で UTF-8

alt-cannadic/extra/ 以下には、EUC-JP(JISX0208) では出せない文字を含んだものを集めた UTF-8 の辞書が入っています(除く gt-tankanji-okuri-std.t)。
これらの辞書を使えば、丸数字やローマ数字、各種記号、特殊な人名漢字などが出せるようになります(尤も、単漢字以外はまだスカスカですが…)。
※090921 版以降、gt-tankanji_hikanji-34.t はデフォルトで使うよう、同梱の dict.args.in を変更したので、丸数字やローマ数字は出せるようになっています。

ここでは、Anthy でこれらの辞書を使う方法を説明します。
なお、extra/ にある辞書は Canna では使えませんので悪しからず。

【準備】

extra/ にある辞書を使うには、他に以下のものが必要となります:

  • Anthy >= 8819
  • JISX0213:2004 に対応したフォント
    • IPA フォント(古いものは対応していないので注意)
    • VL フォント etc
  • UTF-8 に対応したフロントエンド


【入れ方】

個人辞書として使う

extra/ にある使いたい辞書を ~/.anthy/imported_words_default.d/ 以下にコピれば終了。
※~/.anthy/imported_words_default.d/ は、なければ自分で作成。
IM の再起動や再ログインは不要で、コピった瞬間から使えるようです。

共有辞書に含めて使う

anthy.dic の作成方法自体は標準のものと同じです。dict.args.in の設定のみが異なります。
alt-cannadic-0?????/anthy/mkworddic/dict.args.in を適宜編集してお使い下さい。
例:

#
# 辞書ファイルを生成するためのスクリプト
#
# ./mkworddic -f dict.args
# 
# (すべての辞書を使う場合のサンプル
#  anthy.dic のサイズも大きくなる)
#
set_input_encoding eucjp
read @top_srcdir@/alt-cannadic/gcanna.ctd
#

(中略)

#
set_input_encoding utf8  ← UTF-8 のセクション
read @top_srcdir@/alt-cannadic/extra/gt-tankanji_hikanji-34.t
read @top_srcdir@/alt-cannadic/extra/g-jiritu-34.t
read @top_srcdir@/alt-cannadic/extra/gf-fuzoku-34.t
read @top_srcdir@/alt-cannadic/extra/gc-fullname-34.t
#
read @top_srcdir@/alt-cannadic/extra/gt-tankanji_kanji-34.t
read @top_srcdir@/alt-cannadic/extra/gt-tankanji_hikanji-uni.t
#read @top_srcdir@/alt-cannadic/extra/gt-tankanji_okuri-std.t
#
# this command will make reverse dictionary
build_reverse_dict
# this command will make dictionary body in utf8
set_dict_encoding utf8     ← ここが"utf8"なのを確認
read_uc @top_srcdir@/mkworddic/udict
write anthy.wdic
done
※注意: 途中に空行があるとそこまでしか読み込まれないようなので、文書末までコメント行でつなぐ必要があるようです。

【変換の仕方】

extra/ に入れてある辞書は基本的にはすべて、「読み」に「t」(半角小文字)をつけて変換するようになっています。
※090921 版から、gt-tankanji_hikanji-34.t は読みからすべて「t」を外しました

    例:
    あおうみがめt → 黿
    さんt → 巑
    しもやけt → 瘃

ただし、「読み」が数字や記号になっているものは「t」をつけずにそのままで変換します。

    例:
    !? → ⁉
    11 → ⅺ

逆に、出したい文字が記号であっても、「読み」が数字や記号でないなら、「t」をつけます

    例:
    けーけーt → ㏍
    しょうわt → ㍼
    じゅういちt → Ⅺ

ちなみに、gt_okuri.ctd, gt-tankanji_okuri-std.t は "送り仮名や助詞を含めた「読み」" に「t」をつけて変換します。

    例:
    あうt → 会
    あおるt → 煽
    あたらしいt → 新
    すでにt → 既
    すなわちt → 即

尚、かな入力派の方など、「t」を読みとして入力できない方は、sed やエディタなどでお好きな別の文字に置換してお使いください。

 例: 「t」の代わりに「ヶ」を使うようにする
 $ mv gt-tankanji_hikanji-34.t gt-tankanji_hikanji-34.t.orig
 $ sed 's/^\([^ ]\+\)t /\1ヶ /' gt-tankanji_hikanji-34.t.orig > gt-tankanji_hikanji-34.t

※「何で読みに"t"とか付けてるのか」について※

  • gt_okuri.ctd, gt-tankanji_okuri-std.t

「t」なしの普通の読みで登録していると、変換したときにたとえば「あう」で「会」一字のみの候補が出てきてしまいます。しかも、先頭に出てしまったり…。これを避けるために「t」を付けて出さないようにしています。尤も、この辞書は入れなくても多分実用上問題ないと思います。

  • その他 *-34, *-uni のもの

MS-IME や ATOK ように、普通の読みで変換しても「この候補には JISX0213 の文字が含まれてますよ」という情報を候補ウィンドウに表示できればいいんですが、あいにくそういうことができるものがないので、苦肉の策で、ユーザが入力する「読み」で区別するようにしています。
なので、「自分は別にそんな区別はしなくてもいい、普通の読みで出したい」ということなら、"t"を取って頂いて構いません。

(しかし、何で「t」にしたんだったっけか…??? 多分記号とかの方がいいと思うので、各自でお好きなものに置き換えるなり削除するなりして下さい)