[Anthy-dev 3450] Re: gtankan.ctd の活用形を持つ単語

アーカイブの一覧に戻る

Jun Oizumi vagus****@gmail*****
2007年 3月 28日 (水) 01:19:17 JST


大泉@alt-cannadic です。
ご不便をお掛けしております。

この問題自体は以前から認識しておりましたが、
[Anthy-dev 3061]
http://lists.sourceforge.jp/mailman/archives/anthy-dev/2006-July/003060.html
最近の anthy では単漢字の候補は後ろの方に回されるので、当面はそれでよしとしていました。

もし「そもそも候補に出したくない、しかも今すぐに」ということであれば、以前使っていた逃げの手
ですが、

 $ mv gtankan.ctd gtankan.ctd.orig
 $ sed 's/^\([^ ]\+\) /\1: /' gtankan.ctd.orig > gtankan.ctd

とかして、単漢字は「読み:」と読みに「:」をつけて出すようにする、という方法があります。
これで通常の変換時には単漢字の候補は出てこなくなります。ただ、記号なども含めて、
単漢字の候補を出したいときは、「:」をつけなければ出てこない分、面倒になりますが…。

後ろにつける記号は何でも構いませんが、全角か半角かはお使いの環境に合わせる必要があります。
つまり、「記号は半角で入力する」という設定で使っている場合など、全角記号(例えば「:」)を読み
として入力できない場合は、半角記号(例えば「:」)を使う必要がある、ということです。

以上はあくまで「その場しのぎ」の方法です。

ちなみに、

> gtankan.ctd は組み込まない

というのは、一時的にせよ、マズイのではないかと思います。
記号などはほとんどすべて gtankan.ctd にありますし(base.t にある分は出せますが)、
漢字も結構 gtankan.ctd に頼っています。
例えば「婚」や「懇」を単独で出したくて「こん」と入力して変換しても、gtankan.ctd がないと
どちらも出てこないはずです(「婚姻」「懇意」と変換してから「姻」や「意」を削るという手はあり
ますが)。

問題となっているのは送り仮名も含めた読みで登録されているものだと思いますので、

> gtankan.ctd から活用しない物だけ抜き出す

のが、一番現実的と思います。
ですので、取りあえずこの方向で行こうと思います。

具体的には、

 あたらしい #KJ 新
 うごく #KJ 動
 すでに #KJ 既

のように送り仮名ありの読みで登録されているものを

 あたら-しい #KJ 新
 うご-く #KJ 動
 すで-に #KJ 既

のように語幹と送り仮名の間に「-」を入れていきます。
(ここまではいずれやろうと思っていたことですが、順番が早まりました ^^)。
こうしておけば、

 ・読みに「-」が含まれているものは除外する
 ・読みに「-」が含まれているものは「-」以降の読みを削除する

等の対応が可能になります。
来月末までに何とか…と考えています。


ただ、理想を言えば、以前
[Anthy-dev 3068]
http://lists.sourceforge.jp/mailman/archives/anthy-dev/2006-July/003067.html
で書かせていただいた通り、「通常の変換時には単漢字は含めない」「単漢字は別の変換モードで出す」
というのができれば一番だとは思います。

以前ちょっと他の IME を試したところでは、

[ATOK2005] デフォルト状態
 ・通常変換時(スペースキーでの変換)には単漢字は含まれない
 ・F2 キーを押すと単漢字の候補が出る
 ・「うごく」のような送り仮名のある読みは「うご」と語幹部分のみで「動」が出る
 ・通常変換時(スペースキーでの変換)に単漢字が出るようにすることもできる

[MS-IME2000] デフォルト状態
 ・通常変換時(スペースキーでの変換)には単漢字は含まれない
 ・「変換モード」を「人名/地名」にすると単漢字の候補が出る
 ・「うごく」のような送り仮名のある読みは「うご」と語幹部分のみで「動」が出る
 ・通常変換時(スペースキーでの変換)に単漢字が出るようにすることもできる

という感じでした。
(vista を持っていないので分かりませんが、MS-IME2007 は変換モードを変えなくても(変換モード自体
なくなった?)通常変換時の候補の中に「単漢字」というのがあって、それを選択すると単漢字の候補が
出る、というような形になったらしいです)。

ATOK や MS-IME のやり方が常に正しいとは思いませんが、通常の変換と単漢字の変換とを切り離している
部分は、「やはりそれが妥当なんだろうな」という気がします。

以前の話を蒸し返すようで恐縮ですが、いかがでしょうか? > 田畑さん




Anthy-dev メーリングリストの案内
アーカイブの一覧に戻る