カタカナ語の扱い (was: Re: scim-anthy, ほのかたん : "thi-vi-" を変換すると " ティーヴぃ長音 " になる) (Scim-imengine-dev 862) - SCIM IMEngine

ヤマケンです。

ちょっと本題から外れるのでAnthy-devの方に振らせてもらいます。

At Thu, 29 Dec 2005 18:10:46 +0900,
ashie****@homa***** wrote:
> 2005 12月 29 木曜日 12:15、Yusuke TABATA さんは書きました:
> > UTUMI Hirosi wrote:
> > > anthy-7227 + scim-anthy-0.8.0 で "thi-vi-" を変換すると、
> > > "ティーヴぃ長音" になります。
> >
> > ひらがなモードで母音を「v」にして「う」に濁点をつけた場合、
> > 普通の文字コードには「ヴ」に対応する一文字のひらがなが無いため、
> > フロントエンドは「う゛」とする選択肢と「ヴ」とする選択肢が
> > あります。
> > 後者を選択して、ひらがなでない「ヴ」がまじってるとanthyは
> > 再変換が要求されていると解釈しているようです。

> > とりあえず、逆変換の判定を直す方向で検討しようと思います。
> 
> 確かにAnthyの方で対応していただけると助かります。
> 
> ただ、scim-anthy側で、常にひらがなに正規化してAnthyに渡すという手も
> あるかもしれません。
> フロントエンド側ではどちらでも構わないと思うのですが、Anthy側では
> どちらのほうが都合がよろしいでしょうか?

現在のAnthyのAPIでは通常の変換と再変換が同一関数内で暗黙に判定さ
れますが、明示的に指定できるようにした上で通常の変換の方には以下
のような振る舞いを追加できないでしょうか。

・変換対象文字列にカタカナが混じっている場合には、その部分は変換
  後も確実にカタカナ語として現れるように制約する

    こうきゅうスタイラスのかきあじ
           ↓
  ×高級|す|平|素の|書き味
  ○高級|スタイラスの|書き味

  これは将来のuimで「スタイラス」の部分をSKKで「▽stylus」と入力
  したり補完入力したりといった柔軟な入力環境を実現するためです。

また、もし上記の挙動が実現できるならさらに以下のように一般化でき
ないでしょうか。

・漢字かな混じり文が渡された場合、変換後も必ずその漢字になるよう
  に制約

    詩てきなぶんしょう
          ↓
  ×歌|的な|文章
  ○詩的な|文章

  T-Code等の漢字直接入力を前段に置いて混ぜ書き変換ができるように
  なります。

・AnthyのUnicodeサポート後には日本語以外の文字の連続を単語として
  認識

  「キムチ」はハングルでは[kim][chi]とかきます
                    ↓
  「|キムチ|」|は|ハングルでは|[kim][chi]と|書きます

  ※[kim][chi]はそれぞれハングル用IMで入力

  現状では[kim][chi]の部分でIM切り換えを行う事になりますが、日本
  語の一文が途中でぶった切られてしまうので思考が中断されたり、誤
  変換される可能性が高くなります。

いずれも今すぐ欲しいというわけではないので、内部構成を変更する時
に頭の片隅に置いといてもらえれば嬉しいです。

ついでにAPIリファレンスを更新してみました。よかったらどうぞ。

--- anthy-7227/doc/LIB.orig	Sat Oct 22 00:13:08 2005
+++ anthy-7227/doc/LIB	Fri Dec 30 03:22:20 2005
@@ -96,6 +96,7 @@
  変換コンテキストに文字列を設定する。
  そのコンテキストに関連するそれまでの情報は破棄される。
  strはEUC-JPで与える。
+ 漢字かな混じり文を渡した場合、各漢字を一旦ひらがなに変換した上で再変換を行う。
 
 
  void anthy_resize_segment(anthy_context_t ac, int nth, int resize);

-------------------------------
ヤマケン yamak****@bp*****



SCIM IMEngine

[Scim-imengine-dev 862] カタカナ語の扱い (was: Re: scim-anthy, ほのかたん : "thi-vi-" を変換すると " ティーヴぃ長音 " になる)