Re: 田畑さんの予想を gcanna.ctd に適用してみました (Anthy-dev 3410) - Anthy

田畑です。

UTUMI Hirosi wrote:
>>実際のところ、変換精度を向上させるためには
>>99,90,50,10(上位1%,10%,50%,下位10%)
>>ぐらいがあれば十分で、
>>そんなに細かくする必要はないんじゃないかと予想しています。

> この予想にしたがって公式版 gcanna.ctd の頻度を次のように変更しました。
すいません、説明不足でした。
候補の並び替えについては今までどおりの情報が必要ですが、
文節区切りについては内部で並び替えて上位n%かどうかで分類します。

このためには、内海さんがすでにやられているように全体での出現頻度に
比例した(正確には、順序を保存した)頻度情報があれば十分です。
cannadicやalt-cannadicだと同音異義語内の頻度に重点がおかれているようなので
手元の実験ではあんまりいい結果になってません。
(例文の数が少ないのに頻度別に二つの分布を作ったのが原因かもしれませんが)


-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA

Anthy

[Anthy-dev 3410] Re: 田畑さんの予想を gcanna.ctd に適用してみました