akira yamada
akira****@arika*****
2004年 1月 28日 (水) 14:41:08 JST
>>>>> In <871xpk1zpt.wl%komat****@taiya*****> >>>>> Hiroyuki Komatsu <komat****@taiya*****> wrote: > > いえ、「大じょう夫」のようなケースを > > なんとかすくたいというのが目的です。 > 「大じょう夫」のケースに限れば、「ぶ = 夫」を追加すれば解決します。 > 同様に「よな子」も「よな = 米」を登録すれば解決します。 もちろんそうなのですが、 他にもそういうケースがないかどうかを 見てみるのがよいのかなと考えています。 愛憎後知恵 パッとは思い付きませんが、 他にも何か変わったケースがあるかもしれないなあと。 たとえば、「陰陽師」のようなのだと 正確には「陰」=「おん」、「陽」=「みょう」ではないでしょうが、 「おん陽師」や「おんみょう師」などから「陰陽師」を求められるといいな と思うのはなんとなく分かってもらえると思います。 しかし「陽」を「みょう」と読む例は他にはあまりないように思います。 こういうケースでは「陰みょう」、「おん陽」を登録していくしか ないのかなというのが最初の発想です。 一文字ごとに辞書引きしてみて素直に読みを 復元できないものをピックアップしてみるとよいのかな…。 > 「ぶ = 夫」・「よな = 米」・「か = 神」は次の辞書には登録します。 ありがとうございます。 > 辞書は、明日 (肉の日!) にリリースする予定ですので、他にも必要な > 単語があれば教えてください。 一文字ごとに辞書引きしてみたところですと、 せっけい→設計のように「っ」が入る語、 めんどう→面倒、ぜんぱん→全般のようににごる語、 時計、暢気など、陰陽師と同じようなケースが うまくないようです。 # めちゃくちゃおおざっぱなスクリプトを書いて調べたもので、 # ノイズがかなり入ってしまっていますが、 # スクリプトと結果を以下に置いておきます。 # http://arika.org/tmp/t1.rb prime-dictをgdbmにする # http://arika.org/tmp/t3.rb 辞書引きする # http://arika.org/tmp/t3.txt 結果 -- やまだあきら / akira yamada <http://arika.org/> (akira****@arika*****, akira****@vinec***** or akira****@linux*****)