ソース表示: ExKtaiso2 #46680

[FrontPage ← 先頭のページに戻る]

== デカルト言語による日本語の形態素解析 : 自然言語の読解(その2)

前の説明で示した形態素解析のプログラムを拡張して、より汎用的な文に対応できるようにします。

ちょっと長くなったのですが、以下に示します。

 [[Embed(jp2-utf8.txt)]]

例えば以下の文章で試してみましょう。

[[BR]]
{{{
デカルト言語は、論理的な推論を中心とした言語として設計しました。 

狙っているのは、強力な論理的推論・探索機能があり、関数プログラミング機能を持つオブジェクト群が、人間に近い構文のI/Fによって、並列にマルチコアで動く知的なシステムです。 

名前は有名な数学者・哲学者であるデカルトに因んで名づけています。


}}}

プログラムをjp2として保存して、デカルト言語descartesの引数として実行すると入力待ちになります。

[[BR]]
{{{

$ descartes jp2

}}}

このときコピー&ペーストで上記の文を入力すると以下のようになります。

[[BR]]
{{{
デカルト言語は、論理的な推論を中心とした言語として設計しました。
> デカルト言語は、論理的な推論を中心とした言語として設計しました 。

動作主 デカルト言語 は
状態 論理的 な
対象 推論 を
追加 中心 と
立場 した言語 として
述語 設計し ました


狙っているのは、強力な論理的推論・探索機能があり、関数プログラミング機能を持つオブジェクト群が、人間に近い構文のI/Fによって、並列にマルチコアで動く知的なシステムです。
> 狙っているのは、強力な論理的推論・探索機能があり、関数プログラミング機能を持つオブジェクト群が、人間に近い構文のI/Fによって、並列にマルチコアで動く知的なシステムです
。

動作主 狙っている のは
状態 強力 な
説明 論理的推論・探索機能 があり
対象 関数プログラミング機能 を
動作主 持つオブジェクト群 が
目標 人間 に
所属 近い構文 の
理由 I/F によって
目標 並列 に
説明 マルチコア で
状態 動く知的 な
述語 システム です


名前は有名な数学者・哲学者であるデカルトに因んで名づけています。
> 名前は有名な数学者・哲学者であるデカルトに因んで名づけています 。

動作主 名前 は
状態 有名 な
説明 数学者・哲学者 で
動作 あ る
目標 デカルト に
説明 因ん で
述語 名づけてい ます

}}}

ちょっと変なところもありますが、このような簡単なプログラムでも形態素解析ができています。

いろいろとWEB上の文章などを入力してみてください。
結構うまく解析できます。

これを使えば、検索エンジンへ入力するための検索ワードの抽出みたいな用途にも使えそうな気がしてきます。

プログラムの詳細については、次項から説明しましょう。


=== 1. その他

「その他」が最初にくるのは変な構成ですが、これは、前の「デカルト言語による日本語の形態素解析 : 自然言語の読解」で
定義してあったプログラムの、「格」と「述語」以外の接続詞や副詞を集めて定義したものです。

[[BR]]
{{{
<その他 #s>
                (
                   "万一"       <is #k "万一">
                 | "少しも"     <is #k "万一">
                 | "何故なら"   <is #k "説明">
                 | "因みに"     <is #k "順接,説明">
                 | "より"       <is #k "比較">
                 | "よもや"     <is #k "万一">
                 | "ようやく"   <is #k "徐々">
                 | "もっとも"   <is #k "逆接,説明">
                 | "もしくは"   <is #k "順接,選択">
                 | "もし"       <is #k "条件">
                 | "もう"       <is #k "既知">
                 | "まるで"     <is #k "説明">
                 | "まだ"       <is #k "未定">
                 | "または"     <is #k "順接,選択">
...途中略
                 | "おそらく"   <is #k "推測">
                 | "あるいは"   <is #k "順接,選択">
                 | "あのまま"   <is #k "状況">
                 | "あの"       <is #k "連体詞">
                 | "あと"       <is #k "追加">
                )
                                <GETTOKEN #s>
                [
                    ","
                  | "、"
                  | ","
                  | <SPACE>
                ]
                                <print #k #s>
                ;

}}}


中には「そして」、「しかし」などの接続詞や、「きっと」、「どうして」などの副詞や、その他連体詞などの
「格」としなくても自立できるような言葉をまとめてあります。

これらの語は、自立して意味を判別できるため、「格」とは独立して定義したのです。

「格」の場合は、「~+助詞」となり、~の部分はさまざまなバリエーションがありえます。
そのため、~の部分は構文解析を行う際に、ぜひ抽出したい部分です。

しかし、「その他」で定義されている語は、それ単独で意味が判明するので、それらをまとめて構文解析の対象となるようにしました。

前のプログラムと比べてこの部分を拡張することにより、本プログラムでは自然言語の文の解析精度を高くすることができました。



=== 2. 格

「格」の部分については、前の「デカルト言語による日本語の形態素解析 : 自然言語の読解」で定義してあったプログラムの、
「格」に比べていろいろと拡張しています。


[[BR]]
{{{
<格 #k #x>
	<* #x> 

	(
		  "等を"		<is #k "例示,目的"> 
		| "等の"		<is #k "例示,所属"> 
		| "等にも"	<is #k "例示"> 
...途中略
		| "け"		<is #k "動作">
		| "え"		<is #k "動作"> 
		| "?"		<is #k "疑問"> 
		| "?"		<is #k "疑問"> 
		| "!"		<is #k "驚愕"> 
		| "!"		<is #k "驚愕"> 
		| <NEXTSTR ",">	<is #k "区切り"> 
		| <NEXTSTR "、"> <is #k "区切り"> 
		| <NEXTSTR ","> <is #k "区切り"> 
		| <NEXTSTR "("> <is #k "区切り"> 
	  	| <NEXTSTR "("> <is #k "区切り"> 
		| <NEXTSTR "「"> <is #k "区切り"> 
		| <NEXTSTR "『"> <is #k "区切り"> 
		| <NEXTSTR "["> <is #k "区切り"> 
		| <NEXTSTR "{"> <is #k "区切り"> 
		| <NEXTSTR ")"> <is #k "区切り"> 
		| <NEXTSTR ")">  <is #k "区切り"> 
		| <NEXTSTR "」"> <is #k "区切り"> 
		| <NEXTSTR "』"> <is #k "区切り"> 
		| <NEXTSTR "]"> <is #k "区切り"> 
		| <NEXTSTR "}"> <is #k "区切り"> 
		| <NEXTSTR '"'> <is #k "区切り"> 
		| <NEXTSTR "'"> <is #k "区切り"> 
		| <NEXTSTR "”"> <is #k "区切り"> 
		| <NEXTSTR "“"> <is #k "区切り"> 
	)
		
		<NOTNEXTSTR "。">
		<NOTNEXTSTR ".">

 		<GETTOKEN #g>
	(
		  <eq #g "を"> [ "," | "、" | ","]
		| ","
		| "、"
		| ","
		| <SPACE>
		| (
		    ::sys <rightstr #rc #x 1>
		    <NEXTCHAR #lc>  
		   (
			(  ::sys <syntax #rc <NONRANGE _ "あ" "ん">>
		    	 | ::sys <syntax #lc <NONRANGE _ "あ" "ん">>
			)
		   )		  
		   <noteq #lc "ぁ">
		   <noteq #lc "ぃ">
		   <noteq #lc "ぅ">
		   <noteq #lc "ぇ">
		   <noteq #lc "ぉ">
		   //<noteq #lc "っ">
		   <noteq #lc "ゃ">
		   <noteq #lc "ゅ">
		   <noteq #lc "ょ">

		   <noteq #rc "な">
		   <noteq #rc "で">
		 )
	)


	<print #k #x #g>
	;

}}}

NEXTSTR述語は、現在読み込んだ文字の次の文字列が何かを先読みします。

上記では、区切り文字が次の文字かどうかを判断して、文の区切りを明確に判定しています。

noteq述語は引数が等しくないことを確認する述語です。

その引数で、ぁ、ぃ、ぅ等の小さな平仮名を判定しているのは、助詞の「が」のような述語の後に「ぁ」のような文字があると、
擬音の「がぁがぁ」というような言葉は判定できないためです。
また、助詞の後は新たな単語の開始位置ですから、小さな平仮名が最初の文字に来るのはありえないという判断でもあります。

=== 3. 述語

「述語」の部分については、前の「デカルト言語による日本語の形態素解析 : 自然言語の読解」で定義してあったプログラムの、
「述語」に比べていろいろな述語を拡張しています。

また、語尾に「?」や「...」のような字句を拡張することにより、世の中に存在する文への対応が柔軟に行えるようになりました。


[[BR]]
{{{
<述語 #y #t>
        <* #y>
        (
           "わ"
         | "る"
         | "らしかった"
         | "らしい"
         | "ようだった"
         | "ようだ"
...途中略
         | "い"
         | "ある"
         | "あった"
         | "?"
         | "?"
         | "."
         | "。"
         | "..."
         | "……"
         | "…"
         | <SPACE>
         | <CR>
        )
                <GETTOKEN #t>
        (
                  "?"
                | "?"
                | "."
                | "。"
                | "..."
                | "……"
                | "…"
                | <SPACE>
                | <CR>
                | <EOF>
        )                       <print "述語" #y #t><print>
        ;


}}}


本来は、述語の変化にも対応できると良いかもしれません。
過去形や未来形などの語尾の変化に対応するのは、そんなに難しいことではありません。
五段活用のような文法で定められた活用形をサポートすればよいでしょう。


=== 4. 括弧

世の中の文では、括弧に括られた文がとても多いです。注釈、補足、モノローグや会話など、さまざまな場面で使用されます。

また、括弧といっても種類もとても多いですね。クォートやダブルクォートなどもあります。

括弧は、多用され文の中で重要な役割をすることから、ここの形態素プログラムの中では独立した一つの述語として定義しました。

[[BR]]
{{{
<括弧 #p>
        (
            "("
          | "("
          | "「"
          | "『"
          | "["
          | "{"
          | "'"
          | '"'
          | "”"
          | "“"
        )
        <GETTOKEN #g>
        <print "括弧" #g>
        ;

}}}

しかし、上記のプログラムを見てもらうと少し変に思われるかもしれません。
括弧の開始はあるのですが、閉じ括弧がないですね。

閉じ括弧については、<格>述語で処理するようにしています。

たとえば以下の文を処理してみましょう。

[[BR]]
{{{
> 一般的な(私はそう思わない)ことだが、違う結果になることがある 。

状態 一般的 な
括弧 (
動作主 私 は
区切り そう思わない
逆接 )こと だが
目標 違う結果 に
述語 なることが ある

}}}

上記に示した『)こと だが』のように、閉じ括弧を格の一部として、このプログラムでは解釈します。


=== 5. 文

「文」述語は、今まで説明してきた「括弧」、「その他」、「格」および「述語」で構成されます。


[[BR]]
{{{

<文>
	{
		(
		 <括弧 #p>
		|
		 <その他 #s>
		|
		 <格 #k #x>
		)
	}
	<述語 #y #t>
	;

}}}

まず、「括弧」述語か調べ、異なる場合は「その他」、「格」と順に調べます。
該当する述語の場合は、解析した結果を出力することになります。
そして、これらの述語の処理を繰り返し、最後に「述語」の処理を行い、その結果を出力して終了します。

このような処理の繰り返しにより、日本語の文を形態素解析していきます。


=== 6. 拡張と改良の方法

ここで紹介したプログラムは、前の「デカルト言語による日本語の形態素解析 : 自然言語の読解」で定義してあったプログラム
を基にして、いろいろな文章を入力し、その結果から拡張して改良してきたものです。

この項では、その拡張と改良の方法について説明したいと思います。

このページの最初に示した例をもう一度見てみましょう。

[[BR]]
{{{
デカルト言語は、論理的な推論を中心とした言語として設計しました。
> デカルト言語は、論理的な推論を中心とした言語として設計しました 。

動作主 デカルト言語 は
状態 論理的 な
対象 推論 を
追加 中心 と
立場 した言語 として
述語 設計し ました

}}}

「中心とした言語として」が、「中心 と」、「した言語 として」となってしまっています。

これを、「中心 とした」、「言語 として」となるように改良してみます。

これは、じっとこの文をみてみると、助詞の「と」と間違えて判定したためと分かります。
つまり、「と」と判定される前に、「とした」と判定してしまえばよいのです。

次に、最初に示したプログラムの中で「と」を処理している部分を探してみましょう。

<格>述語の中で探します。

[[BR]]
{{{
                | "としては"    <is #k "立場">
                | "として"      <is #k "立場">
                | "とき"        <is #k "条件">
                | "ということですので"  <is #k "立場">
                | "ということです"      <is #k "立場">
                | "ということ"  <is #k "立場">
                | "という"      <is #k "立場">
                | "と"          <is #k "追加">   //← ここです。
                | "でも"        <is #k "追加">

}}}

ありましたね。
この「と」よりも上に「とした」を追加すればOKです。

[[BR]]
{{{
                | "としては"    <is #k "立場">
                | "として"      <is #k "立場">
                | "とした"      <is #k "立場"> //← ここに追加
                | "とき"        <is #k "条件">
                | "ということですので"  <is #k "立場">
                | "ということです"      <is #k "立場">
                | "ということ"  <is #k "立場">
                | "という"      <is #k "立場">
                | "と"          <is #k "追加">
                | "でも"        <is #k "追加">

}}}

「と」の上なら、とりあえず、どこでも良いのですが、ここでは、語順なども考えて、「として」の直下に追加しました。

さて、この新しいプログラムを使って同じ文を解析してみます。

[[BR]]
{{{
> デカルト言語は、論理的な推論を中心とした言語として設計しました 。

動作主 デカルト言語 は
状態 論理的 な
対象 推論 を
立場 中心 とした
立場 言語 として
述語 設計し ました

}}}

狙い通りに解析できました。

実はこの形態素解析のプログラムは、さまざまなWWW上のニュースの文を多数読ませながら、
上記のような方法で拡張して作ったものです。

文を覚えさせれば、どんどんと賢くなっていくプログラムなのです。

つづく