フォーラム: オフトピック (スレッド #4621)

ライバル現る?CRM114とDSPAM (2004-02-28 14:47 by 匿名 #8241)

「市販品より高精度」を謳う、オープンソースのスパムフィルター登場
http://www.hotwired.co.jp/news/news/technology/story/20040227301.html

POPFileを含めCRM114とDSPAMも育つといいですね。

CRM114
http://crm114.sourceforge.net/

DSPAM
http://www.nuclearelephant.com/projects/dspam/dobly.html

メッセージ #8241 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

RE: ライバル現る?CRM114とDSPAM (2004-02-29 22:40 by jun-an #8267)

むむ、スパムの認識率は、相当強力なようですね。

記事を読む限りでは、CRM114はマルコフ過程を利用したフィルタで、DSPAMはベイジアンフィルタなどを通す前にスパムにフィルタをかく乱するために入れられたノイズ(関係のない文章を混入させたりする手法)を削除する機能を持ったフィルタのようですね。
「ノイズ」は、John Graham-Cumming氏の「The Spammers' Compendium」で紹介されているスパマーの手口で言えば、「MIME is Money」、「The Daily News」などにあたるでしょうか。
http://www.jgc.org/tsc/index.htm

Hotwiredの日本語版で書いてあるマルコフ過程の解説はちょっと違っているような気がします。
知っている限りで言えば、たとえば文章を頭から読んでいって、"This is" という単語の並びがあった場合、次に来る単語が"we"になったりする確率はほとんど無いわけです。
このように、将来の情報はその直前の何個かの情報に影響を受けることが多く、当然文章を読み進めれば次に来る単語の確率も変化するので、この確率変化の過程をマルコフ過程と呼びます。
圧縮技術などは、マルコフ過程は最も基本的な原理のひとつと言えるでしょう。

CRM114では、記事を読む限り、単語のペアに得点を与えてスパム判定を行っているようです。
確かに、同じ単語を使用したとしても、スパムと通常のメールでは単語の並び方は違ってくるでしょうから、かなり有効な手段かもしれませんね。
(たとえば、"removed from our database"と"our database removed from"では全然意味が違ってきますから)

POPFileのベイジアンフィルタ+DSPAMのノイズ除去+CRM114のマルコフ過程的分析を組合わせたら凄いでしょうね(^_^;
#8241 への返信

メッセージ #8267 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

RE: ライバル現る?CRM114とDSPAM (2004-03-08 15:46 by 匿名 #8490)

>POPFileのベイジアンフィルタ+DSPAMのノイズ除去
>+CRM114のマルコフ過程的分析を組合わせたら凄い
>でしょうね

なんだか、挙動が重そうな気がしますが、面白そうですね
#8241 への返信

メッセージ #8490 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする