話題(スレッド): 日経バイト2004年2月号の記事でPOPFileが紹介されています

日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-01-30 11:49, jishiha, #7662)

日経バイト2004年2月号の記事「スパムメールはどこまで排除できるか」の中で、検証対象のスパムフィルターの一つとして POPFile が紹介されています。

http://store.nikkeibp.co.jp/mokuji/nby249.html

少量の学習で有効に働いたただ一つのスパムフィルター、
日本語のメールをそれなりに分類できた3製品のうちの一つ
(Norton AntiSpam、ウィルスバスター、POPFile)とのことです。

メッセージ #7662 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

RE: 日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-01-30 23:47, jishiha, #7677)

以下、私が編集部にあてて送ったメールからの引用です。

>>>

スパムメールについてここまで分析・検証した
日本語の記事はあまりこれまでになかったので、
非常に興味深く読ませていただきました。


ご指摘されている3つの課題についてですが、

1) かなりの量のメールをきちんと学習させ
なければならない

というのはその通りで、POPFile の開発チームの
間では満足できる判定率(97%以上)に到達する
ためには 1000 通近いメールを受け取ることが
必要だろうと考えられています。これは、1000通
近いメールをいちいち学習させる必要がある、と
いうことではなく、1000通のうちいくつかのメール
では分類間違いが起こりこれらは学習させる必要
があるけれども、あとのほとんどのメールに対しては
何もする必要がないが、安定した判定率を得るために
は合計1000通ほどのメールを受け取る必要がある
ということです。

参照:
http://popfile.sourceforge.net/cgi-bin/wiki.pl?FrequentlyAskedQuestions/WhenGood

POPFile には、初期状態で既に受け取ったメールを読み
込ませて学習させる insert.pl というツールが付属して
いるのですが、どちらかというと開発者向け・上級者
向けツールと位置づけられており、またこのツールは
まだ日本語には対応しておりません。

1) の課題を受けて、insert.pl を初心者にも使えるよう
にすること、そして日本語化がPOPFile の課題だと
感じました。


2) 日本語に即した処理を充実させる必要がある

ですが、分類ルールをあらかじめ持つことをせず、
完全に学習に依存する POPFile は、上記のようにある
程度のサンプル数がないと満足できる判定率は得られず、
記事中での検証に使われたサンプル数は少な過ぎると
感じました。

ある程度の学習をおこなえば、日本語のメールに対して
Kakasi による形態素分析だけでも、かなり高い判定率を
得ることができると考えていますし、実際そのような
高い判定率を経験しているという報告を多くの日本語
ユーザーから受けております。

とはいえ、例えば、途中で改行してしまった単語の処理など
日本語に即した処理の充実は確かに必要だと思います。

日本語化をすすめている立場から、こうした日本語特有の
課題をひとつひとつ解決していき、POPFile をよりよい
ものにしていこうと思っています。


3) メールの意味を判断できていない

については非常に興味深いと思いました。なかなか
チャレンジングな内容で、ちょっと考えただけでは
これに対する具体的な解決方法は見えてきません。
米国の開発者チームに伝えたら、きっと「Good Question」
(Good Question とは文字通り「良い質問だ」という意味も
ありますが、「難しくて今のところ良い回答が思いつかな
い」という意味もあるようです)と言われそうですね。
今後の課題として考えたいと思っています。
#7662 への返信

メッセージ #7677 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

POPFile in Nikkei Byte(Japanese magazine) (2004-01-30 23:53, jishiha, #7678)

この記事に関して、私が popfile.sourceforge.net の
フォーラムの方に投稿したものです。

http://sourceforge.net/forum/forum.php?thread_id=1014646&forum_id=230652
#7662 への返信

メッセージ #7678 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

RE:日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-06-12 05:48, jishiha, #9851)

無料のアカウント登録が必要ですが、記事がオンラインで読めるようになりました。

http://itpro.nikkeibp.co.jp/members/NBY/techsquare/20040528/1/mokuji.jsp

これまで雑誌に掲載された POPFile 関連の記事で一番気に入っている記事のうちの一つなのでお知らせしておきます。
#7662 への返信

メッセージ #9851 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする