ログインしていません。このフォーラムはログインユーザのみに投稿が許可されています。投稿する場合はログインしてください。
ダウンロード
Magazine
開発
アカウント
ダウンロード
Magazine
開発
ログイン
アカウント/パスワードを忘れた
アカウント作成
言語
ヘルプ
言語
ヘルプ
×
ログイン
ログイン名
パスワード
×
アカウント/パスワードを忘れた
日本語の翻訳状況
カテゴリ:
ソフトウェア
人物
PersonalForge
Magazine
Wiki
検索
OSDN
>
ソフトウェアを探す
>
コミュニケーション
>
メール
>
フィルタ
>
POPFile(自動メールフィルター)の日本語化
>
フォーラム
>
POPFile 全般
>
日経バイト2004年2月号の記事でPOPFileが紹介されています
POPFile(自動メールフィルター)の日本語化
概要
プロジェクト概要
開発ダッシュボード
Webページ
開発メンバー
画像ギャラリー
公開フィード一覧
活動
統計情報
活動履歴
ダウンロード
リリース一覧
統計
チケット
チケット一覧
マイルストーン一覧
チケットの種類一覧
コンポーネント一覧
よく使われるチケット一覧のリスト/RSS
新規チケット登録
文書
コミュニケーション
フォーラム
フォーラム一覧
オフトピック (69)
POPFile 全般 (982)
POPFile 初学者専用 (1265)
メーリングリスト
MLの一覧
ニュース
フォーラム:
POPFile 全般
(スレッド #4305)
話題(スレッド)一覧に戻る
RSS
日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-01-30 11:49 by
jishiha
#7662)
チケットに引用
日経バイト2004年2月号の記事「スパムメールはどこまで排除できるか」の中で、検証対象のスパムフィルターの一つとして POPFile が紹介されています。
http://store.nikkeibp.co.jp/mokuji/nby249.html
少量の学習で有効に働いたただ一つのスパムフィルター、
日本語のメールをそれなりに分類できた3製品のうちの一つ
(Norton AntiSpam、ウィルスバスター、POPFile)とのことです。
RE: 日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-01-30 23:47 by
jishiha
#7677)
チケットに引用
以下、私が編集部にあてて送ったメールからの引用です。
>>>
スパムメールについてここまで分析・検証した
日本語の記事はあまりこれまでになかったので、
非常に興味深く読ませていただきました。
ご指摘されている3つの課題についてですが、
1) かなりの量のメールをきちんと学習させ
なければならない
というのはその通りで、POPFile の開発チームの
間では満足できる判定率(97%以上)に到達する
ためには 1000 通近いメールを受け取ることが
必要だろうと考えられています。これは、1000通
近いメールをいちいち学習させる必要がある、と
いうことではなく、1000通のうちいくつかのメール
では分類間違いが起こりこれらは学習させる必要
があるけれども、あとのほとんどのメールに対しては
何もする必要がないが、安定した判定率を得るために
は合計1000通ほどのメールを受け取る必要がある
ということです。
参照:
http://popfile.sourceforge.net/cgi-bin/wiki.pl?FrequentlyAskedQuestions/WhenGood
POPFile には、初期状態で既に受け取ったメールを読み
込ませて学習させる insert.pl というツールが付属して
いるのですが、どちらかというと開発者向け・上級者
向けツールと位置づけられており、またこのツールは
まだ日本語には対応しておりません。
1) の課題を受けて、insert.pl を初心者にも使えるよう
にすること、そして日本語化がPOPFile の課題だと
感じました。
2) 日本語に即した処理を充実させる必要がある
ですが、分類ルールをあらかじめ持つことをせず、
完全に学習に依存する POPFile は、上記のようにある
程度のサンプル数がないと満足できる判定率は得られず、
記事中での検証に使われたサンプル数は少な過ぎると
感じました。
ある程度の学習をおこなえば、日本語のメールに対して
Kakasi による形態素分析だけでも、かなり高い判定率を
得ることができると考えていますし、実際そのような
高い判定率を経験しているという報告を多くの日本語
ユーザーから受けております。
とはいえ、例えば、途中で改行してしまった単語の処理など
日本語に即した処理の充実は確かに必要だと思います。
日本語化をすすめている立場から、こうした日本語特有の
課題をひとつひとつ解決していき、POPFile をよりよい
ものにしていこうと思っています。
3) メールの意味を判断できていない
については非常に興味深いと思いました。なかなか
チャレンジングな内容で、ちょっと考えただけでは
これに対する具体的な解決方法は見えてきません。
米国の開発者チームに伝えたら、きっと「Good Question」
(Good Question とは文字通り「良い質問だ」という意味も
ありますが、「難しくて今のところ良い回答が思いつかな
い」という意味もあるようです)と言われそうですね。
今後の課題として考えたいと思っています。
#7662
への返信
POPFile in Nikkei Byte(Japanese magazine) (2004-01-30 23:53 by
jishiha
#7678)
チケットに引用
この記事に関して、私が popfile.sourceforge.net の
フォーラムの方に投稿したものです。
http://sourceforge.net/forum/forum.php?thread_id=1014646&forum_id=230652
#7662
への返信
RE:日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-06-12 05:48 by
jishiha
#9851)
チケットに引用
無料のアカウント登録が必要ですが、記事がオンラインで読めるようになりました。
http://itpro.nikkeibp.co.jp/members/NBY/techsquare/20040528/1/mokuji.jsp
これまで雑誌に掲載された POPFile 関連の記事で一番気に入っている記事のうちの一つなのでお知らせしておきます。
#7662
への返信