Strange Days

ベイジアンフィルタの威力を味わう

2004年02月02日(月曜日) 21時00分 インターネット 天気:雨っぽい

 アメリカのスパム規制法の影響か、去年後半辺りから英語圏からのスパムが激増している。iij4uが標準装備しているメールフィルタを使って、スパム到着率を半減させてはいるのだが、半減では全然間に合わない感じになってきた。単純なキーワード方式では、もうやってられない。ということで、先週終わりに、流行のベイジアンフィルタを導入した。
 最初は、POPプロキシになるタイプを入れようと思っていたのだが、良く考えるとMozillaには標準で搭載されているではないか。他のフィルタとの比較記事を読んでも、かなり高い評価を受けているようだ。今の環境を換えなくて済むというのは大きい。
 早速、
もじら組
を参照して、フィルタをonにした。というか、元からONなのだが、スパムにJunkマークを付けて、フィルタロジックを鍛えるというのを全くやってなかったので、そこからはじめる事になる。
 過去、Deleteしてきたスパムメール全てにJunkマークを付け、スパムを待ったが(これはすぐ来るので、実験は簡単だ)、Junkに分類される気配が無い。良く考えると、過去受け取った膨大なメールの全てを、非Junkとして扱ってきたわけで、フィルタロジックもそうなっているわけだ。これはリセットしないと。profileが入っているディレクトリにtraining.datというファイルがあるので、これを消去した。さらに残している全てのスパムメールにJunkマークを付ける動作を繰り返し、さらに非Junkなメールもフィルタでチェックさせてみた。この上でスパムメールを待つと......。をを、ちゃんとJunkとして振り分けられた。
 初期段階では取りこぼしが多かったが、Junkマーキングをマメにやっていると、みるみるうちに振り分け効率が上がってゆくではないか。既にほとんど取りこぼしは無い感じだし、逆の過剰取り込みはまだ1件も無い。
 スパマーが良く使うベイジアン回避の方法(無関係な文字列を大量に挿入するなど)も、実はあまり貢献してないようだ。非英語圏ゆえに、英文メッセージは全てスパムとみなして間違いないというのも大きいかも。
 こんな簡単なら、早く鍛えておけばよかったよ。


Add Comments


____