スパムメールのフィルタリング・ツールについて色々調べているんですが、これって結構面白いトピックですね。定番ですが、Paul Grahamの『スパムへの対策 --- A Plan for Spam』とか『ベイジアンフィルタの改善 --- Better Bayesian Filtering』なんかは、とても興味深い(共に『ハッカーと画家』にも収録されている)。
英語圏だと単語の切り分けっていうのは、至極簡単な問題ですけれど、日本語圏の場合、これが中々難しくて別の議論(形素解析)になったりしていて、更に面白い。
学生時代にこういうトピックに触れていたら、今はもっと違った方向に進んでいたんだろうなと思ったり。僕の研究テーマって、大雑把に言うとニューラルネットワークの応用だったので、統計的なデータの学習とそれを使った分類って、モロにフィルタリングや形素解析とスコープが重なるんですよね。
0 件のコメント:
コメントを投稿