Probabilistische Spamfilter: Welches Zeitfenster?

Josef 'Jupp' SCHUGT jupp at gmx.de
Mi Feb 15 14:29:27 CET 2006


Hi!

At Mon, 13 Feb 2006 23:38:32 +0100, Markus Gross wrote:
> an sich ist doch die Frage ob man überhaupt von einem Zeitfenster
> ausgehen sollte? Ist nicht viel eher die Anzahl der
> "Trainings-Mails" entscheidend?

Lass mich ein wenig ausholen: Ein statistischer Spamfilter zerlegt die
für das Training verwendeten E-Mails in Token und bestimmt deren
relative Häufigkeiten in den erwünschten und unerwünschten Mails.

Die relativen Häufigkeiten werden als Schätzwerte für die statistische
Wahrscheinlichkeit verwendet, in erwünschten und unerwünschten Mails
die entsprechenden Token zu finden.

Neu ankommende Mails werden dann ebenfalls in Token zerlegt und es
wird anhand der oben bestimmten Wahrscheinlichkeiten bestimmt, wie
wahrscheinlich es sich bei der betreffenden Mail um eine erwünschte
oder unerwünschte handelt.

Entscheidend ist also primär, dass die zum Training benutzen E-Mails
das aktuelle Mailaufkommen möglichst genau repräsentieren. Hieraus
ergeben sich zwei Forderungen. Einerseits sollten alle Mails
berücksichtigt werden, auch solche, die nur wöchentlich, monatlich
oder gar vierteljährlich zu erwarten sind. Andererseits sollte man
keinen Spam mehr berücksichtigen, dessen Eigenschaften für aktuellen
Spam nicht mehr typisch sind. Bei dem heute üblichen Evolutionsdruck
auf den Spam wandelt er seine Eigenschaften so schnell, dass beide
Forderungen nicht mehr miteinander vereinbar sind; man muss daher
einen Kompromiss schließen.

Da sowohl das Auftreten seltener aber typischer Mails als auch die
Generationsfolge beim Spam eine Frage der Zeit und nicht der Menge
sind, ist die Anzahl der zu analysierenden Mails kein geeignetes Maß.

Josef 'Jupp' Schugt
-- 
Let the origin be the middle of the earth, p(x,r) be the probability
density for finding person x at distance r. Make sure that a permanent
solution of int_0^R p(x,r) dr < 1 exists for R being the instantanous
value of the distance between earth and mars.




Mehr Informationen über die Mailingliste Linux-Users