Probabilistische Spamfilter: Welches Zeitfenster?

Rolf Kutz kutz at netcologne.de
Do Feb 16 15:36:59 CET 2006


* Quoting Josef 'Jupp' SCHUGT (jupp at gmx.de):

> Nachdem ich einen probabilistischen Spamfilter auf meinem Rechner
> installiert habe, wirft sich nun die Frage nach einem vernünftigen
> Zeitfenster auf.
> 
> Das zentrale Problem ist ja, dass eine vernünftige Einordnung der
> Mails in Spam und Ham eine das aktuelle Mailaufkommen repräsentierende
> Datenbasis benötigt. Das setzt voraus, dass die Datenbasis auch selten
> auftretende Typen von Nachrichten enthält, das Zeitfenster mithin eine
> gewisse Mindestgröße hat. Andererseits ändern Spammer permanent das
> Aussehen ihrer Nachrichten. Daher ist es nicht sinnvoll, alten Spam
> für den Unterricht des Spamfilters einzusetzen, da er für aktuellen
> Spam nicht mehr repräsentativ ist; das Zeitfenster hat also auch eine
> Maximalgröße. So weit so gut, aber:
> 
> Wie groß *sollte* das Zeitfenster sein?

Wie waers mit einer variablen Groesse. Ich mache
das so wie in der CRM114 Dokumentation
beschrieben. Sobald (eine) fcahsl positive oder
afhcls negative Mail auftaucht gebe ich sie dem
System zum lernen. Nach einiger Zeit des Training
gibt es nur noch alle paar Wochen eine falsche
Einordnung.

http://crm114.sourceforge.net/CRM114_Mailfilter_HOWTO.txt

  Train only errors!  This is called TOE training.
  (TOE :== Train Only Errors) It's not necessary to
  train near-misses; experiments show that the
  performance increase on training near misses is
  miniscule at best, and may be negative at times.

- Rolf



Mehr Informationen über die Mailingliste Linux-Users