Probabilistische Spamfilter: Welches Zeitfenster?

Dr. Uwe Döbereiner udoebus at kud.com
Die Feb 14 01:22:07 CET 2006


Josef 'Jupp' SCHUGT wrote:
> 
> Hi!
> 
> Nachdem ich einen probabilistischen Spamfilter auf meinem Rechner
> installiert habe, wirft sich nun die Frage nach einem vernünftigen
> Zeitfenster auf.
> 
> Das zentrale Problem ist ja, dass eine vernünftige Einordnung der
> Mails in Spam und Ham eine das aktuelle Mailaufkommen repräsentierende
> Datenbasis benötigt. Das setzt voraus, dass die Datenbasis auch selten
> auftretende Typen von Nachrichten enthält, das Zeitfenster mithin eine
> gewisse Mindestgröße hat. Andererseits ändern Spammer permanent das
> Aussehen ihrer Nachrichten. Daher ist es nicht sinnvoll, alten Spam
> für den Unterricht des Spamfilters einzusetzen, da er für aktuellen
> Spam nicht mehr repräsentativ ist; das Zeitfenster hat also auch eine
> Maximalgröße. So weit so gut, aber:
> 
> Wie groß *sollte* das Zeitfenster sein?
> 
>
Hallo Jupp,

mit Spamfiltern habe ich mich bisher nicht beschäftigt, obgleich ich mit
großer Regelmäßigkeit sehr ähnlich konstruierte "Angebote" erhalte.
Diese verwenden sogar oft den gleichen Absender,  manchesmal den
gleichen Betreff, versuchen den Inhalt durch Verdoppelung von
Buchstaben, eingestreute Zwischenräume usw. zu verfremden, um die
Textsuche nach gängigen Handelsbezeichnungen zu erschweren.  Oft auch
viele, sehr kurze Zeilen, Buchstaben mit $ und Zahlen gehäuft am
Zeilenende. Um den Aufwand der Bearbeitung zu begrenzen ist ein
Zeitfenster sicherlich nützlich.

Irgendwann habe ich einmal etwas über "Kalmanfilter" gelesen, bin als
Chemiker in den Details allerdings nicht sehr zuverlässig. Das Prinzip
war, bei Trendanalysen weiter zurückliegende Beobachtungsdaten geringer
zu wichten, sodaß deren Einfluß aus der Vergangenheit auf die aktuellste
Beobachtung der Zeitreihe  immer geringer wird.

Müßte sich soetwas nicht auch im System des Spamfilters realisieren
lassen? Getestet würde demnach zunächst nach den "Aktuellen", die beim
ersten Auftauchen entsprechend "von Hand" markiert werden müßten, dann
aber "lebendig bleiben", solange sie häufig wiederholt werden.
Vielleicht wandern manche nicht Wiederholte dann langsam in eine weitere
Liste von "Historischen", aus deren Regeln hervorgehen könnte, daß auch
nach längerer Pause immer wieder das gleiche Prinzip angewandt wird,
sodaß sie eben auch über längere Zeit "als aktuell" getestet werden
sollten.

Ließe sich damit auch nicht eine Systematik ausdenken, die zunächst mit
einem priorisierten Teil von Regeln "vorfiltert", damit nach dem
Herunterladen der mails nicht so lange auf den Abschluß der ersten
Bearbeitung gewartet werden muß. Wenn der eine oder andere Spam-Kandidat
bei der Eile durchrutscht ist das je kein Beinbruch. Steht längere
Durchsuchungszeit vor dem Lesen zur Verfügung, kann ja die volle Liste
der
in der Historie aufgetretenen Spam-Modifikationen abgearbeitet werden.

Ob Dir in Ruby oder in sonst einer Programmierumgebung ein
"Selbstlernendes System" einfällt? Neben den konstant gleichen Absendern
sind es ja dann oft die Namen mit sonderbaren Betreffs, die erstmalig
auftauchen. Du kannst getrost alles wegwerfen, worin "farbig kodiertes
Rolex" oder "MS-Software in Listen" auftaucht.

Die Zahl des Spam der mich erreicht ist nicht allzugroß. Lästig bleibt
er allemal.


Gruß

Uwe

-- 
Dr. Uwe Doebereiner
(+492207) 6945