Probabilistische Spamfilter: Welches Zeitfenster?

Josef 'Jupp' SCHUGT jupp at gmx.de
Fr Feb 17 22:25:17 CET 2006


Hi!

At Thu, 16 Feb 2006 15:36:59 +0100, Rolf Kutz wrote:

>   Train only errors!  This is called TOE training.
>   (TOE :== Train Only Errors) It's not necessary to
>   train near-misses; experiments show that the
>   performance increase on training near misses is
>   miniscule at best, and may be negative at times.

Das ist so weit ich es überblicke für meinen Vorschlag nicht
relevant. Es geht mir nicht darum, den Spamfilter ständig mit einer
neuen Datenbasis zu initialisieren sondern nach dem Motto "Weniger ist
mehr" darum, nicht mehr aktuelle Informationen kontrolliert aus der
Datenbasis zu entfernen.

Gegen eine häufige Initialisierung des Spamfilters spricht schon
allein die Tatsache, dass "qsf" auf meinem (langsamen) Rechner hierfür
mehrere Stunden benötigt. Der Grund hierfür findet sich in der Datei
"train.c" im Kommentar zu "int spam_train(opts_t opts)":

    Train the database by repeatedly classifying the contents of two
    mail folders as spam or non-spam, then updating the database for
    those messages that get incorrectly classified.

Dieses automatische Kaizen wirft auch die Frage auf, ob die Empfehlung
des TOE für qsf zutreffend ist.

Josef 'Jupp' Schugt
-- 
Let the origin be the middle of the earth, p(x,r) be the probability
density for finding person x at distance r. Make sure that a permanent
solution of int_0^R p(x,r) dr < 1 exists for R being the instantanous
value of the distance between earth and mars.




Mehr Informationen über die Mailingliste Linux-Users