Naive Bayes -Spamfilterung

Naive Bayes -Klassifizierer sind beliebt statistisch Technik von E-Mail-Filterung. Sie verwenden normalerweise Wörterbeutel Merkmale zu identifizieren E -Mail -Spam, ein Ansatz, der üblicherweise verwendet wird Textklassifizierung.

Naive Bayes-Klassifizierer arbeiten, indem sie die Verwendung von Token (typischerweise Wörter oder manchmal auch andere Dinge), mit Spam- und Nicht-Spam-E-Mails und dann verwenden, korrelieren Bayes 'Theorem Berechnung einer Wahrscheinlichkeit, dass eine E -Mail Spam ist oder nicht.

Naive Bayes -Spamfilterung ist eine Basistechnik für den Umgang mit Spam, das sich auf die E -Mail -Anforderungen einzeln Falsch positiv SPAM -Erkennungsraten, die für Benutzer allgemein akzeptabel sind. Es ist eine der ältesten Möglichkeiten, Spam -Filterung mit Wurzeln in den neunziger Jahren zu machen.

Geschichte

Bayesianische Algorithmen wurden bereits 1996 für die E -Mail -Filterung verwendet. Obwohl naive Bayesian -Filter erst später populär wurden, wurden 1998 mehrere Programme veröffentlicht, um das wachsende Problem unerwünschter E -Mails anzugehen.[1] Die erste wissenschaftliche Veröffentlichung zur Bayes'schen Spam -Filterung war von Sahhami et al. In 1998.[2] Diese Arbeit wurde bald danach in kommerziellen Spam -Filtern eingesetzt.

Varianten der Grundtechnik wurden in einer Reihe von Forschungsarbeiten und kommerziellen Arbeiten implementiert Software Produkte.[3] Viele moderne Post Kunden Implementieren Sie die Bayesian -Spam -Filterung. Benutzer können auch separat installieren E -Mail -Filterprogramme. Server-Seite E -Mail -Filter wie DSPAM, Spamassassin,[4] Spambayes,[5] Bogofilter und ASSPVerwenden Sie Bayes'sche Spam -Filtertechniken, und die Funktionalität wird manchmal in innerhalb eingebettet Mail-Server Software selbst. CRM114Oft als Bayes'sche Filter zitiert, soll kein Bayes -Filter in der Produktion verwenden, sondern die "Unigram" -Funktion als Referenz enthält.[6]

Verfahren

Bestimmte Wörter haben besondere Wahrscheinlichkeiten in Spam -E -Mail und in legitimen E -Mails auftreten. Zum Beispiel treffen die meisten E -Mail -Benutzer häufig auf das Wort "Viagra"In Spam -E -Mails wird es aber selten in anderen E -Mails sehen. Der Filter kennt diese Wahrscheinlichkeiten nicht im Voraus und muss zuerst geschult werden, damit er sie aufbauen kann. Um den Filter zu trainieren, muss der Benutzer manuell angeben, ob ein neues E -Mail ist Spam oder nicht. Für alle Wörter in jeder Trainings -E -Mail passt der Filter die Wahrscheinlichkeiten an, dass jedes Wort in Spam oder legitimer E -Mail in seiner Datenbank angezeigt wird. Zum Beispiel haben Bayes'sche Spam -Filter in der Regel eine sehr hohe Spam -Wahrscheinlichkeit für eine sehr hohe Spam -Wahrscheinlichkeit gelernt für Die Wörter "Viagra" und "Refinanzierung", aber eine sehr niedrige Spam -Wahrscheinlichkeit für Wörter, die nur in legitimen E -Mails wie die Namen von Freunden und Familienmitgliedern zu sehen sind.

Nach dem Training die Wortwahrscheinlichkeiten (auch bekannt als bekannt als Wahrscheinlichkeitsfunktionen) werden verwendet, um die Wahrscheinlichkeit zu berechnen, dass eine E -Mail mit einem bestimmten Satz von Wörtern zu einer der beiden Kategorien gehört. Jedes Wort in der E -Mail trägt zur Spam -Wahrscheinlichkeit der E -Mail oder nur zu den interessantesten Wörtern. Dieser Beitrag wird als die genannt hintere Wahrscheinlichkeit und wird mit Verwendung berechnet Bayes 'Theorem. Anschließend wird die Spam -Wahrscheinlichkeit der E -Mail über alle Wörter in der E -Mail berechnet, und wenn die Gesamtzahl einen bestimmten Schwellenwert überschreitet (z. B. 95%), markiert der Filter die E -Mail als Spam.

Wie in jedem anderen Spamfilterung Technik, E -Mail mit Spam kann dann automatisch in einen "Junk" -Emordner verschoben oder sogar sofort gelöscht werden. Einige Software implementieren Quarantäne Mechanismen, die einen Zeitrahmen definieren, in dem der Benutzer die Entscheidung der Software überprüfen darf.

Das erste Training kann normalerweise verfeinert werden, wenn falsche Urteile aus der Software identifiziert werden (falsch positive oder falsch negative). Dadurch kann sich die Software dynamisch an die sich ständig weiterentwickelnde Natur von Spam anpassen.

Einige Spamfilter kombinieren die Ergebnisse sowohl der Bayes'schen Spamfilterung als auch anderer Heuristik (Vordefinierte Regeln über den Inhalt, die Betrachtung des Umschlags der Nachricht usw.), was zu einer noch höheren Filtergenauigkeit führt, manchmal auf Kosten der Anpassungsfähigkeit.

Mathematische Grundlage

Bayesian E -Mail -Filter nutzen Bayes 'Theorem. Bayes 'Theorem wird im Zusammenhang mit Spam mehrmals verwendet:

  • Ein erstes Mal, die Wahrscheinlichkeit zu berechnen, dass die Nachricht Spam ist, da ein bestimmtes Wort in dieser Nachricht angezeigt wird;
  • ein zweites Mal, um die Wahrscheinlichkeit zu berechnen, dass die Nachricht Spam ist, unter Berücksichtigung aller Wörter (oder einer relevanten Teilmenge davon);
  • Manchmal ein drittes Mal, um mit seltenen Worten umzugehen.

Berechnung der Wahrscheinlichkeit, dass eine Nachricht mit einem bestimmten Wort Spam ist

Nehmen wir an, die vermutete Nachricht enthält das Wort "Replik"Die meisten Menschen, die es gewohnt sind, E-Mails zu erhalten, wissen, dass diese Nachricht wahrscheinlich Spam ist, genauer gesagt ein Vorschlag, gefälschte Kopien bekannter Uhrenmarken zu verkaufen. Die Spam-Erkennungssoftware weiß jedoch nicht" bekannt ". Solche Tatsachen; alles, was es tun kann, ist die Berechnung der Wahrscheinlichkeiten.

Die von der Software verwendete Formel, um dies zu bestimmen, wird abgeleitet Bayes 'Theorem

wo:

  • ist die Wahrscheinlichkeit, dass eine Nachricht ein Spam ist, der weiß, dass das Wort "Replik" darin ist;
  • ist die Gesamtwahrscheinlichkeit, dass eine bestimmte Nachricht Spam ist;
  • ist die Wahrscheinlichkeit, dass das Wort "Replik" in Spam -Nachrichten angezeigt wird;
  • ist die Gesamtwahrscheinlichkeit, dass eine bestimmte Nachricht kein Spam ist (ist "Schinken");
  • ist die Wahrscheinlichkeit, dass das Wort "Replik" in Schinkennachrichten angezeigt wird.

(Für eine vollständige Demonstration siehe Bayes 'Theorem#erweiterte Form.))

Die Spamalität eines Wortes

Statistiken[7] Zeigen Sie, dass die aktuelle Wahrscheinlichkeit, dass jede Nachricht Spam ist, zumindest 80%beträgt:

Die meisten Bayes'schen Spam -Erkennungssoftware gehen jedoch davon aus, dass es keine gibt a priori Vernunft, dass eine eingehende Nachricht eher Spam als Schinken ist, und beide Fälle als gleiche Wahrscheinlichkeit von 50%betrachten:

Die Filter, die diese Hypothese verwenden, sollen "nicht voreingenommen" sind, was bedeutet, dass sie keine Vorurteile gegenüber der eingehenden E -Mail haben. Diese Annahme ermöglicht es, die allgemeine Formel zu vereinfachen zu:

Dies entspricht funktionell gleichbedeutend mit der Frage: "Wie viel Prozent der Vorkommen des Wortes" Replik "erscheinen in Spam -Nachrichten?"

Diese Menge wird als "Spamizität" (oder "Spaminess") des Wortes "Replik" bezeichnet und kann berechnet werden. Die Nummer In dieser Formel wird an die Häufigkeit von Nachrichten angenähert, die "Replik" in den als Spam identifizierten Nachrichten während der Lernphase enthalten. Ähnlich, wird an die Häufigkeit von Nachrichten angenähert, die "Replik" in den als Schinken während der Lernphase identifizierten Nachrichten enthalten. Damit diese Annäherungen sinnvoll sind, muss der Satz erlernter Nachrichten groß und repräsentativ genug sein. Es ist auch ratsam, dass die erlernte Reihe von Nachrichten der 50% igen Hypothese über die Abteilung zwischen Spam und Schinken entspricht, d. H. Dass die Datensätze von Spam und Schinken von gleicher Größe haben.[8]

Natürlich ist die Feststellung, ob eine Nachricht Spam oder Ham ist, die nur auf dem Vorhandensein des Wortes "Replik" basiert, fehleranfällig Spam.

Kombination von individuellen Wahrscheinlichkeiten

Die meisten Bayes'schen Spam -Filteralgorithmen basieren auf Formeln, die streng gültig sind (aus probabilistischer Sicht) nur, wenn die in der Nachricht vorhandenen Wörter vorhanden sind Unabhängige Ereignisse. Diese Bedingung ist im Allgemeinen nicht erfüllt (zum Beispiel in natürlichen Sprachen wie Englisch wird die Wahrscheinlichkeit, ein Adjektiv zu finden bekannt. Auf dieser Basis kann man die folgende Formel aus dem Bayes 'Theorem abgeben:

wo:

  • ist die Wahrscheinlichkeit, dass die verdächtige Nachricht Spam ist;
  • ist die Wahrscheinlichkeit dass das erste Wort (zum Beispiel "Replikat") erscheint, da die Nachricht Spam ist;
  • ist die Wahrscheinlichkeit dass das zweite Wort (z. B. "Uhren") erscheint, da die Nachricht Spam ist;
  • etc...

Die auf dieser Formel basierende Spam -Filtersoftware wird manchmal als als bezeichnet Naiver Bayes -Klassifikator, wie sich "naiv" auf die Starken bezieht Unabhängigkeit Annahmen zwischen den Merkmalen. Das Ergebnis p wird normalerweise im Vergleich zu einem bestimmten Schwellenwert, um zu entscheiden, ob die Nachricht Spam ist oder nicht. Wenn p ist niedriger als der Schwellenwert, die Nachricht wird als wahrscheinlich als Schinken angesehen, ansonsten wird sie als wahrscheinlich als spam angesehen.

Andere Ausdruck der Formel zur Kombination einzelner Wahrscheinlichkeiten

Normalerweise p wird nicht direkt unter Verwendung der obigen Formel berechnet, die durch Schwimmpunkt-Unterströmung. Stattdessen, p kann in der Protokolldomäne berechnet werden, indem die ursprüngliche Gleichung wie folgt neu geschrieben wird:

Auf beiden Seiten Protokolle nehmen:

Lassen . Deswegen,

Daher die alternative Formel für die Berechnung der kombinierten Wahrscheinlichkeit:

Umgang mit seltenen Wörtern

In dem Fall, dass ein Wort während der Lernphase noch nie erfüllt wurde, sind sowohl der Zähler als auch der Nenner gleich Null, sowohl in der allgemeinen Formel als auch in der Spamizitätsformel. Die Software kann sich entscheiden, solche Wörter zu verwerfen, für die keine Informationen verfügbar sind.

Im Allgemeinen verursachen die Wörter, die während der Lernphase nur wenige Male aufgetreten sind, ein Problem, da es ein Fehler wäre, blind den von ihnen bereitgestellten Informationen zu vertrauen. Eine einfache Lösung besteht darin, einfach auch so unzuverlässige Wörter zu vermeiden.

Wenn Sie sich erneut anwenden, ist Bayes 'Theorem und die Klassifizierung zwischen Spam und Schinken der E -Mails mit einem bestimmten Wort ("Replik") ist ein zufällige Variable mit Beta -VerteilungEinige Programme entscheiden sich für die Verwendung einer korrigierten Wahrscheinlichkeit:

wo:

  • ist die korrigierte Wahrscheinlichkeit, dass die Nachricht Spam ist, und weiß, dass sie ein bestimmtes Wort enthält;
  • ist der Stärke Wir geben Hintergrundinformationen über eingehende Spam;
  • Ist die Wahrscheinlichkeit, dass jede eingehende Nachricht Spam ist;
  • ist die Anzahl der Vorkommen dieses Wortes während der Lernphase;
  • ist die Spamizität dieses Wortes.

(Demonstration:[9]))

Diese korrigierte Wahrscheinlichkeit wird anstelle der Spamizität in der Kombinationsformel verwendet.

Kann wieder 0,5 gleich genommen werden, um zu vermeiden, dass eingehende E -Mails zu misstrauisch sind. 3 ist ein gutes Preis -Leistungs -Verhältnis für s, was bedeutet, dass der gelernte Korpus mehr als 3 Nachrichten mit diesem Wort enthalten muss, um mehr Vertrauen in den Spamizitätswert als in den Standardwert zu setzen.

Diese Formel kann auf den Fall erweitert werden, wo n ist gleich Null (und wo die Spamizität nicht definiert ist) und in diesem Fall bewertet .

Andere Heuristiken

"Neutrale" Wörter wie "The", "a", "einige" oder "IS" (auf Englisch) oder deren Äquivalente in anderen Sprachen können ignoriert werden. Im Allgemeinen ignorieren einige bayes'sche Filterfilter einfach alle Wörter, die eine Spamizität neben 0,5 haben, da sie wenig zu einer guten Entscheidung beitragen. Die berücksichtigten Wörter sind diejenigen, deren Spamizität neben 0,0 (charakteristische Zeichen legitimer Nachrichten) oder neben 1,0 (charakteristische Zeichen von Spam) liegt. Eine Methode kann zum Beispiel sein, um nur diese zehn Wörter in der untersuchten Nachricht zu behalten, die die größten haben absoluter Wert| 0,5 -Pi|.

Einige Softwareprodukte berücksichtigen die Tatsache, dass ein bestimmtes Wort mehrmals in der untersuchten Nachricht angezeigt wird.[10] andere nicht.

Einige Softwareprodukte verwenden Muster (Sequenzen von Wörtern) anstelle von isolierten natürlichen Sprachen Wörtern.[11] Zum Beispiel berechnen sie mit einem "Kontextfenster" von vier Wörtern die Spamizität von "Viagra ist gut für", anstatt die Spamices von "Viagra", "," gut "und" für "zu berechnen. Diese Methode verleiht dem Kontext mehr Empfindlichkeit und eliminiert das Bayes'sche Rauschen auf Kosten einer größeren Datenbank besser.

Gemischte Methoden

Es gibt andere Möglichkeiten, individuelle Wahrscheinlichkeiten für verschiedene Wörter zu kombinieren, als den "naiven" Ansatz zu verwenden. Diese Methoden unterscheiden sich von den Annahmen, die sie für die statistischen Eigenschaften der Eingabedaten treffen. Diese unterschiedlichen Hypothesen führen zu radikal unterschiedlichen Formeln zur Kombination der individuellen Wahrscheinlichkeiten.

Beispielsweise folgen die einzelnen Wahrscheinlichkeiten a Chi-Quadrat-Verteilung mit 2N Freiheitsgrade, man könnte die Formel verwenden:

wo C–1 ist der Umkehrung der Chi-Quadrat-Funktion.

Einzelne Wahrscheinlichkeiten können mit den Techniken der Techniken kombiniert werden Markovianische Diskriminierung zu.

Diskussion

Vorteile

Einer der Hauptvorteile der Bayesian-Spam-Filterung besteht darin, dass es pro Benutzerbasis ausgebildet werden kann.

Der Spam, den ein Benutzer erhält, hängt häufig mit den Aktivitäten des Online -Benutzers zusammen. Zum Beispiel wurde ein Benutzer möglicherweise einem Online -Newsletter abonniert, den der Benutzer als Spam angesehen wird. Dieser Online -Newsletter enthält wahrscheinlich Wörter, die allen Newslettern gemeinsam sind, z. B. den Namen des Newsletters und der ursprünglichen E -Mail -Adresse. Ein Bayesian -Spam -Filter weist schließlich eine höhere Wahrscheinlichkeit zu, die auf den spezifischen Mustern des Benutzers basiert.

Die legitimen E-Mails, die ein Benutzer erhält, wird tendenziell unterschiedlich sein. In einem Unternehmensumfeld werden beispielsweise häufig der Firmenname und die Namen von Kunden oder Kunden erwähnt. Der Filter weist E -Mails mit diesen Namen eine niedrigere Spam -Wahrscheinlichkeit zu.

Die Wortwahrscheinlichkeiten sind für jeden Benutzer eindeutig und können sich im Laufe der Zeit mit Korrekturtraining weiterentwickeln, wenn der Filter eine E -Mail fälschlicherweise klassifiziert. Infolgedessen ist die Bayes'sche Spam-Filtergenauigkeit nach dem Training den vordefinierten Regeln oft überlegen.

Es kann besonders gut abschneiden, wenn es falsch positiv ist, wenn legitime E -Mails falsch als Spam eingestuft werden. Zum Beispiel, wenn die E -Mail das Wort "Nigeria" enthält, das häufig in verwendet wird Vorab -Gebührenbetrug Spam, ein vordefinierter Regelnfilter, kann ihn sofort ablehnen. Ein Bayesian-Filter markierte das Wort "Nigeria" als wahrscheinliches Spam-Wort, berücksichtigt jedoch andere wichtige Wörter, die normalerweise legitime E-Mails anzeigen. Zum Beispiel kann der Name eines Ehepartners stark angeben, dass die E-Mail kein Spam ist, was die Verwendung des Wortes "Nigeria" überwinden könnte.

Nachteile

Abhängig von der Umsetzung kann die Bayes'sche Spam -Filterung anfällig sein für Bayes'sche Vergiftung, Eine von Spammer verwendete Technik, um die Wirksamkeit von Spam -Filtern zu verschlechtern, die auf Bayes'sche Filterung beruhen. Ein Spammer, der die Bayes'sche Vergiftung praktiziert, sendet E -Mails mit großen Mengen an legitimen Text (gesammelt aus legitimen Nachrichten oder literarischen Quellen). Spammer Zu den Taktiken gehört das Einsetzen zufälliger harmloser Wörter, die normalerweise nicht mit Spam verbunden sind, wodurch die Spam -Punktzahl der E -Mail verringert wird, wodurch sie eher an einem Bayes'schen Spam -Filter vorbeischlüpft. Mit (zum Beispiel) Paul Grahams Schema werden jedoch nur die bedeutendsten Wahrscheinlichkeiten verwendet, so dass das Polsterung des Textes mit nicht spambezogenen Wörtern die Erkennungswahrscheinlichkeit nicht wesentlich beeinflusst.

Wörter, die normalerweise in großen Mengen in Spam erscheinen, können auch von Spammer transformiert werden. Zum Beispiel würde «Viagra» in der Spam -Nachricht durch «Viaagra» oder «v! Agra» ersetzt. Der Empfänger der Nachricht kann immer noch die geänderten Wörter lesen, aber jedes dieser Wörter wird durch den Bayes'schen Filter seltener erfüllt, was seinen Lernprozess behindert. In der Regel funktioniert diese Spam -Technik nicht sehr gut, da die abgeleiteten Wörter vom Filter genauso wie die normalen erkannt werden.[12]

Eine andere Technik, mit der versucht wurde, Bayes'sche Spam -Filter zu besiegen, besteht darin, Text durch direkt enthaltene oder verknüpfte Bilder zu ersetzen. Der gesamte Text der Nachricht oder ein Teil davon wird durch ein Bild ersetzt, in dem derselbe Text "gezeichnet" ist. Der Spam -Filter kann dieses Bild normalerweise nicht analysieren, das die empfindlichen Wörter wie «viagra» enthält. Da jedoch viele Mail -Clients die Anzeige von verknüpften Bildern aus Sicherheitsgründen deaktivieren, können die Spammer -Sendungslinks an entfernte Bilder weniger Ziele erreichen. Außerdem ist die Größe eines Bildes in Bytes größer als die Größe des äquivalenten Textes, sodass der Spammer mehr Bandbreite benötigt, um Nachrichten direkt einschließlich der Bilder zu senden. Einige Filter neigen eher dazu, zu entscheiden, dass eine Nachricht Spam ist, wenn sie größtenteils grafische Inhalte aufweist. Eine Lösung von Google in seinem Google Mail E -Mail -System soll eine ausführen OCR (optische Charaktererkennung) Bei jedem Bild mitten bis große Größe analysieren Sie den Text im Inneren.[13][14]

Allgemeine Anwendungen der Bayes'schen Filterung

Während die Bayesian -Filterung häufig zur Identifizierung von Spam -E -Mail verwendet wird, kann die Technik fast jede Art von Daten klassifizieren (oder "Cluster") klassifizieren (oder "Cluster"). Es hat Verwendungszwecke in Wissenschaft, Medizin und Ingenieurwesen. Ein Beispiel ist ein Allzweck -Klassifizierungsprogramm namens namens Autoklas Dies wurde ursprünglich verwendet, um Sterne nach spektralen Eigenschaften zu klassifizieren, die ansonsten zu subtil waren, um sie zu bemerken.

[15]

Siehe auch

Verweise

  1. ^ Brunton, Finn (2013). Spam: Eine Schattengeschichte des Internets. MIT Press. p. 136. ISBN 9780262018876. Archiviert from the original on 2019-03-23. Abgerufen 2017-09-13.
  2. ^ M. Sahhami; S. dumais; D. Heckerman; E. Horvitz (1998). "Ein Bayes'sche Ansatz zur Filterung von Junk-E-Mails" (PDF). AAAI'98 Workshop zum Lernen für Textkategorisierung. Archiviert (PDF) vom Original am 2007-09-27. Abgerufen 2007-08-15.
  3. ^ "Junk -Mail -Steuerelemente". Mozillazin. November 2009. Archiviert vom Original am 2012-10-23. Abgerufen 2010-01-16.
  4. ^ "Installation". Ubuntu -Handbücher. 2010-09-18. Archiviert von das Original am 29. September 2010. Abgerufen 2010-09-18. Gary Robinsons F (X) und Kombination von Algorithmen, wie in Spamassassin verwendet
  5. ^ "Hintergrund lesen". Spambayes -Projekt. 2010-09-18. Archiviert Aus dem Original am 6. September 2010. Abgerufen 2010-09-18. Schärfen Sie Ihre Stifte, dies ist der mathematische Hintergrund (wie es ist).* Das Papier, das den Ball rollte: Paul Graham ist ein Plan für Spam. Linux Journal -Artikel, der unter Verwendung der Chi Squared Distribution diskutiert wird.
  6. ^ "Archivierte Kopie". Archiviert vom Original am 2016-10-07. Abgerufen 2016-07-09.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link)
  7. ^ Dylan Mors & Dermot Harnett (2009). "Bundesstaat Spam, ein monatlicher Bericht - Bericht Nr. 33" (PDF). Archiviert (PDF) vom Original am 2009-10-07. Abgerufen 2009-12-30.
  8. ^ Prozesssoftware, Einführung in die Bayes'sche Filterung Archiviert 2012-02-06 bei der Wayback -Maschine
  9. ^ Gary Robinson (2003). "Ein statistischer Ansatz zum Spam -Problem". Linux Journal. Archiviert vom Original am 2010-10-22. Abgerufen 2007-07-19.
  10. ^ Brian Burton (2003). "SpamProbe - Bayesian Spam Filtering -Tweaks". Archiviert vom Original am 2012-03-01. Abgerufen 2009-01-19.
  11. ^ Jonathan A. Zdziarski (2004). "Bayesian Rauschenreduktion: Kontext -Symmetrie -Logik unter Verwendung der Musterkonsistenzanalyse".[Permanent Dead Link]
  12. ^ Paul Graham (2002), Ein Plan für Spam Archiviert 2004-04-04 im Wayback -Maschine
  13. ^ "Google Mail verwendet die innovative Technologie von Google, um Spam aus Ihrem Posteingang herauszuhalten.". Archiviert vom Original am 2015-09-13. Abgerufen 2015-09-05.
  14. ^ Zhu, Z.; Jia, Z; Xiao, H; Zhang, G; Liang, H.; Wang, P. (2014). Li, s; Jin, Q; Jiang, x; Park, J (Hrsg.). "Ein modifiziertes Mindestrisiko Bayes und die Anwendung in Spam". Vorlesungsnotizen in der Elektrotechnik. Dordrecht: Springer. 269: 2155–2159. doi:10.1007/978-94-007-7618-0_261.
  15. ^ Androutsopoulos, Ion; Paliouras, Georgios; Karkaletsis, Vangelis; Sakkis, Georgios; Spyropoulos, Konstantin D.; Stamatopoulos, Panagiotis (2000). Gallinari, P; Rajman, M; Zaragoza, H (Hrsg.). "Lernen, Spam-E-Mails zu filtern: Ein Vergleich eines naiven Bayes'schen und eines erinnerungsbasierten Ansatzes". 4. Europäische Konferenz über Prinzipien und Praxis der Erkennung von Wissen in Datenbanken (PKDD-2000). Lyon, Frankreich: Laborinstitut für Software- und Knowledge Engineering für Informatik und Telekommunikation Nationales Zentrum für wissenschaftliche Forschung „Demokritos“: 1–13. Arxiv:CS/0009009. Bibcode:2000cs ........ 9009a.
  16. ^ Hristea, Florentina T. (2013). Das naive Bayes -Modell für unbeaufsichtigtes Wortverdünnen von Wort Sinn. London; Berlin: Springerverlag Heidelberg Berlin. p. 70. ISBN 978-3-642-33692-8.
  17. ^ Zheng, J.; Tang, Yongchuan (2005). Mira, Jose; Álvarez, Jose R (Hrsg.). "Eine Verallgemeinerung der naiven Bayes auf verschwommene Sets und das Design des Fuzzy Naive Bayes -Klassifikators". Vorlesungsnotizen in Informatik. Berlin: Springer, Berlin, Heidelberg. 3562: 281. doi:10.1007/11499305_29. ISBN 978-3-540-26319-7. ISSN 0302-9743.