Statistische Klassifizierung

Im Statistiken, Einstufung ist das Problem, zu identifizieren, welches einer Satz von von Kategorien (Subpopulationen) a Überwachung (oder Beobachtungen) gehört zu. Beispiele sind eine bestimmte E -Mail an die "Spam" oder "Nicht-Spam" Klasse und Zuordnung einer Diagnose an einen bestimmten Patienten, der auf beobachteten Merkmalen des Patienten basiert (Geschlecht, Blutdruck, Vorhandensein oder Abwesenheit bestimmter Symptome usw.).

Oft werden die individuellen Beobachtungen in einen Satz quantifizierbarer Eigenschaften analysiert, die unterschiedlich als bekannt sind Erklärungsvariablen oder Merkmale. Diese Eigenschaften können unterschiedlich sein Kategorisch (z. B. "a", "b", "ab" oder "o", für Blutgruppe), Ordinal- (z. B. "groß", "mittel" oder "klein"), ganzzahlige Wert (z. B. die Anzahl der Vorkommen eines bestimmten Wortes in einem Email) oder echt bewertet (z. B. eine Messung von Blutdruck). Andere Klassifikatoren arbeiten, indem sie Beobachtungen mit früheren Beobachtungen mittels a vergleichen Ähnlichkeit oder Distanz Funktion.

Ein Algorithmus Das implementiert die Klassifizierung, insbesondere in einer konkreten Implementierung, ist als a bekannt Klassifikator. Der Begriff "Klassifizierer" bezieht sich manchmal auch auf die Mathematik Funktion, implementiert durch einen Klassifizierungsalgorithmus, der Eingabedaten in eine Kategorie abbildert.

Die Terminologie über die Felder hinweg ist sehr unterschiedlich. Im Statistiken, wo die Klassifizierung oft mit durchgeführt wird logistische Regression oder ein ähnliches Verfahren, die Eigenschaften von Beobachtungen werden bezeichnet Erklärungsvariablen (oder unabhängige Variablen, Regressoren usw.), und die zu vorhergesagten Kategorien werden als Ergebnisse bezeichnet, die als mögliche Werte der angesehen werden abhängige Variable. Im maschinelles LernenDie Beobachtungen sind oft als bekannt als InstanzenDie erklärenden Variablen werden bezeichnet Merkmale (gruppiert in a Feature -Vektor), und die möglichen Kategorien sind vorherzusagen Klassen. Andere Felder können unterschiedliche Terminologie verwenden: z. in Gemeinschaft ÖkologieDer Begriff "Klassifizierung" bezieht sich normalerweise auf Clusteranalyse.

Beziehung zu anderen Problemen

Einstufung und Clustering sind Beispiele für das allgemeinere Problem von Mustererkennung, das ist die Zuordnung einer Art Ausgangswert zu einem bestimmten Eingangswert. Andere Beispiele sind Regression, der jedem Eingang eine realbewertete Ausgabe zuweist; Sequenzmarkierung, die jedem Mitglied einer Sequenz von Werten eine Klasse zuweist (zum Beispiel, Teil des Sprachausschusses, was a zuweist a Teil der Rede zu jedem Wort in einem Eingabesatz); Parsing, was a zuweist a Baum analysieren zu einem Eingabersatz, der die beschreibt syntaktische Struktur des Satzes; usw.

Eine gemeinsame Unterklassifizierung ist Probabilistische Klassifizierung. Algorithmen dieser Art Gebrauch statistische Inferenz Um die beste Klasse für eine bestimmte Instanz zu finden. Im Gegensatz zu anderen Algorithmen, die einfach eine "beste" Klasse ausgeben, geben probabilistische Algorithmen a Wahrscheinlichkeit von der Instanz ein Mitglied jedes möglichen Klassen. Die beste Klasse wird normalerweise als die mit höchster Wahrscheinlichkeit ausgewählt. Ein solcher Algorithmus hat jedoch zahlreiche Vorteile gegenüber nicht-probabilistischen Klassifikatoren:

  • Es kann einen mit seiner Wahl verbundenen Konfidenzwert ausgeben (im Allgemeinen ein Klassifizierer, der dies tun kann Konfidenz-gewichteter Klassifikator).
  • Entsprechend kann es verzichten Wenn es zu niedrig ist, eine bestimmte Ausgabe auszuwählen, ist es zu niedrig.
  • Aufgrund der erzeugten Wahrscheinlichkeiten können probabilistische Klassifizierer effektiver in größere Aufgaben für maschinelles Lernen aufgenommen werden, auf eine Weise, die das Problem teilweise oder vollständig vermeidet Fehlerausbreitung.

Häufige Verfahren

Frühe Arbeiten zur statistischen Klassifizierung wurden von durchgeführt Fischer,[1][2] im Kontext von Problemen mit zwei Gruppen, die zu führen zu Fisher's linearer Diskriminanz Funktion als Regel für die Zuweisung einer Gruppe einer neuen Beobachtung.[3] Diese frühe Arbeit nahm an, dass Datenwerte innerhalb jeder der beiden Gruppen a hatten Multivariate Normalverteilung. Die Erweiterung desselben Kontextes auf mehr als zwei Gruppen wurde auch mit einer Einschränkung berücksichtigt, die die Klassifizierungsregel sein sollte linear.[3][4] Spätere Arbeiten für die multivariate Normalverteilung ermöglichten es dem Klassifikator nichtlinear:[5] Mehrere Klassifizierungsregeln können basierend auf verschiedenen Anpassungen der abgeleitet werden Mahalanobis -Entfernungmit einer neuen Beobachtung der Gruppe zugeordnet, deren Zentrum den niedrigsten angepassten Abstand von der Beobachtung hat.

Bayes'sche Verfahren

Im Gegensatz zu häufigen Verfahren bieten Bayes'sche Klassifizierungsverfahren eine natürliche Möglichkeit, verfügbare Informationen über die relativen Größen der verschiedenen Gruppen innerhalb der Gesamtbevölkerung zu berücksichtigen.[6] Bayes'sche Verfahren sind in der Regel rechenintensiv und in den Tagen zuvor Markov -Kette Monte Carlo Es wurden Berechnungen entwickelt, Annäherungen für Bayes'sche Clustering -Regeln wurden entwickelt.[7]

Einige Bayes'sche Verfahren beinhalten die Berechnung von Gruppenmitgliedschaftswahrscheinlichkeiten: Diese bieten ein informativeres Ergebnis als eine einfache Zuordnung eines einzelnen Gruppenmarkens für jede neue Beobachtung.

Binär- und Multiklassklassifizierung

Klassifizierung kann als zwei getrennte Probleme betrachtet werden - Binärklassifizierung und Multiclass -Klassifizierung. In der binären Klassifizierung, einer besser verstandenen Aufgabe, sind nur zwei Klassen beteiligt, während die Klassifizierung in mehreren Klassen ein Objekt einer von mehreren Klassen zugewiesen wird.[8] Da viele Klassifizierungsmethoden speziell für die binäre Klassifizierung entwickelt wurden, erfordert die Klassifizierung von Multiclas häufig die kombinierte Verwendung mehrerer binärer Klassifizierer.

Feature Vektoren

Die meisten Algorithmen beschreiben eine einzelne Instanz, deren Kategorie mit a vorhergesagt werden soll Feature -Vektor von individuellen, messbaren Eigenschaften der Instanz. Jede Eigenschaft wird als a bezeichnet Besonderheit, auch in Statistiken als als bekannt erklärende Variable (oder unabhängige Variable, obwohl Merkmale möglicherweise sein oder auch nicht statistisch unabhängig). Funktionen können unterschiedlich sein binär (z. B. "on" oder "off"); Kategorisch (z. B. "a", "b", "ab" oder "o", für Blutgruppe); Ordinal- (z. B. "groß", "mittel" oder "klein"); ganzzahlige Wert (z. B. die Anzahl der Vorkommen eines bestimmten Wortes in einer E -Mail); oder echt bewertet (z. B. eine Messung des Blutdrucks). Wenn die Instanz ein Bild ist, können die Merkmalswerte den Pixeln eines Bildes entsprechen. Wenn es sich bei der Instanz um einen Textstück handelt, können die Merkmalswerte auftretende Frequenzen verschiedener Wörter sein. Einige Algorithmen funktionieren nur in Bezug auf diskrete Daten und verlangen, dass reale oder ganzzahlige Daten Daten sind diskretisiert in Gruppen (z. B. weniger als 5, zwischen 5 und 10 oder mehr als 10).

Lineare Klassifikatoren

Eine große Anzahl an Algorithmen zur Klassifizierung kann in Bezug auf a formuliert werden lineare Funktion Das weist jeder möglichen Kategorie eine Punktzahl zu k durch Kombinieren Der Merkmalsvektor einer Instanz mit einem Gewichtsvektor unter Verwendung a Skalarprodukt. Die vorhergesagte Kategorie ist die mit der höchsten Punktzahl. Diese Art von Bewertungsfunktion ist als a bekannt Lineare Prädiktorfunktion und hat die folgende allgemeine Form:

wo Xi ist zum Beispiel der Feature -Vektor i, βk ist der Vektor der Gewichte, die der Kategorie entsprechen kund Punktzahl (Xi, k) ist die Punktzahl, die mit der Zuordnung der Instanz verbunden ist i zur Kategorie k. Im Diskrete Wahl Theorie, wo Instanzen Menschen und Kategorien darstellen, wird die Punktzahl als die als die angesehen Dienstprogramm mit Person verbunden i Kategorie wählen k.

Algorithmen mit diesem grundlegenden Setup werden als bezeichnet als lineare Klassifikatoren. Was sie unterscheidet, ist das Verfahren zur Bestimmung (Training) der optimalen Gewichte/Koeffizienten und der Art und Weise, wie die Punktzahl interpretiert wird.

Beispiele für solche Algorithmen sind

Algorithmen

Da für alle Datensätze keine einzige Form der Klassifizierung geeignet ist, wurde ein großes Toolkit der Klassifizierungsalgorithmen entwickelt. Zu den am häufigsten verwendeten gehören:[9]

Auswertung

Die Klassifikatorleistung hängt stark von den Eigenschaften der zu klassifizierten Daten ab. Es gibt keinen einzigen Klassifizierer, der bei allen gegebenen Problemen am besten funktioniert (ein Phänomen, das durch die erklärt werden kann No-Free-Lunch-Theorem). Es wurden verschiedene empirische Tests durchgeführt, um die Klassifikatorleistung zu vergleichen und die Merkmale von Daten zu finden, die die Klassifikatorleistung bestimmen. Die Bestimmung eines geeigneten Klassifikators für ein bestimmtes Problem ist jedoch immer noch eher eine Kunst als eine Wissenschaft.

Die Maßnahmen Präzision und Rückruf sind beliebte Metriken, die zur Bewertung der Qualität eines Klassifizierungssystems verwendet werden. In jüngerer Zeit, Empfängerbetriebsmerkmal (ROC) Kurven wurden verwendet, um den Kompromiss zwischen wahren und falsch positiven Raten von Klassifizierungsalgorithmen zu bewerten.

Als Leistungsmetrik die Unsicherheitskoeffizient hat den Vorteil gegenüber einfach Richtigkeit Da es nicht von den relativen Größen der verschiedenen Klassen beeinflusst wird.[10] Ferner wird es keinen Algorithmus für einfach bestrafen neu anordnen die Klassen.

Anwendungsdomänen

Die Klassifizierung hat viele Anwendungen. In einigen von diesen wird es als verwendet Data Mining Es wird in anderen detaillierteren statistischen Modellierung durchgeführt.

Siehe auch

Verweise

  1. ^ Fisher, R. A. (1936). "Die Verwendung mehrerer Messungen bei taxonomischen Problemen". Annalen der Eugenik. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. HDL:2440/15227.
  2. ^ Fisher, R. A. (1938). "Die statistische Nutzung mehrerer Messungen". Annalen der Eugenik. 8 (4): 376–386. doi:10.1111/j.1469-1809.1938.tb02189.x. HDL:2440/15232.
  3. ^ a b Gnanadekel, R. (1977) Methoden zur statistischen Datenanalyse multivariater Beobachtungen, Wiley. ISBN0-471-30845-5 (S. 83–86)
  4. ^ Rao, C.R. (1952) Erweiterte statistische Methoden in der multivariaten Analyse, Wiley. (Abschnitt 9c)
  5. ^ Anderson, T.W. (1958) Eine Einführung in die multivariate statistische Analyse, Wiley.
  6. ^ Binder, D. A. (1978). "Bayes'sche Clusteranalyse". Biometrika. 65: 31–38. doi:10.1093/biomet/65.1.31.
  7. ^ Binder, David A. (1981). "Annäherungen zu Bayes'schen Clustering -Regeln". Biometrika. 68: 275–285. doi:10.1093/biomet/68.1.275.
  8. ^ Har-Peled, S., Roth, D., Zimak, D. (2003) "Einschränkungsklassifizierung für die Klassifizierung und Ranking von Multiclass". " In: Becker, B.,, Thrun, S.Obermayer, K. (Hrsg.) Fortschritte in den neuronalen Informationsverarbeitungssystemen 15: Verfahren der Konferenz von 2002, MIT Press. ISBN0-262-02550-7
  9. ^ "Eine Tour durch die Top 10 Algorithmen für Neulinge für maschinelles Lernen". Eingebaut. 2018-01-20. Abgerufen 2019-06-10.
  10. ^ Peter Mills (2011). "Effiziente statistische Klassifizierung von Satellitenmessungen". Internationales Journal of Remote Sensing. 32 (21): 6109–6132. Arxiv:1202.2194. Bibcode:2011ijrs ... 32.6109m. doi:10.1080/01431161.2010.507795. S2CID 88518570.