Überanpassung



In mathematischer Modellierung, Überanpassung ist "die Produktion einer Analyse, die zu genau oder genau zu einem bestimmten Datensatz entspricht und daher möglicherweise nicht auf zusätzliche Daten passen oder zuverlässig zuverlässig vorherzusagen".[1] Ein Über ausgetriebenes Modell ist ein mathematisches Modell das enthält mehr Parameter als durch die Daten gerechtfertigt werden kann.[2] Die Essenz der Überanpassung besteht darin, unwissentlich einen Teil der verbleibenden Variation extrahiert zu haben (d. H. Die, die Lärm) als ob diese Variation die zugrunde liegende Modellstruktur darstellte.[3]: 45
Unterbezogen tritt auf, wenn ein mathematisches Modell die zugrunde liegende Struktur der Daten nicht angemessen erfassen kann. Ein Unteranpassendes Modell ist ein Modell, bei dem einige Parameter oder Begriffe in einem korrekt angegebenen Modell fehlen.[2] Unteranpassung würde beispielsweise bei der Anpassung eines linearen Modells an nichtlineare Daten auftreten. Ein solches Modell hat tendenziell eine schlechte Vorhersageleistung.
Die Möglichkeit einer Überanpassung besteht, weil das für das verwendete Kriterium für Auswählen des Modells ist nicht dasselbe wie das Kriterium, das zur Beurteilung der Eignung eines Modells verwendet wird. Zum Beispiel könnte ein Modell ausgewählt werden, indem seine Leistung auf einem Satz von maximiert wird Trainingsdatenund dennoch kann seine Eignung durch seine Fähigkeit bestimmt werden, bei unsichtbaren Daten gut abzubauen. Dann tritt eine Überanpassung auf, wenn ein Modell die Trainingsdaten "merkte", anstatt zu "lernen", um sich aus einem Trend zu verallgemeinern.
Als extremes Beispiel kann ein Modell die Trainingsdaten perfekt vorhersagen, indem die Daten in seiner Gesamtheit auswendig gelernt werden, wenn die Anzahl der Parameter gleich oder größer ist als die Anzahl der Beobachtungen. (Für eine Abbildung siehe Abbildung 2.) Ein solches Modell fällt jedoch typischerweise bei Vorhersagen stark aus.
Das Potenzial für Überanpassung hängt nicht nur von der Anzahl der Parameter und Daten ab, sondern auch von der Konformität der Modellstruktur mit der Datenform und der Größe des Modellfehlers im Vergleich zum erwarteten Rauschen oder Fehler in den Daten. Selbst wenn das angepasste Modell keine übermäßige Anzahl von Parametern hat, ist zu erwarten Schwindung).[2] Insbesondere der Wert der Bestimmtheitsmaß Wille schrumpfen relativ zu den Originaldaten.
Um die Chance oder Menge der Überanpassung zu verringern, sind verschiedene Techniken verfügbar (z. B.,, Modellvergleich, cross-validation, Regulierung, früh aufhalten, Beschneidung, Bayes'sche Priors, oder aussteigen). Die Grundlage einiger Techniken besteht entweder darin, (1) explizit übermäßig komplexe Modelle oder (2) zu bestrafen, um die Fähigkeit des Modells zu testen, durch Bewertung seiner Leistung an einem für das Training nicht verwendeten Daten zu verallgemeinern, was angenommen wird, um die typischen unsichtbaren Daten zu approximieren dass ein Modell begegnen wird.
Statistische Inferenz
In Statistiken ein Inferenz wird aus a gezeichnet Statistisches Modell, welches war ausgewählt über ein Verfahren. Burnham & Anderson argumentieren, dass wir in ihrem viel zitierten Text zur Modellauswahl, um eine Überanpassung zu vermeiden, an die "einhalten sollten"Prinzip der Sparsamkeit".[3] Die Autoren geben auch Folgendes an.[3]: 32–33
Übertragene Modelle… sind häufig frei von Verzerrungen in den Parameterschätzern, haben jedoch geschätzte (und tatsächliche) Stichprobenvarianzen, die unnötig groß sind (die Präzision der Schätzer ist schlecht, im Vergleich zu dem, was mit einem sparsameren Modell hätte erreicht werden können). Falsche Behandlungseffekte werden tendenziell identifiziert, und falsche Variablen sind in überfüllten Modellen enthalten. … Ein besten Annäherungsmodell wird erreicht, indem die Fehler von Unteranpassungen und Überanpassungen ordnungsgemäß ausgeglichen werden.
Überanpassung ist eher ein ernstes Problem, wenn es nur wenig Theorie zur Verfügung steht, um die Analyse zu leiten, teilweise, da es dann eine große Anzahl von Modellen gibt, aus denen sie auswählen können. Das Buch Modellauswahl und Modell gemittelt (2008) setzt es so aus.[4]
Bei einem Datensatz können Sie Tausende von Modellen an die Taste einer Taste einfügen, aber wie wählen Sie das Beste aus? Bei so vielen Kandidatenmodellen ist Überanpassung eine echte Gefahr. Ist der Affe, der Hamlet eingegeben hat, tatsächlich ein guter Schriftsteller?
Regression
Im Regressionsanalyse, Überanpassung tritt häufig auf.[5] Als extremes Beispiel, wenn es gibt p Variablen in a lineare Regression mit p Datenpunkte, die angepasste Linie kann genau jeden Punkt durchlaufen.[6] Zum logistische Regression oder Cox Proportionale GefahrenmodelleEs gibt eine Vielzahl von Faustregeln (z. B. 5–9,[7] 10[8] und 10–15[9] - Die Richtlinie von 10 Beobachtungen pro unabhängiger Variable wird als "bezeichnet" bezeichnet "Eine von zehn Regel"). Im Prozess der Regressionsmodellauswahl kann der mittlere quadratische Fehler der zufälligen Regressionsfunktion in Zufallsrauschen, Approximationsverzerrungen und Varianz in der Schätzung der Regressionsfunktion aufgeteilt werden. Vorspannungs -Varianz -Kompromiss wird oft verwendet, um Überfitmodelle zu überwinden.
Mit einem großen Satz von Erklärungsvariablen das hat eigentlich keinen Zusammenhang mit der abhängige Variable Wenn Sie vorhergesagt werden, werden einige Variablen im Allgemeinen fälschlicherweise festgestellt statistisch signifikant und der Forscher kann sie somit im Modell behalten und damit das Modell übernommen. Dies ist bekannt als als Freedmans Paradox.
Maschinelles Lernen

Normalerweise ein Lernen Algorithmus wird mit einigen "Trainingsdaten" trainiert: beispielhafte Situationen, für die die gewünschte Ausgabe bekannt ist. Das Ziel ist, dass der Algorithmus auch bei der Vorhersage der Ausgabe gut abschneidet, wenn "Validierungsdaten" gefüttert werden, die während ihres Trainings nicht aufgetreten sind.
Überanpassung ist die Verwendung von Modellen oder Verfahren, die verletzt Ockhams RasiermesserZum Beispiel durch Einfügen mehr einstellbarer Parameter als letztendlich optimal oder durch Verwendung eines komplizierteren Ansatzes als letztendlich optimal. Betrachten Sie ein Datensatz, in dem Trainingsdaten für zu viele einstellbare Parameter vorhanden sind y kann durch eine lineare Funktion von zwei unabhängigen Variablen angemessen vorhergesagt werden. Eine solche Funktion erfordert nur drei Parameter (Abschnitt und zwei Hänge). Austausch dieser einfachen Funktion durch eine neue, komplexere quadratische Funktion oder mit einer neuen, komplexeren linearen Funktion bei mehr als zwei unabhängigen Variablen besteht ein Risiko: Occams Rasierer impliziert, dass eine bestimmte komplexe Funktion ist a priori Weniger wahrscheinlich als jede bestimmte einfache Funktion. Wenn die neue, kompliziertere Funktion anstelle der einfachen Funktion ausgewählt wird und nicht ausreichend bei der Trainingsdatengefühle für die Ausgleich der Komplexitätserhöhung vorhanden ist, dann übertroffen die neue komplexe Funktion die Daten und der komplexe Komplex übertragen Die Funktion wird wahrscheinlich schlechter abschneiden als die einfachere Funktion für Validierungsdaten außerhalb des Trainingsdatensatzes, obwohl die komplexe Funktion ebenfalls im Trainingsdatensatz oder vielleicht noch besser ausgeführt wird.[10]
Beim Vergleich verschiedener Arten von Modellen kann die Komplexität nicht ausschließlich gemessen werden, indem zählt, wie viele Parameter in jedem Modell vorhanden sind. Die Expressivität jedes Parameters muss ebenfalls berücksichtigt werden. Zum Beispiel ist es nicht trivial, die Komplexität eines neuronalen Netzes (das kurvilineare Beziehungen verfolgen kann) direkt zu vergleichen m Parameter zu einem Regressionsmodell mit n Parameter.[10]
Überanpassung ist besonders wahrscheinlich in Fällen, in denen das Lernen zu lange durchgeführt wurde oder in denen Trainingsbeispiele selten sind, was dazu führt kausale Beziehung zum Zielfunktion. In diesem Prozess der Überanpassung steigt die Leistung der Schulungsbeispiele immer noch, während die Leistung bei unsichtbaren Daten verschlechtert wird.
Betrachten Sie als einfaches Beispiel eine Datenbank mit Einzelhandelskäufen, die den gekauften Artikel, den Käufer sowie das Datum und die Uhrzeit enthält. Es ist einfach, ein Modell zu konstruieren, das durch die Verwendung des Kaufdatums und der Kaufzeit perfekt zum Trainingssatz passt, um die anderen Attribute vorherzusagen. Dieses Modell wird jedoch überhaupt nicht auf neue Daten verallgemeinert, da diese vergangenen Zeiten nie wieder auftreten werden.
Im Allgemeinen soll ein Lernalgorithmus in Bezug auf ein einfacheres übereinstimmen, wenn er bei der Anpassung bekannter Daten (Rückblick), aber weniger genau bei der Vorhersage neuer Daten (Voraussicht) ist. Man kann die Überanpassung intuitiv verstehen, dass Informationen aus allen früheren Erfahrungen in zwei Gruppen unterteilt werden können: Informationen, die für die Zukunft relevant sind, und irrelevante Informationen ("Rauschen"). Alles andere ist gleich, desto schwieriger ist ein Kriterium vorherzusagen (d. H. Je höher seine Unsicherheit), desto mehr Lärm gibt es in früheren Informationen, die ignoriert werden müssen. Das Problem besteht darin, zu bestimmen, welcher Teil ignoriert werden soll. Ein Lernalgorithmus, der das Risiko eines Geräusches verringern kann, wird genannt "robust. "
Konsequenzen
Die offensichtlichste Folge der Überanpassung ist eine schlechte Leistung im Validierungsdatensatz. Weitere negative Konsequenzen sind:[10]
- Eine überbewertete Funktion kann wahrscheinlich mehr Informationen zu jedem Element im Validierungsdatensatz anfordern als die optimale Funktion. Das Sammeln dieser zusätzlichen nicht benötigten Daten kann teuer oder fehleranfällig sein, insbesondere wenn jede einzelne Information durch menschliche Beobachtung und manuelle Dateneingabe gesammelt werden muss.
- Eine komplexere, übergereichte Funktion ist wahrscheinlich weniger tragbar als eine einfache. Bei einem Extrem ist eine lineare Regression mit einem Variablen so tragbar, dass sie bei Bedarf sogar von Hand erledigt werden kann. Auf dem anderen Extrem sind Modelle, die nur durch genau dupliziertes Duplizieren des gesamten Setups des ursprünglichen Modellierers reproduziert werden können, wodurch die Wiederverwendung oder die wissenschaftliche Reproduktion schwierig wird.
Abhilfe
Die optimale Funktion muss normalerweise über größere oder völlig neue Datensätze verifiziert werden. Es gibt jedoch Methoden wie Minimum Spanning Tree oder Lebenszeit der Korrelation Das wendet die Abhängigkeit zwischen Korrelationskoeffizienten und Zeitreihen (Fensterbreite) an. Immer wenn die Fensterbreite groß genug ist, sind die Korrelationskoeffizienten stabil und hängen nicht mehr von der Fensterbreite ab. Daher kann eine Korrelationsmatrix erzeugt werden, indem ein Korrelationskoeffizient zwischen untersuchten Variablen berechnet wird. Diese Matrix kann topologisch als komplexes Netzwerk dargestellt werden, in dem direkte und indirekte Einflüsse zwischen Variablen visualisiert werden. Durch die Regularisierung der Abbrecher kann auch die Robustheit verbessern und daher die Überanpassung reduzieren, indem Eingaben probabilistisch auf eine Schicht entfernt werden.
Unterbezogen


Unteranpassung ist die Umkehrung der Überanpassung, was bedeutet, dass das statistische Modell oder das maschinelle Lernalgorithmus zu vereinfacht ist, um die Daten genau darzustellen. Ein Zeichen der Unteranpassung ist, dass im aktuellen Modell oder Algorithmus eine hohe Verzerrung und eine geringe Varianz nachgewiesen wird (die Umkehrung der Überanpassung: niedrig: niedrig Voreingenommenheit und hoch Varianz). Dies kann aus dem gesammelt werden Vorspannungsvarianz-Kompromiss Dies ist die Methode zur Analyse eines Modells oder eines Algorithmus für Vorspannungsfehler, Varianzfehler und nicht reduzierbarer Fehler. Mit einer hohen Verzerrung und einer geringen Varianz ist das Ergebnis des Modells, dass es die Datenpunkte ungenau darstellen und somit nicht ausreichend in der Lage sein wird, zukünftige Datenergebnisse vorherzusagen (siehe Verallgemeinerungsfehler). In Abbildung 5 dargestellt Die lineare Linie konnte nicht alle angegebenen Datenpunkte darstellen, da die Linie nicht der Krümmung der Punkte ähnelt. Wir würden erwarten, wie in Abbildung 6 und Abbildung 1 gezeigt eine Parabola -geformte Linie zu sehen ist. Wie bereits erwähnt, wenn wir Abbildung 5 für die Analyse verwenden würden, würden wir falsche Vorhersageergebnisse im Gegensatz zu den Ergebnissen erhalten, wenn wir Abbildung 6 analysieren würden.
Burnham & Anderson geben Folgendes an.[3]: 32
… Ein unterbewertetes Modell würde in den Daten eine wichtige reproduzierbare (d. H. In den meisten anderen Stichproben konzeptionell replizierbaren) Struktur ignorieren und daher keine Effekte identifizieren, die tatsächlich von den Daten unterstützt wurden. In diesem Fall sind Verzerrungen in den Parameterschätzern häufig erheblich, und die Abtastvarianz wird unterschätzt, wobei beide Faktoren zu einer schlechten Konfidenzintervallabdeckung führen. Unterbewertete Modelle neigen dazu, wichtige Behandlungseffekte in experimentellen Umgebungen zu verpassen.
Unteranpassung lösen
Durch die Auflösung der Unteranstellung kann auf verschiedene Weise behandelt werden. Eine mögliche Methode könnte darin bestehen, die Parameter des Modells zu erhöhen oder weitere Trainingsdaten hinzuzufügen. Das Hinzufügen weiterer Trainingsdaten kann erhalten werden, indem sie neue Funktionen aus den aktuellen Funktionen abrufen (bekannt als Feature Engineering). Eine andere mögliche Methode wäre, sich vom aktuellen statistischen Modell oder maschinellem Lernalgorithmus zu einem anderen zu überziehen, das die Daten besser darstellen könnte.
Siehe auch
- Vorspannungs -Varianz -Kompromiss
- Kurvenanpassung
- Datenbagger
- Merkmalsauswahl
- Feature Engineering
- Freedmans Paradox
- Verallgemeinerungsfehler
- Güte der Anpassung
- Lebenszeit der Korrelation
- Modellauswahl
- Ockhams Rasiermesser
- Primärmodell
- VC -Dimension - Eine größere VC -Dimension impliziert ein größeres Risiko einer Überanpassung
Anmerkungen
- ^ Definition von "Überanpassung" bei OxfordDictionaries.com: Diese Definition ist speziell für Statistiken.
- ^ a b c Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.
- ^ a b c d Burnham, K. P.; Anderson, D. R. (2002), Modellauswahl und Multimodellinferenz (2. Aufl.), Springer-Verlag.
- ^ Claeskens, G.; Hjort, N.L. (2008), Modellauswahl und Modell gemittelt, Cambridge University Press.
- ^ Harrell, F. E., Jr. (2001), Regressionsmodellierungsstrategien, Springer.
- ^ Martha K. Smith (2014-06-13). "Überanpassung". Universität von Texas in Austin. Abgerufen 2016-07-31.
- ^ Vittinghoff, E.; McCulloch, C. E. (2007). "Entspannen der Regel von zehn Ereignissen pro Variable in der logistischen und Cox -Regression". American Journal of Epidemiology. 165 (6): 710–718. doi:10.1093/aje/kwk052. PMID 17182981.
- ^ Draper, Norman R.; Smith, Harry (1998). Angewandte Regressionsanalyse (3. Aufl.). Wiley. ISBN 978-0471170822.
- ^ Jim Frost (2015-09-03). "Die Gefahr von Überanpassung von Regressionsmodellen". Abgerufen 2016-07-31.
- ^ a b c Hawkins, Douglas M (2004). "Das Problem der Überanpassung". Journal of Chemical Information and Modeling. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
Verweise
- Leinweber, D. J. (2007). "Dumme Data Miner Tricks". Das Journal of Investing. 16: 15–22. doi:10.3905/joi.2007.681820. S2CID 108627390.
- Tetko, I. V.; Livingstone, D. J.; Luik, A. I. (1995). "Studien für neuronale Netzwerke. 1. Vergleich von Überanpassung und Übertraining" (PDF). Journal of Chemical Information and Modeling. 35 (5): 826–833. doi:10.1021/ci00027a006.
- Tipp 7: Minimieren Sie die Überanpassung. Chicco, D. (Dezember 2017). "Zehn schnelle Tipps für maschinelles Lernen in der Computerbiologie". Biodata -Bergbau. 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.
Weitere Lektüre
- Christian, Brian; Griffiths, Tom (April 2017), "Kapitel 7: Überanpassung", Algorithmen zu leben von: Die Informatik der menschlichen Entscheidungen, William Collins, S. 149–168, ISBN 978-0-00-754799-9
Externe Links
- Überanpassung: Wenn die Genauigkeitsmaßnahme schief geht - Einführungsvideo -Tutorial
- Das Problem der Überanpassung von Daten – Stony Brook University
- Was ist "Überanpassung" genau? – Andrew Gelman Blog
- CSE546: Lineare Regressionsverzerrung / Varianz Kompromiss – Universität von Washington
- Unterbescheidet und übernommen im maschinellen Lernen und wie man damit umgeht !!! - In Richtung Data Science
- Was ist unterbescheid – IBM
- Ml | Unterbescheidet und überpassend - Artikel für Geeks für Geeks - Dewang Nautiyal