Kreuzvalidierung (Statistik)


Kreuzvalidierung,[2][3][4] manchmal genannt Rotationsschätzung[5][6][7] oder Tests außerhalb der Stichprobeist eine von verschiedenen ähnlichen ähnlich Modell Bestätigung Techniken zur Bewertung der Ergebnisse von a statistisch Analyse wird verallgemeinern zu einem unabhängigen Datensatz. Kreuzvalidierung ist a Resampling Methode, die verschiedene Teile der Daten verwendet, um ein Modell auf verschiedenen Iterationen zu testen und zu trainieren. Es wird hauptsächlich in Einstellungen verwendet, in denen das Ziel Vorhersage ist, und man möchte schätzen, wie genau a Prädiktivmodell wird in der Praxis auftreten. In einem Vorhersageproblem erhält ein Modell normalerweise ein Datensatz von Bekannte Daten auf welchem Training wird ausgeführt (Trainingsdatensatz) und ein Datensatz von Unbekannte Daten (oder Zum ersten Mal gesehen Daten), gegen die das Modell getestet wird (genannt die Validierungsdatensatz oder Testset).[8][9] Das Ziel der Kreuzvalidierung ist es, die Fähigkeit des Modells zu testen, neue Daten vorherzusagen, die bei der Schätzung nicht verwendet wurden, um Probleme wie wie Überanpassung oder Auswahlverzerrung[10] und um einen Einblick zu geben, wie das Modell auf einen unabhängigen Datensatz verallgemeinert wird (d. H. Einem unbekannten Datensatz, beispielsweise aus einem echten Problem).
Eine Runde der Kreuzvalidierung beinhaltet Partitionierung a Probe von Daten hinein komplementär Untergruppen, die die Analyse auf einer Teilmenge durchführen (genannt die Trainingsset) und Validierung der Analyse in der anderen Teilmenge (genannt die Validierungssatz oder Testset). Reduzieren VariabilitätIn den meisten Methoden werden mehrere Runden der Kreuzvalidierung unter Verwendung verschiedener Partitionen durchgeführt, und die Validierungsergebnisse werden über die Runden kombiniert (z. B. gemittelt), um eine Schätzung der Vorhersageleistung des Modells zu ergeben.
Zusammenfassend lässt sich die Quervalidierung (Durchschnittswerte) Maßnahmen von kombinieren Fitness In Vorhersage, eine genauere Schätzung der Modellvorhersageleistung abzuleiten.[11]
Motivation
Annehmen a Modell mit einem oder mehreren unbekannt Parameterund ein Datensatz, zu dem das Modell angepasst werden kann (der Trainingsdatensatz). Der Anpassungsvorgang optimiert Die Modellparameter, um das Modell so gut wie möglich zu machen. Wenn ein unabhängig Die Probe von Validierungsdaten stammt aus demselben Population Als Trainingsdaten stellt sich im Allgemeinen heraus, dass das Modell nicht den Validierungsdaten entspricht, wie es zu den Trainingsdaten passt. Die Größe dieses Unterschieds ist wahrscheinlich groß, insbesondere wenn die Größe des Trainingsdatensatzes klein ist oder wenn die Anzahl der Parameter im Modell groß ist. Kreuzvalidierung ist eine Möglichkeit, die Größe dieses Effekts abzuschätzen.
In der linearen Regression gibt es real Antwortwerte y1, ..., yn, und n p-Dimensional Vektor Kovariaten x1, ..., xn. Die Komponenten des Vektors xi sind bezeichnet xi1, ..., xIP. Wenn kleinsten Quadrate wird verwendet, um eine Funktion in Form von a zu passen Hyperebene ŷ = a + βTx zu den Daten (xi, yi)1 ≤i≤nund dann kann die Passform mit dem bewertet werden mittlere quadratische Fehler (MSE). Die MSE für gegebene geschätzte Parameterwerte a und β auf dem Trainingssatz (xi, yi)1 ≤i≤n ist definiert als:
Wenn das Modell korrekt angegeben ist, kann es unter leichten Annahmen angezeigt werden, dass die erwarteter Wert der MSE für das Trainingssatz ist ((n-p- 1)/(n+p+1) <1 -mal der erwartete Wert der MSE für den Validierungssatz[12][irrelevantes Zitat] (Der erwartete Wert wird die Verteilung der Trainingssätze übernommen). Somit führt ein montiertes Modell und ein berechnetes MSE am Trainingssatz zu einem optimistisch voreingenommen Bewertung, wie gut das Modell zu einem unabhängigen Datensatz passt. Diese voreingenommene Schätzung wird als die genannt In-Stichprobe Schätzung der Anpassung, während die Kreuzvalidierungsschätzung eine ist außerhalb der Stichprobe schätzen.
Da es in der linearen Regression den Faktor direkt berechnet (n-p- 1)/(n+p+1) durch das die Trainings-MSE die Validierungs-MSE unter der Annahme unterschätzt, dass die Modellspezifikation gültig ist, kann eine Kreuzvalidierung verwendet werden übernommenIn diesem Fall wird die MSE im Validierungssatz ihren erwarteten Wert erheblich überschreiten. (Kreuzvalidierung im Kontext der linearen Regression ist auch dadurch nützlich, als sie ein optimales auswählen kann reguliert Kostenfunktion.) In den meisten anderen Regressionsverfahren (z. logistische Regression) Es gibt keine einfache Formel, um die erwartete Anpassung außerhalb der Stichprobe zu berechnen. Die Kreuzvalidierung ist daher eine allgemein anwendbare Möglichkeit, die Leistung eines Modells für nicht verfügbare Daten unter Verwendung der numerischen Berechnung anstelle der theoretischen Analyse vorherzusagen.
Typen
Zwei Arten von Kreuzvalidierung können unterschieden werden: erschöpfende und nicht exexhustive Kreuzvalidierung.
Erschöpfende Kreuzvalidierung
Variante Kreuzvalidationsmethoden sind Kreuzvalidationsmethoden, die auf alle möglichen Möglichkeiten lernen und testen, um die ursprüngliche Stichprobe in ein Training und einen Validierungssatz zu unterteilen.
Quervalidierung von Urlaub
Verlassen-p-Out Kreuzvalidierung (LPO CV) beinhaltet die Verwendung p Beobachtungen als Validierungssatz und die verbleibenden Beobachtungen als Trainingssatz. Dies wird auf allen Möglichkeiten wiederholt, das ursprüngliche Beispiel für einen Validierungssatz von zu schneiden p Beobachtungen und ein Trainingssatz.[13]
LPO-Kreuzvalidierung erfordern das Training und die Validierung des Modells mal, wo n ist die Anzahl der Beobachtungen in der ursprünglichen Stichprobe und wo ist der Binomialkoeffizient. Zum p > 1 und für noch mäßig groß n, LPO CV kann rechnerisch nicht realisierbar werden. Zum Beispiel mit n = 100 und p = 30,
Eine Variante der LPO-Kreuzvalidierung mit P = 2, die als Quervalidierung von Leave-Pair-out bekannt ist ROC -Kurve von binären Klassifikatoren.[14]
Urlaubsvalidierung

Verlassen-eines-Out Kreuzvalidierung (Loocv) ist ein besonderer Fall von Urlaubp-Out Kreuzvalidierung mit p= 1.Der Prozess sieht ähnlich aus wie Klappmesser; Bei der Kreuzvalidierung berechnet man jedoch eine Statistik auf den ausgelassenen Stichproben, während man mit Jackknife eine Statistik nur aus den gehaltenen Proben berechnet.
LOO-Kreuzvalidierung erfordert weniger Berechnungszeit als die LPO-Kreuzvalidierung, da es nur gibt vergeht eher als . Jedoch, Pässe erfordern möglicherweise immer noch eine große Rechenzeit. In diesem Fall können andere Ansätze wie die k-fache Kreuzvalidierung angemessener sein.[15]
Pseudo-Code-Algorithmus:
Eingang:
x, {Vektor der Länge n mit x-Werten eingehenden Punkten}
y, {Vektor der Länge n mit Y-Werten des erwarteten Ergebniss}}
Interpolat (x_in, y_in, x_out), {gibt die Schätzung für Punkt X_Out zurück, nachdem das Modell mit x_in-y_in-Paaren trainiert wurde}}
Ausgabe:
Err, {Schätzung für den Vorhersagefehler}
Schritte:
Err ← 0 für i ← 1, ..., n do // Definieren Sie die Quervalidierungsuntersets x_in ← (x [1], ..., x [i-1], x [i + 1], .. ., x [n]) y_in ← (y [1], ..., y [i - 1], y [i + 1], ..., y [n]) x_out ← x [i] y_out ← Interpolat (x_in, y_in, x_out) err ← err + (y [i] - y_out)^2 Ende für err ← er/n
Nicht-exponierende Kreuzvalidierung
Nicht exexhastive Kreuzvalidierungsmethoden berechnen nicht alle Möglichkeiten, die ursprüngliche Probe aufzuteilen. Diese Methoden sind Annäherungen an Urlaub.p-Out Kreuzvalidierung.
k-Fach Kreuzvalidierung

Im k-Faches Kreuzvalidieren wird die ursprüngliche Stichprobe zufällig aufgeteilt in k Unterproben gleicher Größe. Des k Teilproben, eine einzelne Teilstichprobe wird als Validierungsdaten für das Testen des Modells und das verbleibende beibehalten k- 1 Teilproben werden als Trainingsdaten verwendet. Der Kreuzvalidierungsprozess wird dann wiederholt k mal mit jedem der k Teilproben, die genau einmal als Validierungsdaten verwendet wurden. Das k Die Ergebnisse können dann gemittelt werden, um eine einzige Schätzung zu erzeugen. Der Vorteil dieser Methode gegenüber der wiederholten zufälligen Unterabtastung (siehe unten) besteht darin, dass alle Beobachtungen sowohl für das Training als auch für die Validierung verwendet werden und jede Beobachtung genau einmal zur Validierung verwendet wird. 10-fache Kreuzvalidierung wird üblicherweise verwendet,[16] aber im Allgemeinen k bleibt ein nicht fixierter Parameter.
Zum Beispiel Einstellung k=2 führt zu einer 2-fachen Kreuzvalidierung. In der 2-fachen Kreuzvalidierung mischen wir den Datensatz zufällig in zwei Sätze d0 und d1so dass beide Sätze gleich groß sind (dies wird normalerweise durch Mischen des Datenarrays implementiert und dann in zwei Teile aufgeteilt). Wir trainieren dann weiter d0 und validieren d1, gefolgt von Training auf d1 und validieren aufd0.
Wann k=n (die Anzahl der Beobachtungen), k-Falte Kreuzvalidierung entspricht der Quervalidierung von Leave-One-Out.[17]
Im geschichtet k-Falt Kreuzvalidierung werden die Partitionen ausgewählt, so dass der mittlere Antwortwert in allen Partitionen ungefähr gleich ist. Bei der binären Klassifizierung bedeutet dies, dass jede Partition ungefähr die gleichen Anteile der beiden Arten von Klassenbezeichnungen enthält.
Im wiederholt Kreuzvalidierung Die Daten werden nach dem Zufallsprinzip aufgeteilt in k Partitionen mehrmals. Die Leistung des Modells kann dadurch über mehrere Läufe gemittelt werden, dies ist jedoch in der Praxis selten wünschenswert.[18]
Holdout -Methode
In der Holdout -Methode weisen wir zwei Sets zufällig Datenpunkte zu d0 und d1, normalerweise als Trainingssatz bzw. der Testsatz bezeichnet. Die Größe der einzelnen Sätze ist willkürlich, obwohl der Testsatz typischerweise kleiner als der Trainingssatz ist. Wir trainieren dann (bauen ein Modell) auf d0 und testen (bewerten seine Leistung) auf d1.
Bei typischer Kreuzvalidierung werden die Ergebnisse mehrerer Läufe von Modelltests zusammen gemittelt. Im Gegensatz dazu beinhaltet die Holdout -Methode isoliert einen einzelnen Lauf. Es sollte mit Vorsicht verwendet werden, da man ohne eine Durchschnittszahlung mehrerer Läufe sehr irreführende Ergebnisse erzielen kann. Der eigene Indikator für die Vorhersagegenauigkeit (F*) neigt dazu, instabil zu sein, da es nicht durch mehrere Iterationen geglättet wird (siehe unten). In ähnlicher Weise werden Indikatoren für die spezifische Rolle verschiedener Prädiktorvariablen (z. B. Werte von Regressionskoeffizienten) tendenziell instabil.
Während die Holdout-Methode als "die einfachste Art von Kreuzvalidierung" eingestuft werden kann, kann[19] Viele Quellen klassifizieren Holdout stattdessen als eine Art einfacher Validierung und nicht als einfache oder degenerierte Form der Kreuzvalidierung.[6][20]
Wiederholte zufällige Unterabtastung Validierung
Diese Methode, auch bekannt als Monte Carlo Kreuzvalidierung,[21] Erstellt mehrere zufällige Spaltungen des Datensatzes in Trainings- und Validierungsdaten.[22] Für jeden solchen Split ist das Modell an die Trainingsdaten geeignet, und die Vorhersagegenauigkeit wird anhand der Validierungsdaten bewertet. Die Ergebnisse werden dann über die Spaltungen gemittelt. Der Vorteil dieser Methode (über k-Fold Cross Validierung) ist, dass der Anteil der Schulungs-/Validierungsaufteilung nicht von der Anzahl der Iterationen abhängt (d. H. Der Anzahl der Partitionen). Der Nachteil dieser Methode besteht darin, dass einige Beobachtungen in der Validierungs -Teilstichprobe niemals ausgewählt werden dürfen, während andere mehr als einmal ausgewählt werden können. Mit anderen Worten, Validierungsuntergruppen können sich überschneiden. Diese Methode zeigt auch Monte Carlo Variation, was bedeutet, dass die Ergebnisse variieren, wenn die Analyse mit unterschiedlichen zufälligen Spaltungen wiederholt wird.
Wenn sich die Anzahl der zufälligen Spaltungen unendlich nähert, nähert sich das Ergebnis einer wiederholten zufälligen Unterabtastung zu der der Quervalidierung des Urlaubs.
In einer geschichteten Variante dieses Ansatzes werden die zufälligen Stichproben so erzeugt, dass der mittlere Antwortwert (d. H. Die abhängige Variable in der Regression) in den Trainings- und Testsätzen gleich ist. Dies ist besonders nützlich, wenn die Antworten sind dichotom mit einer unausgeglichenen Darstellung der beiden Antwortwerte in den Daten.
Eine Methode, die wiederholte zufällige Unterabtastung anwendet, ist Ransac.[23]
Verschachtelte Kreuzvalidierung
Wenn eine Kreuzvalidierung gleichzeitig zur Auswahl des besten Satzes von verwendet wird Hyperparameter und zur Fehlerschätzung (und Bewertung der Verallgemeinerungskapazität) ist eine verschachtelte Kreuzvalidierung erforderlich. Es gibt viele Varianten. Mindestens zwei Varianten können unterschieden werden:
k*l-fach Kreuzvalidierung
Dies ist eine wirklich verschachtelte Variante, die eine äußere Schleife von enthält k Sets und eine innere Schleife von l Sets. Der Gesamtdatensatz wird in Aufteilte in die Aufteilung k Sets. Einer nach dem anderen wird ein Satz als (äußerer) Testsatz und der ausgewählt k-1 andere Sätze werden in den entsprechenden äußeren Trainingssatz kombiniert. Dies wird für jedes der von jeweils wiederholt k Sets. Jedes äußere Trainingssatz wird weiter unterteilt in l Sets. Einer nach dem anderen wird ein Satz als innerer Test (Validierung) ausgewählt und der l-1 andere Sätze werden in den entsprechenden inneren Trainingssatz kombiniert. Dies wird für jedes der von jeweils wiederholt l Sets. Die inneren Trainingssätze werden verwendet, um Modellparameter anzupassen, während der äußere Testsatz als Validierungssatz verwendet wird, um eine unvoreingenommene Bewertung der Modellanpassung bereitzustellen. In der Regel wird dies für viele verschiedene Hyperparameter (oder sogar verschiedene Modelltypen) wiederholt, und der Validierungssatz wird verwendet, um den besten Hyperparametersatz (und den Modelltyp) für diesen inneren Trainingssatz zu bestimmen. Danach ist ein neues Modell auf das gesamte äußere Trainingssatz geeignet, wobei die besten Hyperparameter aus der inneren Kreuzvalidierung verwendet werden. Die Leistung dieses Modells wird dann unter Verwendung des äußeren Testsatzes bewertet.
k-fach Kreuzvalidierung mit Validierung und Testsatz
Dies ist eine Art von K*l-fach Kreuzvalidierung, wenn l=k-1. Mit beiden wird eine einzelne k-fache Kreuzvalidierung verwendet Validierung und Testsatz. Der Gesamtdatensatz wird in Aufteilte in die Aufteilung k Sets. Ein Set wird nacheinander als Testsatz ausgewählt. Dann wird ein einzelner der verbleibenden Sätze als Validierungssatz und der andere verwendet k-2 Sätze werden als Trainingssätze verwendet, bis alle möglichen Kombinationen bewertet wurden. Ähnlich wie bei der K*l-FALD-Quervalidierung wird der Trainingssatz für die Modellanpassung verwendet und der Validierungssatz für die Modellbewertung für jedes der Hyperparameter-Sets verwendet. Schließlich wird für den ausgewählten Parametersatz der Testsatz verwendet, um das Modell mit dem besten Parametersatz zu bewerten. Hier sind zwei Varianten möglich: Entweder bewerten das Modell, das am Trainingssatz trainiert wurde, oder die Bewertung eines neuen Modells, das in die Kombination des Zuges und des Validierungssatzes geeignet war.
Anpassungsmaßnahmen
Das Ziel der Kreuzvalidierung ist es, die erwartete Anpassung eines Modells eines Modells an einen Datensatz abzuschätzen, der unabhängig von den Daten ist, die zum Training des Modells verwendet wurden. Es kann verwendet werden, um ein quantitatives Maß für die Anpassung abzuschätzen, das für Daten und Modell geeignet ist. Zum Beispiel für Binärklassifizierung Probleme, jeder Fall im Validierungssatz wird entweder korrekt oder falsch vorhergesagt. In dieser Situation kann die Fehlerklassifizierungsfehlerrate verwendet werden, um die Anpassung zusammenzufassen, obwohl andere Maßnahmen wie positiv vorhergesagter Wert könnte auch verwendet werden. Wenn der vorhergesagte Wert kontinuierlich verteilt ist, die mittlere quadratische Fehler, Root Mean Squared Fehler oder mittlere absolute Abweichung könnte verwendet werden, um die Fehler zusammenzufassen.
Verwenden früherer Informationen
Wenn Benutzer eine Kreuzvalidierung anwenden, um eine gute Konfiguration auszuwählen Dann möchten sie vielleicht die quervalidierte Wahl mit ihrer eigenen Schätzung der Konfiguration ausgleichen. Auf diese Weise können sie versuchen, der Volatilität der Kreuzvalidierung entgegenzuwirken, wenn die Stichprobengröße gering ist, und relevante Informationen aus früheren Untersuchungen einzubeziehen. In einer Prognosekombinationspraxis kann beispielsweise eine Kreuzvalidierung angewendet werden, um die Gewichte zu schätzen, die jeder Prognose zugeordnet sind. Da eine einfache prognostizierte Prognose schwer zu übertreffen ist, kann eine Strafe für Abweichungen von gleichen Gewichten hinzugefügt werden.[24] Oder wenn eine Kreuzvalidierung angewendet wird, um Beobachtungen einzelne Gewichte zuzuweisen, kann man Abweichungen von gleichen Gewichten bestrafen, um potenziell relevante Informationen zu vermeiden.[24] Hoornweg (2018) zeigt, wie ein Tuning -Parameter kann definiert werden, damit ein Benutzer intuitiv zwischen der Genauigkeit der Kreuzvalidierung und der Einfachheit des Festhaltens an einen Referenzparameter ausgleichen kann Das wird vom Benutzer definiert.
Wenn bezeichnet die Kandidatenkonfiguration, die möglicherweise ausgewählt werden, dann die verlustfunktion Das ist minimiert zu werden kann definiert werden als
Die relative Genauigkeit kann als quantifiziert werden , damit der mittlere quadratische Fehler eines Kandidaten wird relativ zu dem eines benutzerdefinierten . Der relative Einfachheitsterm misst den Betrag, den Abweicht von relativ zu der maximalen Abweichung von . Dementsprechend kann relative Einfachheit als angegeben werden als , wo entspricht dem Wert mit der höchsten zulässigen Abweichung von . Mit Der Benutzer bestimmt, wie hoch der Einfluss des Referenzparameters relativ zur Kreuzvalidierung ist.
Man kann relative Einfachheitsterme für mehrere Konfigurationen hinzufügen durch Angabe der Verlustfunktion als
Hoornweg (2018) zeigt, dass eine Verlustfunktion mit einem solchen Kompromiss der Genauigkeits-Gleichmäßigkeit auch verwendet werden kann, um intuitiv zu definieren Schrumpfungsschätzer wie das (adaptive) Lasso und Bayesian / Ridge Regression.[24] Klick auf das Lasso zum Beispiel.
Statistische Eigenschaften
Angenommen, wir wählen ein Maß an Anpassung Fund verwenden Sie Kreuzvalidierung, um eine Schätzung zu erzeugen F* der erwarteten Passform EF eines Modells zu einem unabhängigen Datensatz aus derselben Population wie die Trainingsdaten. Wenn wir uns vorstellen, mehrere unabhängige Trainingssätze nach derselben Verteilung zu probieren, die resultierenden Werte für F* wird variieren. Die statistischen Eigenschaften von F* Ergebnis aus dieser Variation.
Der Kreuzvalidierungsschätzer F* ist fast unvoreingenommen für EF.[25] Der Grund, warum es geringfügig verzerrt ist n- 1, wenn es gibt n Beobachtete Fälle). In fast allen Situationen wird die Auswirkung dieser Verzerrung insofern konservativ sein, als die geschätzte Anpassung in der Richtung leicht verzerrt wird, was auf eine schlechtere Passform hinweist. In der Praxis ist diese Voreingenommenheit selten ein Problem.
Die Varianz von F* kann groß sein.[26][27] Wenn aus diesem Grund zwei statistische Verfahren auf der Grundlage der Ergebnisse der Kreuzvalidierung verglichen werden, ist das Verfahren mit der besser geschätzten Leistung möglicherweise nicht das Bessere der beiden Verfahren (d. H. Es hat möglicherweise nicht den besseren Wert von EF). Es wurden einige Fortschritte beim Konstruktion erzielt Vertrauensintervalle rund um Kreuzvalidierungsschätzungen,[26] Dies wird jedoch als schwieriges Problem angesehen.
Rechenprobleme
Die meisten Formen der Kreuzvalidierung sind unkompliziert, solange eine Implementierung der untersuchten Vorhersagemethode verfügbar ist. Insbesondere die Vorhersagemethode kann eine "schwarze Box" sein - es besteht kein Zugang zu den Interna ihrer Implementierung. Wenn die Vorhersagemethode teuer ist zu trainieren, kann die Kreuzvalidierung sehr langsam sein, da das Training wiederholt durchgeführt werden muss. In einigen Fällen wie z. kleinsten Quadrate und Kernelregression, Kreuzvalidierung kann erheblich beschleunigt werden, indem bestimmte Werte vorbereitet werden, die wiederholt im Training benötigt werden, oder durch die Verwendung schneller "Aktualisierungsregeln" wie die Sherman -Morrison -Formel. Man muss jedoch darauf achten, die "totale Blendung" des Validierungssatzes aus dem Trainingsverfahren zu bewahren, andernfalls kann sich eine Verzerrung ergeben. Ein extremes Beispiel für die Beschleunigung der Kreuzvalidierung tritt in auf lineare Regression, wo die Ergebnisse der Kreuzvalidierung a haben Expression geschlossene Form bekannt als Vorhersage Restfehlersumme der Quadrate (DRÜCKEN SIE).
Einschränkungen und Missbrauch
Die Kreuzvalidierung liefert nur sinnvolle Ergebnisse, wenn der Validierungssatz und das Trainingssatz aus derselben Bevölkerung stammen und nur dann, wenn menschliche Verzerrungen kontrolliert werden.
In vielen Anwendungen der prädiktiven Modellierung entwickelt sich die Struktur des untersuchten Systems im Laufe der Zeit (d. H. Es ist "nicht stationär"). Beide können systematische Unterschiede zwischen den Trainings- und Validierungssätzen führen. Zum Beispiel, wenn ein Modell für Vorhersage von Aktienwerten Es wird für einen bestimmten Zeitraum von fünf Jahren auf Daten geschult, und es ist unrealistisch, den nachfolgenden fünfjährigen Zeitraum als Unentschieden aus derselben Bevölkerung zu behandeln. Angenommen, ein Modell wird entwickelt, um das Seinsrisiko eines Individuums vorherzusagen diagnostiziert mit einer bestimmten Krankheit innerhalb des nächsten Jahres. Wenn das Modell unter Verwendung von Daten aus einer Studie, an der nur eine bestimmte Bevölkerungsgruppe (z. B. junge Menschen oder Männer) beteiligt ist, trainiert wird, dann jedoch auf die allgemeine Bevölkerung angewendet wird, kann sich die Quervalidierung aus dem Trainingssatz stark von der tatsächlichen Vorhersageleistung unterscheiden .
In vielen Anwendungen können Modelle auch fälschlicherweise angegeben und in Abhängigkeit von Modelliererverzerrungen und/oder willkürlichen Auswahlmöglichkeiten variieren. In diesem Fall kann es eine Illusion geben, dass sich das System in externen Proben ändert, während der Grund dafür ist, dass das Modell einen kritischen Prädiktor übersehen hat und/oder einen verwirrten Prädiktor enthält. Neue Beweise sind, dass die Kreuzvalidierung an sich nicht sehr vorhersehbar für die externe Validität ist, während eine Form der experimentellen Validierung, die als Swap-Stichproben bekannt ist, die die Kontrolle über die menschliche Verzerrung bezeichnet, die externe Gültigkeit viel vorhersehbarer sein kann.[28] Wie durch diese große MAQC-II-Studie in 30.000 Modellen definiert, enthält die Swap-Stichproben eine Kreuzvalidierung in dem Sinne, dass Vorhersagen in unabhängigen Trainings- und Validierungsproben getestet werden. Modelle werden jedoch auch in diesen unabhängigen Proben und von Modellierern entwickelt, die miteinander geblendet sind. Wenn in diesen Modellen, die in diesen ausgetauschten Trainings- und Validierungsproben in diesen Modellen entwickelt wurden, wie häufig vorkommt, zeigt MAQC-II, dass dies für eine schlechte externe Vorhersagevalidität viel vorhersehbarer ist als die herkömmliche Kreuzvalidierung.
Der Grund für den Erfolg der ausgetauschten Probenahme ist eine eingebaute Kontrolle für menschliche Verzerrungen im Modellgebäude. Zusätzlich zu den Vorhersagen, die zwischen Modellierern variieren und aufgrund dieser verwirrenden Modellierereffekte zu einer schlechten externen Gültigkeit führen können, sind dies einige andere Möglichkeiten, wie die Kreuzvalidierung missbraucht werden kann:
- Durch die Durchführung einer ersten Analyse, um die informativste zu identifizieren Merkmale Verwenden des gesamten Datensatzes - Wenn durch den Modellierungsverfahren eine Funktionsauswahl oder Modellabstimmung erforderlich ist, muss dies bei jedem Trainingssatz wiederholt werden. Andernfalls werden Vorhersagen sicherlich voreingenommen.[29] Wenn eine Kreuzvalidierung verwendet wird, um zu entscheiden, welche Funktionen verwendet werden sollen, und eine innere Kreuzvalidierung Um die Feature -Auswahl an jedem Trainingsset durchzuführen, muss durchgeführt werden.[30]
- Indem einige der Trainingsdaten auch in den Testsatz aufgenommen werden, kann dies aufgrund der "Zwillingsung" im Datensatz geschehen, wobei im Datensatz einige genau identische oder nahezu identische Stichproben vorhanden sind. In gewissem Maße findet das Twinning auch in perfekt unabhängigen Trainings- und Validierungsproben statt. Dies liegt daran, dass einige der Trainingsprobenbeobachtungen nahezu identische Werte von Prädiktoren als Validierungsstichprobenbeobachtungen aufweisen. Und einige davon werden mit einem Ziel in besserer Richtung und der Validierung mit einem Ziel in die gleiche Richtung korrelieren, wenn sie tatsächlich von verwirrten Prädiktoren mit schlechter externer Gültigkeit angetrieben werden. Wenn ein solches quervalidiertes Modell aus einem ausgewählt wird k-Fach Set, Mensch Bestätigungsverzerrung wird am Werk sein und bestimmen, dass ein solches Modell validiert wurde. Aus diesem Grund muss die traditionelle Kreuzvalidierung durch Kontrollpersonen für menschliche Verzerrungen und verwirrte Modellspezifikation wie Tauschprobenahme und prospektive Studien ergänzt werden.
Kreuzvalidierung für Zeitreihenmodelle
Da die Reihenfolge der Daten wichtig ist, kann die Kreuzvalidierung problematisch sein Zeitfolgen Modelle. Ein angemessenerer Ansatz könnte darin bestehen, die Quervalidierung zu verwenden.[31]
Wenn jedoch die Leistung von einer einzigen beschrieben wird ZusammenfassungsstatistikEs ist möglich, dass der von Politis und Romano als beschriebene Ansatz als Stationäre Bootstrap[32] wird funktionieren. Die Statistik des Bootstrap muss ein Intervall der Zeitreihe akzeptieren und die zusammenfassende Statistik zurückgeben. Der Anruf zum stationären Bootstrap muss eine geeignete mittlere Intervalllänge angeben.
Anwendungen
Kreuzvalidierung kann verwendet werden, um die Leistungen verschiedener Vorhersagemodellierungsverfahren zu vergleichen. Angenommen, wir interessieren uns für optische Zeichenerkennungund wir überlegen, ob eines eins zu verwenden ist Vektormaschine unterstützen (SVM) oder k-Nearste Nachbarn (KNN), um den wahren Charakter aus einem Bild eines handgeschriebenen Charakters vorherzusagen. Mit Kreuzvalidierung konnten wir diese beiden Methoden objektiv als ihre jeweiligen Fraktionen falsch klassifizierter Zeichen vergleichen. Wenn wir die Methoden einfach anhand ihrer Fehlerrate in der Stichprobe verglichen haben, scheint eine Methode wahrscheinlich besser zu funktionieren, da sie flexibler und daher anfälliger für anfälliger ist für Überanpassung im Vergleich zur anderen Methode.
Kreuzvalidierung kann auch in verwendet werden Variable Auswahl.[33] Angenommen, wir verwenden die Ausdruck Niveaus von 20 Proteine vorherzusagen, ob a Krebs Der Patient wird auf a reagieren Arzneimittel. Ein praktisches Ziel wäre zu bestimmen, welche Teilmenge der 20 Merkmale verwendet werden sollten, um das beste Vorhersagemodell zu erstellen. Wenn wir bei den meisten Modellierungsverfahren die Feature-Teilmengen mithilfe der In-Stichproben-Fehlerraten vergleichen, tritt die beste Leistung auf, wenn alle 20 Funktionen verwendet werden. Unter Kreuzvalidierung enthält das Modell mit der besten Anpassung jedoch im Allgemeinen nur eine Untergruppe der Merkmale, die als wirklich informativ erachtet werden.
Eine aktuelle Entwicklung in medizinischen Statistiken ist die Verwendung in der Metaanalyse. Es bildet die Grundlage der Validierungsstatistik, VN, mit der die statistische Validität der Zusammenfassung der Metaanalyse zusammengefasst wird.[34] Es wurde auch in einem konventionelleren Sinne in der Metaanalyse verwendet, um den wahrscheinlichen Vorhersagefehler der Metaanalyseergebnisse abzuschätzen.[35]
Siehe auch
Notizen und Referenzen
- ^ Piryonesi S. madeh; El-Diraby Tamer E. (2020-03-01). "Datenanalyse im Vermögensverwaltung: kostengünstige Vorhersage des Index des Pflasterbedingers". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE) IS.1943-555X.0000512. S2CID 213782055.
- ^ Allen, David M (1974). "Die Beziehung zwischen variabler Auswahl und Datenagumentation und einer Methode zur Vorhersage". Technometrie. 16 (1): 125–127. doi:10.2307/1267500. JStor 1267500.
- ^ Stone, M (1974). "Quervalidatorische Wahl und Bewertung statistischer Vorhersagen". Zeitschrift der Royal Statistical Society, Serie B (methodologisch). 36 (2): 111–147. doi:10.1111/j.2517-6161.1974.tb00994.x. S2CID 62698647.
- ^ Stone, M (1977). "Eine asymptotische Äquivalenz der Wahl des Modells durch Kreuzvalidierung und Akaikes Kriterium". Zeitschrift der Royal Statistical Society, Serie B (methodologisch). 39 (1): 44–47. doi:10.1111/j.2517-6161.1977.tb01603.x. JStor 2984877.
- ^ Geisser, Seymour (1993). Prädiktive Inferenz. New York, NY: Chapman und Hall. ISBN 978-0-412-03471-8.
- ^ a b Kohavi, Ron (1995). "Eine Studie zur Kreuzvalidierung und Bootstrap für die Genauigkeitsschätzung und die Modellauswahl". Verfahren der vierzehnten Gemeinsamen Konferenz über künstliche Intelligenz. San Mateo, CA: Morgan Kaufmann. 2 (12): 1137–1143. Citeseerx 10.1.1.48.529.
- ^ Devijver, Pierre A.; Kittler, Josef (1982). Mustererkennung: ein statistischer Ansatz. London, GB: Prentice-Hall. ISBN 0-13-654236-0.
- ^ Galkin, Alexander (28. November 2011). "Was ist der Unterschied zwischen dem Testsatz und dem Validierungssatz?". Abgerufen 10. Oktober 2018.
- ^ "Neuling Frage: Verwirrt über Zug-, Validierungs- und Testdaten!". Archiviert vom Original am 2015-03-14. Abgerufen 2013-11-14.
{{}}
: CS1 Wartung: Bot: Original -URL -Status unbekannt (Link) - ^ Cawley, Gavin C.; Talbot, Nicola L. C. (2010). "Über eine Überanpassung in der Modellauswahl und nachfolgender Auswahlverzerrung bei der Leistungsbewertung" (PDF). 11. Journal of Machine Learning Research: 2079–2107.
{{}}
: Journal zitieren erfordert|journal=
(Hilfe) - ^ Grossman, Robert; Seni, Giovanni; Elder, John; Agarwal, Nitin; Liu, Huan (2010). "Ensemble -Methoden im Data Mining: Verbesserung der Genauigkeit durch Kombination von Vorhersagen". Synthesevorträge zur Data Mining und Wissensentdeckung. Morgan & Claypool. 2: 1–126. doi:10.2200/S00240ED1V01Y200912DMK002.
- ^ Trippa, Lorenzo; Waldron, Levi; Huttenhower, Curtis; Parmigiani, Giovanni (März 2015). "Bayes'sche nichtparametrische Cross-Study-Validierung von Vorhersagemethoden". Die Annalen der angewandten Statistiken. 9 (1): 402–428. Arxiv:1506.00474. Bibcode:2015ArXIV150600474t. doi:10.1214/14-aoas798. ISSN 1932-6157. S2CID 51943497.
- ^ Celisse, Alain (1. Oktober 2014). "Optimale Kreuzvalidierung bei der Dichteschätzung mit dem $ l^{2} $-Verlust". Die Annalen der Statistik. 42 (5): 1879–1910. Arxiv:0811.0802. doi:10.1214/14-aos1240. ISSN 0090-5364. S2CID 17833620.
- ^ Airola, a.; Pahikkala, T.; Waegeman, W.; De Baets, Bernard; Salakoski, T. (2011-04-01). "Ein experimenteller Vergleich von Kreuzvalidierungstechniken zur Schätzung der Fläche unter der ROC-Kurve". Computerstatistik und Datenanalyse. 55 (4): 1828–1844. doi:10.1016/j.csda.2010.11.018.
- ^ Molinaro, A. M.; Simon, R.; Pfeiffer, R. M. (2005-08-01). "Vorhersagefehlerschätzung: Ein Vergleich der Resampling -Methoden". Bioinformatik. 21 (15): 3301–3307. doi:10.1093/bioinformatics/bti499. ISSN 1367-4803. PMID 15905277.
- ^ McLachlan, Geoffrey J.; Do, Kim-anh; Ambroise, Christophe (2004). Analyse von Microarray -Genexpressionsdaten. Wiley.
- ^ "Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage. 2. Auflage". web.stanford.edu. Abgerufen 2019-04-04.
- ^ Vanwinckelen, Gitte (2. Oktober 2019). Bei der Schätzung der Modellgenauigkeit mit wiederholter Kreuzvalidierung. lirias.kuleuven. S. 39–44. ISBN 9789461970442.
- ^ "Kreuzvalidierung". Abgerufen 11. November 2012.
- ^ Arlot, Sylvain; Celisse, Alain (2010). "Eine Übersicht über Kreuzvalidationsverfahren für die Modellauswahl". Statistikumfragen. 4: 40–79. Arxiv:0907.4728. doi:10.1214/09-SS054. S2CID 14332192.
Kurz gesagt, CV besteht aus der Mittelung mehrerer Hold-out-Schätzer des Risikos, das unterschiedlichen Datenspaltungen entspricht.
- ^ Dubitzky, Werner; Granzow, Martin; Berrar, Daniel (2007). Grundlagen des Data Mining in Genomik und Proteomik. Springer Science & Business Media. p. 178.
- ^ Kuhn, Max; Johnson, Kjell (2013). Angewandte Vorhersagemodellierung. New York, NY: Springer New York. doi:10.1007/978-1-4614-6849-3. ISBN 9781461468486.
- ^ Canttzler, H. "Zufallsstichprobenkonsens (RANSAC)." Institut für Wahrnehmung, Handeln und Verhalten, Abteilung für Informatik, Universität von Edinburgh (1981).http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.106.3035&rep=rep1&type=pdf
- ^ a b c Hoornweg, Victor (2018). Wissenschaft: unter Einreichung. Hoornweg Press. ISBN 978-90-829188-0-9.
- ^ Christensen, Ronald (21. Mai 2015). "Gedanken zu Vorhersage und Kreuzvalidierung" (PDF). Abteilung für Mathematik und Statistik Universität von New Mexico. Abgerufen 31. Mai, 2017.
- ^ a b Efron, Bradley; Tibshirani, Robert (1997). "Verbesserungen zur Kreuzvalidierung: die .632 + Bootstrap-Methode". Zeitschrift der American Statistical Association. 92 (438): 548–560. doi:10.2307/2965703. JStor 2965703. HERR 1467848.
- ^ Stone, Mervyn (1977). "Asymptotik für und gegen Kreuzvalidierung". Biometrika. 64 (1): 29–35. doi:10.1093/biomet/64.1.29. JStor 2335766. HERR 0474601.
- ^ Konsortium, MAQC (2010). "Die Microarray Quality Control Control (MAQC) -II-Studie zu gemeinsamen Praktiken zur Entwicklung und Validierung von Microarray-basierten Vorhersagemodellen". Naturbiotechnologie. London: Nature Publishing Group. 28 (8): 827–838. doi:10.1038/nbt.1665. PMC 3315840. PMID 20676074.
- ^ Bermingham, Mairead L.; Pong-Wong, Ricardo; Spiliopoulou, Athina; Hayward, Caroline; Rudan, Igor; Campbell, Harry; Wright, Alan F.; Wilson, James F.; Agakov, Felix; Navarro, Pau; Haley, Chris S. (2015). "Anwendung einer hochdimensionalen Merkmalsauswahl: Bewertung der genomischen Vorhersage beim Menschen". Sci. Rep. 5: 10312. Bibcode:2015natsr ... 510312b. doi:10.1038/srep10312. PMC 4437376. PMID 25988841.
- ^ Varma, Sudhir; Simon, Richard (2006). "Verzerrung der Fehlerschätzung bei der Verwendung von Kreuzvalidierung für die Modellauswahl". BMC Bioinformatics. 7: 91. doi:10.1186/1471-2105-7-91. PMC 1397873. PMID 16504092.
- ^ Bergmeir, Christopher; Benitez, Jose (2012). "Über die Verwendung der Kreuzvalidierung für die Zeitreihenprädiktorbewertung". Informationswissenschaften. 191: 192–213. doi:10.1016/j.ins.2011.12.028 - über Elsevier Science Direct.
- ^ Politis, Dimitris n.; Romano, Joseph P. (1994). "Der stationäre Bootstrap". Zeitschrift der American Statistical Association. 89 (428): 1303–1313. doi:10.1080/01621459.1994.10476870. HDL:10983/25607.
- ^ Picard, Richard; Cook, Dennis (1984). "Kreuzvalidierung von Regressionsmodellen". Zeitschrift der American Statistical Association. 79 (387): 575–583. doi:10.2307/2288403. JStor 2288403.
- ^ Willis BH, Riley RD (2017). "Messung der statistischen Validität der Zusammenfassung der meta-Analyse- und Meta-Regressionsergebnisse zur Verwendung in der klinischen Praxis". Statistiken in der Medizin. 36 (21): 3283–3301. doi:10.1002/SIM.7372. PMC 5575530. PMID 28620945.
- ^ Riley Rd, Ahmed I, Debray TP, Willis BH, Noordzij P, Higgins JP, Deeks JJ (2015). "Zusammenfassung und Validierung der Testgenauigkeit in mehreren Studien zur Verwendung in der klinischen Praxis". Statistiken in der Medizin. 34 (13): 2081–2103. doi:10.1002/SIM.6471. PMC 4973708. PMID 25800943.