Wurzel-Mittelwert-Abweichung
Das Wurzel-Mittelwert-Abweichung (RMSD) oder Root-Mean-Quadrat-Fehler (Rmse) ist ein häufig verwendet Schätzer und die beobachteten Werte. Die RMSD repräsentiert die Quadratwurzel der zweiten Beispielmoment der Unterschiede zwischen vorhergesagten Werten und beobachteten Werten oder der quadratischer Mittelwert dieser Unterschiede. Diese Abweichungen werden genannt Residuen Wenn die Berechnungen über die Datenprobe durchgeführt werden, die zur Schätzung verwendet wurde und aufgerufen werden Fehler (oder Vorhersagefehler) bei der Berechnung der Stichprobe. Das RMSD dient dazu, die Größen der Fehler in den Vorhersagen für verschiedene Datenpunkte in ein einzelnes Maß für die Vorhersagekraft zu aggregieren. RMSD ist ein Maß von Richtigkeit, vergleichen Prognosefehler verschiedener Modelle für einen bestimmten Datensatz und nicht zwischen Datensätzen, da diese skalierungsabhängig sind.[1]
RMSD ist immer nicht negativ, und ein Wert von 0 (fast nie in der Praxis erreicht) würde eine perfekte Anpassung an die Daten anzeigen. Im Allgemeinen ist ein niedrigerer RMSD besser als ein höher. Vergleiche über verschiedene Datenarten wären jedoch ungültig, da die Maßnahme von der Skala der verwendeten Zahlen abhängt.
RMSD ist die quadratische Wurzel des Durchschnitts der quadratischen Fehler. Der Effekt jedes Fehlers auf RMSD ist proportional zur Größe des quadratischen Fehlers. Daher haben größere Fehler einen unverhältnismäßig großen Einfluss auf RMSD. Folglich ist RMSD empfindlich gegenüber Ausreißern.[2][3]
Formel
Der RMSD von a Schätzer in Bezug auf einen geschätzten Parameter ist definiert als die Quadratwurzel der mittlerer quadratischer Fehler:
Für ein unvoreingenommener SchätzerDas RMSD ist die Quadratwurzel der Varianz, die als die bezeichnet wird Standardabweichung.
Das RMSD der vorhergesagten Werte für Zeiten t von a Regression abhängige Variable mit Variablen, die beobachtet wurden T Zeiten, wird berechnet für T Unterschiedliche Vorhersagen als Quadratwurzel des Mittelwerts der Quadrate der Abweichungen:
(Für Regressionen auf Querschnittsdaten, das Index t wird durch i und T wird durch n.))
In einigen Disziplinen wird der RMSD verwendet, um Unterschiede zwischen zwei Dingen zu vergleichen, die variieren können, von denen keiner als "Standard" akzeptiert wird. Zum Beispiel bei der Messung der durchschnittlichen Differenz zwischen zwei Zeitreihen und , die Formel wird
Normalisierung
Die Normalisierung des RMSD erleichtert den Vergleich zwischen Datensätzen oder Modellen mit unterschiedlichen Skalen. Obwohl es in der Literatur keine konsistenten Normalisierungsmittel gibt, sind gemeinsame Auswahlmöglichkeiten der Mittelwert oder der Bereich (definiert als Maximalwert abzüglich des Mindestwerts) der gemessenen Daten:[4]
- oder .
Dieser Wert wird allgemein als die bezeichnet Normalisierte Wurzel-mittlere-Quadrat-Abweichung oder Error (NRMSD oder NRMSE) und häufig als Prozentsatz ausgedrückt, wobei niedrigere Werte weniger Restvarianz anzeigen. In vielen Fällen, insbesondere bei kleineren Proben, wird der Probenbereich wahrscheinlich von der Größe der Stichprobe beeinflusst, die Vergleiche behindern würde.
Eine weitere mögliche Methode, um das RMSD zu einem nützlicheren Vergleichsmaß zu machen, besteht darin, die RMSD durch die zu teilen Interquartilbereich. Wenn Sie das RMSD mit dem IQR teilen, wird der normalisierte Wert für Extremwerte in der Zielvariablen weniger empfindlich.
- wo
mit und wo CDF–1 ist der Quantilfunktion.
Bei der Normalisierung durch den Mittelwert der Messungen der Begriff Variationskoeffizient des RMSD, CV (RMSD) kann verwendet werden, um Unklarheiten zu vermeiden.[5] Dies ist analog zu dem Variationskoeffizient mit dem RMSD an die Stelle des Standardabweichung.
Mittlerer absoluter Fehler
Einige Forscher haben die Verwendung der empfohlen Mittlerer absoluter Fehler (MAE) Anstelle der quadratischen Abweichung der Wurzel. Mae verfügt über Vorteile bei der Interpretierbarkeit gegenüber RMSD. MAE ist der Durchschnitt der absoluten Werte der Fehler. MAE ist grundsätzlich einfacher zu verstehen als die Quadratwurzel des Durchschnitts der quadratischen Fehler. Darüber hinaus beeinflusst jeder Fehler MAE in direktem Verhältnis zum Absolutwert des Fehlers, was bei RMSD nicht der Fall ist.[2]
Anwendungen
- Im Meteorologie, um zu sehen, wie effektiv a mathematisch Modell prognostiziert das Verhalten der Atmosphäre.
- Im Bioinformatik, das Wurzelschnitt-Quadrat-Abweichung von Atompositionen ist das Maß für den durchschnittlichen Abstand zwischen den Atomen von überlagert Proteine.
- Im Strukturbasierter DrogendesignDas RMSD ist ein Maß für den Unterschied zwischen einer Kristallkonformation des Liganden Konformation und ein Docking Vorhersage.
- Im WirtschaftDas RMSD wird verwendet, um festzustellen, ob ein Wirtschaftsmodell passt Ökonomische Indikatoren. Einige Experten haben argumentiert, dass RMSD weniger zuverlässig ist als der relative absolute Fehler.[6]
- Im experimentelle PsychologieDas RMSD wird verwendet, um zu beurteilen, wie gut mathematische oder rechnerische Verhaltensmodelle das empirisch beobachtete Verhalten erklären.
- Im GisDas RMSD ist ein Maß, das zur Bewertung der Genauigkeit der räumlichen Analyse und der Fernerkundung verwendet wird.
- Im Hydrogeologie, RMSD und NRMSD werden verwendet, um die Kalibrierung eines Grundwassermodells zu bewerten.[7]
- Im Bildgebungswissenschaft, der RMSD ist Teil der Peak-Signal-Rausch-Verhältnis, Eine Maßnahme, die verwendet wird, um zu bewerten, wie gut eine Methode zur Rekonstruktion eines Bildes relativ zum Originalbild funktioniert.
- Im RechenneurowissenschaftenDas RMSD wird verwendet, um zu beurteilen, wie gut ein System ein bestimmtes Modell lernt.[8]
- Im ProteinkernmagnetresonanzspektroskopieDas RMSD wird als Maß verwendet, um die Qualität des erhaltenen Strukturenbündels abzuschätzen.
- Einreichungen für die Netflix -Preis wurden unter Verwendung des RMSD aus den unbekannten "True" -Werten des Testdatensatzes beurteilt.
- Bei der Simulation des Energieverbrauchs von Gebäuden werden RMSE und CV (RMSE) verwendet, um Modelle auf gemessen zu kalibrieren Aufbauleistung.[9]
- Im Röntgenkristallographie, RMSD (und RMSZ) wird verwendet, um die Abweichung der molekularen internen Koordinaten zu messen, die von den Bibliothekswerten der Zurückhaltung abweichen.
Siehe auch
- Quadratischer Mittelwert
- Mittlerer absoluter Fehler
- Durchschnittliche absolute Abweichung
- Mittlere signierte Abweichung
- Mittlere quadratische Abweichung
- Quadratische Abweichungen
- Fehler und Residuen in Statistiken
Verweise
- ^ Hyndman, Rob J.; Koehler, Anne B. (2006). "Ein weiterer Blick auf Messungen der Prognosegenauigkeit". Internationales Journal of Prognosen. 22 (4): 679–688. Citeseerx 10.1.1.154.9771. doi:10.1016/j.ijForecast.2006.03.001.
- ^ a b Pontius, Robert; Thontteh, Olufunmilayo; Chen, Hao (2008). "Komponenten von Informationen zum Vergleich mehrerer Auflösungen zwischen Karten, die eine reale Variable teilen". Umweltökologische Statistik. 15 (2): 111–142. doi:10.1007/s10651-007-0043-y.
- ^ Willmott, Cort; Matsuura, Kenji (2006). "Bei der Verwendung von dimensionierten Fehlermessungen zur Bewertung der Leistung räumlicher Interpolatoren". Internationales Journal of Geographical Information Science. 20: 89–102. doi:10.1080/13658810500286976.
- ^ "Coastal Inlets Research Program (CIRP) Wiki - Statistik". Abgerufen 4. Februar 2015.
- ^ "FAQ: Was ist der Variationskoeffizient?". Abgerufen 19. Februar 2019.
- ^ Armstrong, J. Scott; Collopy, Fred (1992). "Fehlermessungen zur Verallgemeinerung von Prognosemethoden: Empirische Vergleiche" (PDF). Internationales Journal of Prognosen. 8 (1): 69–80. Citeseerx 10.1.1.423.508. doi:10.1016/0169-2070 (92) 90008-W.
- ^ Anderson, M.P.; Woessner, W.W. (1992). Angewandte Grundwassermodellierung: Simulation des Durchflusss und des advektiven Transports (2. Aufl.). Akademische Presse.
- ^ Ensemble Neural Netzwerkmodell
- ^ ANSI/BPI-2400-S-2012: Standardpraxis für die standardisierte Qualifikation der Vorhersagen des gesamten Hauseinsparungen durch Kalibrierung zur Energieverbrauchsgeschichte