Korrelation

Im Statistiken, Korrelation oder Abhängigkeit ist eine statistische Beziehung, ob kausal oder nicht zwischen zwei zufällige Variablen oder bivariate Daten. Obwohl "Korrelation" im weitesten Sinne auf jede Art von Assoziation hinweisen kann, bezieht sie sich in Statistiken normalerweise auf das Ausmaß, in dem ein Paar Variablen sind linear verbunden. Zu den bekannten Beispielen für abhängige Phänomene gehören die Korrelation zwischen dem Höhe von Eltern und ihren Nachkommen sowie der Korrelation zwischen dem Preis eines guten und der Menge, die die Verbraucher kaufen, wie sie in der sogenannten Darstellung dargestellt wird Nachfragekurve.
Korrelationen sind nützlich, da sie eine prädiktive Beziehung anzeigen können, die in der Praxis ausgenutzt werden kann. Beispielsweise kann ein elektrischer Versorgungsunternehmen an einem milden Tag weniger Leistung erzeugen, basierend auf der Korrelation zwischen Strombedarf und Wetter. In diesem Beispiel gibt es a kausaler Zusammenhang, Weil extremes Wetter Veranlasst Menschen, mehr Strom zum Erhitzen oder Abkühlen zu verwenden. Im Allgemeinen reicht das Vorhandensein einer Korrelation jedoch nicht aus, um das Vorhandensein einer kausalen Beziehung zu schließen (d. H.,, Die Korrelation impliziert keine Verursachung).
Formal sind zufällige Variablen abhängig Wenn sie ein mathematisches Eigentum von nicht erfüllen Probabilistische Unabhängigkeit. Im informellen Sprachgebrauch, Korrelation ist ein Synonym mit Abhängigkeit. In technischer Sinne bezieht sich die Korrelation jedoch auf mehrere spezifische Arten von mathematischen Operationen zwischen Die getesteten Variablen und ihre jeweiligen erwarteten Werte. Korrelation ist im Wesentlichen das Maß dafür, wie zwei oder mehr Variablen miteinander verbunden sind. Es gibt einige Korrelationskoeffizientenoft bezeichnet oder Messung des Korrelationsgrades. Das häufigste von diesen ist das Pearson -Korrelationskoeffizient, was nur für eine lineare Beziehung zwischen zwei Variablen empfindlich ist (was auch dann vorhanden sein kann, wenn eine Variable eine nichtlineare Funktion der anderen ist). Andere Korrelationskoeffizienten - wie z. Spearmans Rangkorrelation - wurden entwickelt, um mehr zu sein robust als Pearsons, das ist empfindlicher gegenüber nichtlinearen Beziehungen.[1][2][3] Gegenseitige Information kann auch angewendet werden, um die Abhängigkeit zwischen zwei Variablen zu messen.
Pearsons Produktmomentkoeffizient

Das bekannteste Maß für die Abhängigkeit zwischen zwei Größen ist das Pearson-Produktmoment-Korrelationskoeffizient (PPMCC) oder "Pearsons Korrelationskoeffizient", allgemein einfach als "der Korrelationskoeffizient" bezeichnet. Es wird erhalten, indem das Verhältnis der Kovarianz der beiden fraglichen Variablen unseres numerischen Datensatzes auf die Quadratwurzel ihrer Varianzen normalisiert wird. Mathematisch teilt man einfach die Kovarianz der beiden Variablen durch das Produkt ihrer Standardabweichungen. Karl Pearson entwickelte den Koeffizienten von einer ähnlichen, aber leicht anderen Idee von Francis Galton.[4]
Ein Pearson-Produktmoment-Korrelationskoeffizient versucht, eine Linie von Best-Dataset mit zwei Variablen zu etablieren, indem im Wesentlichen die erwarteten Werte festgelegt werden, und der resultierende Pearson-Korrelationskoeffizient zeigt an, wie weit der tatsächliche Datensatz von den erwarteten Werten entfernt ist. Abhängig vom Vorzeichen des Korrelationskoeffizienten unseres Pearson können wir entweder eine negative oder positive Korrelation haben, wenn zwischen den Variablen unseres Datensatzes eine Beziehung besteht.
Der Bevölkerungskorrelationskoeffizient zwischen zwei zufällige Variablen und mit erwartete Werte und und Standardabweichungen und ist definiert als:
wo ist der erwarteter Wert Operator, meint Kovarianz, und ist eine weit verbreitete alternative Notation für den Korrelationskoeffizienten. Die Pearson -Korrelation wird nur definiert, wenn beide Standardabweichungen endlich und positiv sind. Eine alternative Formel nur in Bezug auf Momente ist:
Korrelation und Unabhängigkeit
Es ist eine Folge der Cauchy -Schwarz -Ungleichheit dass die absoluter Wert Der Pearson -Korrelationskoeffizient ist nicht größer als 1. Daher reicht der Wert eines Korrelationskoeffizienten zwischen -1 und +1. Der Korrelationskoeffizient beträgt +1 bei einer perfekten direkten (zunehmenden) linearen Beziehung (Korrelation), –1 im Fall einer perfekten inversen (abnehmenden) linearen Beziehung (Anti-Korrelation),[5] und ein gewisser Wert in der Offenes Intervall in allen anderen Fällen, was den Grad von angibt lineare Abhängigkeit zwischen den Variablen. Da es sich Null nähert, gibt es weniger eine Beziehung (näher an unkorrelierter). Je näher der Koeffizient entweder –1 oder 1 ist, desto stärker ist die Korrelation zwischen den Variablen.
Wenn die Variablen sind unabhängigDer Korrelationskoeffizient von Pearson beträgt 0, aber das Gegenteil ist nicht wahr, da der Korrelationskoeffizient nur lineare Abhängigkeiten zwischen zwei Variablen erfasst.
Nehmen wir zum Beispiel die zufällige Variable an ist symmetrisch ungefähr Null verteilt, und . Dann ist vollständig bestimmt durch , so dass und sind vollkommen abhängig, aber ihre Korrelation ist Null; sie sind unkorreliert. In dem Sonderfall jedoch wann und sind gemeinsam normalUnkorrelierte Unabhängigkeit entspricht.
Auch wenn unkorrelierte Daten nicht unbedingt Unabhängigkeit implizieren, kann man überprüfen, ob zufällige Variablen unabhängig sind, wenn ihre gegenseitige Information ist 0.
Probenkorrelationskoeffizient
Bei einer Reihe von einer Reihe von Messungen des Paares indiziert von , das Probenkorrelationskoeffizient Kann verwendet werden, um die Populations -Pearson -Korrelation abzuschätzen zwischen und . Der Probenkorrelationskoeffizient wird definiert als
wo und sind die Probe meint von und , und und sind die korrigierte Probenstandardabweichungen von und .
Äquivalente Ausdrücke für sind
wo und sind die unkorrigiert Beispiel Standardabweichungen von und .
Wenn und sind Ergebnisse von Messungen, die Messfehler enthalten, die realistischen Grenzen des Korrelationskoeffizienten sind nicht –1 bis +1, sondern einen kleineren Bereich.[6] Für den Fall eines linearen Modells mit einer einzelnen unabhängigen Variablen, die Bestimmungskoeffizient (R quadratisch) ist das Quadrat von , Pearsons Produktmomentkoeffizient.
Beispiel
Bedenke die Gelenkwahrscheinlichkeitsverteilung von X und Y in der Tabelle unten angegeben.
- yx
–1 0 1 0 0 1/3 0 1 1/3 0 1/3
Für diese gemeinsame Verteilung die Grenzverteilungen sind:
Dies ergibt die folgenden Erwartungen und Abweichungen:
Deswegen:
Rangkorrelationskoeffizienten
Rangkorrelation Koeffizienten wie z. Spearmans Rangkorrelationskoeffizient und Kendalls Rangkorrelationskoeffizient (τ) Messen Sie das Ausmaß, in dem sich die andere Variable mit zunehmender Variable neigt, ohne zu verlangen, dass die Erhöhung durch eine lineare Beziehung dargestellt wird. Wenn, wie die eine Variable steigt, der andere sinktDie Rangkorrelationskoeffizienten sind negativ. Es ist üblich, diese Rangkorrelationskoeffizienten als Alternativen zum Pearson-Koeffizienten zu betrachten, der entweder verwendet wird, um die Berechnung zu reduzieren oder den Koeffizienten weniger empfindlich gegenüber Nichtnormalität bei Verteilungen zu machen. Diese Ansicht hat jedoch eine geringe mathematische Grundlage, da die Rangkorrelationskoeffizienten eine andere Art von Beziehung messen als die Pearson-Produktmoment-Korrelationskoeffizientund werden am besten als Maßstäbe einer anderen Art von Assoziation angesehen und nicht als alternatives Maß für den Bevölkerungskorrelationskoeffizienten.[7][8]
Um die Art der Rangkorrelation und ihre Differenz von der linearen Korrelation zu veranschaulichen, betrachten Sie die folgenden vier Zahlenpaare :
- (0, 1), (10, 100), (101, 500), (102, 2000).
Wenn wir von jedem Paar zum nächsten Paar gehen Erhöht sich und auch . Diese Beziehung ist perfekt, in dem Sinne, dass eine Zunahme von ist stets begleitet von einer Zunahme von . Dies bedeutet, dass wir eine perfekte Rangkorrelation haben, und sowohl die Korrelationskoeffizienten von Spearman als auch die Kendall-Korrelationskoeffizienten betragen 1, während in diesem Beispiel Pearson-Produktmoment-Korrelationskoeffizient 0,7544 beträgt, was darauf hinweist, dass die Punkte weit davon entfernt sind, auf einer geraden Linie zu liegen. Auf die gleiche Weise wenn stets sinkt Wenn steigtDie Rangkorrelationskoeffizienten beträgt –1, während der Korrelationskoeffizient von Pearson-Produktmoment möglicherweise in der Nähe von –1 liegt oder nicht, je nachdem, wie nahe die Punkte an einer geraden Linie sind. Obwohl in den extremen Fällen der perfekten Rangkorrelation die beiden Koeffizienten beide gleich sind (sowohl +1 als auch beide –1), ist dies im Allgemeinen nicht der Fall, und daher können die Werte der beiden Koeffizienten nicht sinnvoll verglichen werden.[7] Zum Beispiel beträgt für die drei Paare (1, 1) (2, 3) (3, 2) der Spearman -Koeffizient 1/2, während Kendalls Koeffizient 1/3 beträgt.
Andere Abhängigkeitsmaße zwischen Zufallsvariablen
Die Informationen durch einen Korrelationskoeffizienten reichen nicht aus, um die Abhängigkeitsstruktur zwischen Zufallsvariablen zu definieren.[9] Der Korrelationskoeffizient definiert die Abhängigkeitsstruktur nur in sehr bestimmten Fällen vollständig, beispielsweise wenn die Verteilung a ist Multivariate Normalverteilung. (Siehe Diagramm oben.) Im Fall von Elliptische Verteilungen Es charakterisiert die (Hyper-) Ellipsen gleicher Dichte; Es charakterisiert jedoch die Abhängigkeitsstruktur nicht vollständig (z. B. a Multivariate T-Verteilung'S Freiheitsgrade bestimmen die Niveau der Schwanzabhängigkeit).
Entfernungskorrelation[10][11] wurde eingeführt, um den Mangel der Pearson -Korrelation anzugehen, dass sie für abhängige Zufallsvariablen Null sein kann; Die Korrelation der Distanznull impliziert Unabhängigkeit.
Der randomisierte Abhängigkeitskoeffizient[12] ist rechnerisch effizient, Kopula-Basis des Abhängigkeitsmaßes zwischen multivariaten Zufallsvariablen. RDC ist in Bezug auf nichtlineare Skalierungen zufälliger Variablen invariant, kann einen breiten Bereich von funktionalen Assoziationsmustern entdecken und bei der Unabhängigkeit den Wert Null nimmt.
Für zwei binäre Variablen die Wahrscheinlichkeit misst ihre Abhängigkeit und nimmt nicht negative Zahlen von Reichweite, möglicherweise unendlich: . Verwandte Statistiken wie z. Yule Y und Yule Q Normalisieren Sie dies auf den korrelationsähnlichen Bereich . Das Quotenverhältnis wird durch die verallgemeinert logistisches Modell modellieren Fälle, in denen die abhängigen Variablen diskret sind und es möglicherweise eine oder mehrere unabhängige Variablen geben.
Das Korrelationsverhältnis, Entropie-basierend gegenseitige Information, Gesamtkorrelation, Doppelte Gesamtkorrelation und Polychorische Korrelation sind alle auch in der Lage, allgemeinere Abhängigkeiten zu erkennen, ebenso wie die Berücksichtigung der Kopula zwischen ihnen, während die Bestimmtheitsmaß verallgemeinert den Korrelationskoeffizienten auf multiple Regression.
Empfindlichkeit gegenüber der Datenverteilung
Der Abhängigkeitsgrad zwischen Variablen X und Y Hängt nicht von der Skala ab, auf der die Variablen ausgedrückt werden. Das heißt, wenn wir die Beziehung zwischen analysieren X und YDie meisten Korrelationsmaßnahmen werden durch Transformation nicht beeinflusst X zu a + BX und Y zu c + Dy, wo a, b, c, und d sind Konstanten (b und d positiv sein). Dies gilt für eine Korrelation Statistiken Sowie ihre Population Analoga. Einige Korrelationsstatistiken, wie der Rangkorrelationskoeffizient, sind ebenfalls unveränderlich Monoton -Transformationen der Grenzverteilungen von X und/oder Y.
Die meisten Korrelationsmaßnahmen sind empfindlich auf die Art und Weise, in der X und Y werden abgetastet. Abhängigkeiten sind in der Regel stärker, wenn sie über einen größeren Wertebereich betrachtet werden. Wenn wir den Korrelationskoeffizienten zwischen den Höhen der Väter und ihren Söhnen über alle erwachsenen Männer betrachten und ihn mit demselben Korrelationskoeffizienten vergleichen schwächer im letzteren Fall. Es wurden verschiedene Techniken entwickelt, die versuchen, die Reichweite in einer oder beide Variablen zu korrigieren, und werden üblicherweise in der Metaanalyse verwendet. Am häufigsten sind die Gleichungen von Thorndike Fall II und Fall III.[13]
Für bestimmte gemeinsame Verteilungen von können verschiedene verwendete Korrelationsmaßnahmen nicht definiert werden X und Y. Zum Beispiel wird der Pearson -Korrelationskoeffizient in Bezug auf von definiert Momenteund daher wird undefiniert sein, wenn die Momente undefiniert sind. Abhängigkeitsmaße basierend auf Quantile sind immer definiert. Beispielbasierte Statistiken zur Schätzung der Abhängigkeit von Bevölkerung können wünschenswerte statistische Eigenschaften wie das Sein haben oder nicht. unvoreingenommen, oder asymptotisch konsistentbasierend auf der räumlichen Struktur der Bevölkerung, aus der die Daten abgetastet wurden.
Die Empfindlichkeit gegenüber der Datenverteilung kann zu einem Vorteil verwendet werden. Zum Beispiel, Skalierte Korrelation ist so konzipiert, dass die Empfindlichkeit gegenüber dem Bereich verwendet wird, um Korrelationen zwischen schnellen Komponenten der Zeitreihe auszuwählen.[14] Durch die Reduzierung des Wertebereichs kontrolliert werden die Korrelationen auf langer Zeitskala herausgefiltert und nur die Korrelationen auf kurzen Zeitskalen enthüllt.
Korrelationsmatrizen
Die Korrelationsmatrix von zufällige Variablen ist der Matrix, deren Eintrag ist . Somit sind die diagonalen Einträge alle identisch Einheit. Wenn die verwendeten Korrelationsmessungen Produktmomentkoeffizienten sind, ist die Korrelationsmatrix dieselbe wie die Kovarianzmatrix des Standardisierte Zufallsvariablen zum . Dies gilt sowohl für die Matrix der Bevölkerungskorrelationen (in diesem Fall ist die Bevölkerungsstandardabweichung) und zur Matrix der Stichprobenkorrelationen (in diesem Fall bezeichnet die Stichprobenstandardabweichung). Folglich ist jeder notwendigerweise a positive Semidfinitenmatrix. Darüber hinaus ist die Korrelationsmatrix ausschließlich positiv definitiv Wenn keine Variable alle ihre Werte genau als lineare Funktion der Werte der anderen generiert haben.
Die Korrelationsmatrix ist symmetrisch, weil die Korrelation zwischen und ist dasselbe wie die Korrelation zwischen und .
Eine Korrelationsmatrix erscheint beispielsweise in einer Formel für die Koeffizient der Mehrfachbestimmung, ein Maß für die Güte von Pass multiple Regression.
Im Statistische Modellierung, Korrelationsmatrizen, die die Beziehungen zwischen Variablen darstellen, werden in verschiedene Korrelationsstrukturen kategorisiert, die durch Faktoren wie die Anzahl der Parameter unterschieden werden, die zur Schätzung erforderlich sind. Zum Beispiel in einem austauschbar Korrelationsmatrix, alle Variablenpaare sind mit der gleichen Korrelation modelliert, sodass alle nicht-diagonalen Elemente der Matrix gleich sind. Andererseits an autoregressiv Matrix wird häufig verwendet, wenn Variablen eine Zeitreihe darstellen, da Korrelationen wahrscheinlich größer sind, wenn die Messungen näher sind. Andere Beispiele sind unabhängige, unstrukturierte, M-abhängige und Toeplitz.
Im Explorationsdatenanalyse, das Ikonographie der Korrelationen besteht darin, eine Korrelationsmatrix durch ein Diagramm zu ersetzen, in dem die „bemerkenswerten“ Korrelationen durch eine durchgezogene Linie (positive Korrelation) oder eine gepunktete Linie (negative Korrelation) dargestellt werden.
Die nächste gültige Korrelationsmatrix
In einigen Anwendungen (z. B. Erstellen von Datenmodellen aus nur teilweise beobachteten Daten) möchte man die "nächstgelegene" Korrelationsmatrix zu einer "ungefähren" Korrelationsmatrix finden berechnet wurde).
Im Jahr 2002 Higham[15] formalisierte den Begriff der Nähe mit dem FROBENIUS NORM und lieferte eine Methode zum Berechnen der nächsten Korrelationsmatrix mit der Dykstra -Projektionsalgorithmusvon denen eine Implementierung als Online -Web -API verfügbar ist.[16]
Dies weckte das Interesse an dem Subjekt mit neuer theoretischer (z. B. Berechnung der nächsten Korrelationsmatrix mit Faktorstruktur[17]) und numerisch (z. B. Verwendung der Verwendung Newtons Methode Zur Berechnung der nächsten Korrelationsmatrix[18]) Ergebnisse in den folgenden Jahren erhalten.
Ähnlich für zwei stochastische Prozesse und : Wenn sie unabhängig sind, dann sind sie unkorreliert.[19]: p. 151 Das Gegenteil dieser Aussage ist möglicherweise nicht wahr. Selbst wenn zwei Variablen nicht korreliert sind, sind sie möglicherweise nicht unabhängig.
Häufige Missverständnisse
Korrelation und Kausalität
Das konventionelle Diktum das "Die Korrelation impliziert keine Verursachung"bedeutet, dass Korrelation nicht alleine verwendet werden kann, um eine kausale Beziehung zwischen den Variablen zu schließen.[20] Dieses Diktum sollte nicht so bedacht werden, dass Korrelationen die potenzielle Existenz kausaler Beziehungen nicht anzeigen können. Die Ursachen, die der Korrelation zugrunde liegen, können jedoch indirekt und unbekannt sein, und hohe Korrelationen überschneiden sich auch mit Identität Beziehungen (Tautologien), wo kein kausaler Prozess existiert. Folglich ist eine Korrelation zwischen zwei Variablen keine ausreichende Bedingung, um eine kausale Beziehung (in beide Richtungen) herzustellen.
Eine Korrelation zwischen Alter und Größe bei Kindern ist ziemlich kausal transparent, aber eine Korrelation zwischen Stimmung und Gesundheit bei Menschen ist weniger. Führt eine verbesserte Stimmung zu einer verbesserten Gesundheit oder führt eine gute Gesundheit zu guter Laune oder beides? Oder unterliegt ein anderer Faktor beides? Mit anderen Worten, eine Korrelation kann als Beweis für eine mögliche kausale Beziehung angesehen werden, kann jedoch nicht angeben, wie die kausale Beziehung, wenn überhaupt, sein könnte.
Einfache lineare Korrelationen

Der Pearson -Korrelationskoeffizient zeigt die Stärke von a an linear Beziehung zwischen zwei Variablen, aber ihr Wert charakterisiert im Allgemeinen ihre Beziehung im Allgemeinen nicht vollständig.[21] Insbesondere wenn die bedingter Mittelwert von gegeben , bezeichnet , ist nicht linear in Der Korrelationskoeffizient bestimmt die Form von nicht vollständig .
Das angrenzende Bild zeigt Handlungsdiagramme von Anscombe Quartett, ein Satz von vier verschiedenen Variablenpaaren, die von erstellt wurden Francis Anscombe.[22] Die Vier Variablen haben den gleichen Mittelwert (7,5), Varianz (4,12), Korrelation (0,816) und Regressionslinie (Regressionslinie ()y= 3+0,5x). Wie auf den Parzellen zu sehen ist, ist die Verteilung der Variablen jedoch sehr unterschiedlich. Die erste (oben links) scheint normal verteilt zu sein und entspricht dem, was man erwarten würde, wenn zwei Variablen korreliert werden und nach der Annahme der Normalität nachgehen würden. Der zweite (oben rechts) ist normal nicht verteilt; Während eine offensichtliche Beziehung zwischen den beiden Variablen beobachtet werden kann, ist sie nicht linear. In diesem Fall zeigt der Pearson -Korrelationskoeffizient nicht, dass es eine genaue funktionale Beziehung gibt: Nur das Ausmaß, in dem diese Beziehung durch eine lineare Beziehung angenähert werden kann. Im dritten Fall (unten links) ist die lineare Beziehung mit Ausnahme eines perfekt Ausreißer Dies hat einen genügend Einfluss, um den Korrelationskoeffizienten von 1 bis 0,816 zu senken. Schließlich zeigt das vierte Beispiel (unten rechts) ein anderes Beispiel, wenn ein Ausreißer ausreicht, um einen hohen Korrelationskoeffizienten zu erzeugen, obwohl die Beziehung zwischen den beiden Variablen nicht linear ist.
Diese Beispiele zeigen, dass der Korrelationskoeffizient als a Zusammenfassungsstatistik, kann die visuelle Untersuchung der Daten nicht ersetzen. Die Beispiele sollen manchmal zeigen, dass die Pearson -Korrelation davon ausgeht, dass die Daten a folgen Normalverteilung, aber das ist nur teilweise korrekt.[4] Die Pearson -Korrelation kann für jede Verteilung, die ein endliches Verteilung aufweist, genau berechnet werden Kovarianzmatrix, einschließlich der meisten Verteilungen in der Praxis. Der Pearson -Korrelationskoeffizient (zusammen mit dem Stichprobenmittelwert und der Varianz) ist jedoch nur a ausreichende Statistik Wenn die Daten aus a gezeichnet werden Multivariate Normalverteilung. Infolgedessen charakterisiert der Pearson -Korrelationskoeffizient die Beziehung zwischen Variablen vollständig, wenn die Daten aus einer multivariaten Normalverteilung stammen.
Bivariate Normalverteilung
Wenn ein Paar von zufälligen Variablen folgt a bivariate Normalverteilung, der bedingte Mittel ist eine lineare Funktion von und der bedingte Mittel ist eine lineare Funktion von . Der Korrelationskoeffizient zwischen und , zusammen mit Rand Mittel und Abweichungen von und bestimmt diese lineare Beziehung:
wo und sind die erwarteten Werte von und jeweils und und sind die Standardabweichungen von und , beziehungsweise.
Die empirische Korrelation ist ein schätzen des Korrelationskoeffizienten . Eine Verteilungsschätzung für wird gegeben von
Siehe auch
- Autokorrelation
- Kanonische Korrelation
- Bestimmtheitsmaß
- Kointegration
- Konkordanzkorrelationskoeffizient
- Kophenetische Korrelation
- Korrelationsfunktion
- Korrelationslücke
- Kovarianz
- Kovarianz und Korrelation
- Kreuzkorrelation
- Ökologische Korrelation
- Varianzanteil ungeklärt
- Genetische Korrelation
- Goodman and Kruskal's lambda
- Ikonographie der Korrelationen
- Illusorische Korrelation
- Interklassenkorrelation
- Intraclass -Korrelation
- Heben (Data Mining)
- Mittlere Abhängigkeit
- Veränderbares Problem mit der Flächeneinheit
- Mehrfachkorrelation
- Point-Biserial-Korrelationskoeffizient
- Quadrantenzählungsverhältnis
- Falsche Korrelation
- Statistische Arbitrage
- Subintenz
Verweise
- ^ Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Angewandte allgemeine Statistik, Pitman. ISBN9780273403159 (Seite 625)
- ^ Dietrich, Cornelius Frank (1991) Unsicherheit, Kalibrierung und Wahrscheinlichkeit: Die Statistik der wissenschaftlichen und industriellen Messung 2. Auflage, A. Higler. ISBN9780750300605 (Seite 331)
- ^ Aitken, Alexander Craig (1957) Statistische Mathematik 8. Ausgabe. Oliver & Boyd. ISBN9780050013007 (Seite 95)
- ^ a b Rodgers, J. L.; NiceWander, W. A. (1988). "Dreizehn Möglichkeiten, um den Korrelationskoeffizienten zu betrachten". Der amerikanische Statistiker. 42 (1): 59–66. doi:10.1080/00031305.1988.10475524. JStor 2685263.
- ^ Dowdy, S. und Wearden, S. (1983). "Statistik für Forschung", Wiley. ISBN0-471-08602-9 S. 230
- ^ Francis, DP; Mäntel AJ; Gibson D (1999). "Wie hoch kann ein Korrelationskoeffizient sein?". Int J Cardiol. 69 (2): 185–199. doi:10.1016/s0167-5273 (99) 00028-5. PMID 10549842.
- ^ a b Yule, G.U und Kendall, M.G. (1950), "Eine Einführung in die Theorie der Statistik", 14. Ausgabe (5. Eindruck 1968). Charles Griffin & Co. S. 258–270
- ^ Kendall, M. G. (1955) "Rang -Korrelationsmethoden", Charles Griffin & Co.
- ^ Mahdavi Damghani B. (2013). "Der nicht mislasingierende Wert der abgeleiteten Korrelation: eine Einführung in das Kointelationsmodell". Wilmott Magazine. 2013 (67): 50–61. doi:10.1002/wilm.10252.
- ^ Székely, G. J. Rizzo; Bakirov, N. K. (2007). "Messen und Testen der Unabhängigkeit durch Korrelation von Entfernungen". Annals of Statistics. 35 (6): 2769–2794. Arxiv:0803.4101. doi:10.1214/009053607000000505. S2CID 5661488.
- ^ Székely, G. J.; Rizzo, M. L. (2009). "Brownsche Entfernung Kovarianz". Annalen der angewandten Statistiken. 3 (4): 1233–1303. Arxiv:1010.0297. doi:10.1214/09-AOAS312. PMC 2889501. PMID 20574547.
- ^ Lopez-Paz D. und Hennig P. und Schölkopf B. (2013). "Der randomisierte Abhängigkeitskoeffizient", "Konferenz über neuronale Informationsverarbeitungssysteme" Abdruck
- ^ Thorndike, Robert Ladd (1947). Forschungsprobleme und -techniken (Bericht Nr. 3). Washington DC: US Govt. drucken. aus.
- ^ Nikolić, D; Muresan, RC; Feng, W; Sänger, W (2012). "Skalierte Korrelationsanalyse: Eine bessere Möglichkeit, ein Kreuzkorrelogramm zu berechnen". Europäisches Journal of Neurowissenschaften. 35 (5): 1–21. doi:10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.
- ^ Higham, Nicholas J. (2002). "Berechnung der nächsten Korrelationsmatrix - ein Problem aus der Finanzierung". IMA Journal of Numerical Analysis. 22 (3): 329–343. Citeseerx 10.1.1.661.2180. doi:10.1093/Imanum/22.3.329.
- ^ "Portfolio Optimierer". Portfoliooptimizer.io/. Abgerufen 2021-01-30.
- ^ Borsdorf, RUDIGER; Higham, Nicholas J.; Raydan, Marcos (2010). "Berechnung einer nächsten Korrelationsmatrix mit Faktorstruktur" (PDF). Siam J. Matrix Anal. Appl. 31 (5): 2603–2622. doi:10.1137/090776718.
- ^ Qi, Houduo; Sun, Defeng (2006). "Eine quadratisch konvergente Newton -Methode zur Berechnung der nächsten Korrelationsmatrix". Siam J. Matrix Anal. Appl. 28 (2): 360–385. doi:10.1137/050624509.
- ^ Park, Kun IL (2018). Grundlagen der Wahrscheinlichkeit und stochastischen Prozesse mit Anwendungen für die Kommunikation. Springer. ISBN 978-3-319-68074-3.
- ^ Aldrich, John (1995). "Korrelationen echt und falsch in Pearson und Yule". Statistische Wissenschaft. 10 (4): 364–376. doi:10.1214/ss/1177009870. JStor 2246135.
- ^ Mahdavi Damghani, Babak (2012). "Der irreführende Wert der gemessenen Korrelation". Wilmott Magazine. 2012 (1): 64–73. doi:10.1002/wilm.10167. S2CID 154550363.
- ^ Anscombe, Francis J. (1973). "Diagramme in der statistischen Analyse". Der amerikanische Statistiker. 27 (1): 17–21. doi:10.2307/2682899. JStor 2682899.
- ^ Taraldsen, Gunnar (2021). "Die Vertrauensdichte für Korrelation". Sankhya a. doi:10.1007/s13171-021-00267-y. ISSN 0976-8378. S2CID 244594067.
- ^ Taraldsen, Gunnar (2020). "Vertrauen in die Korrelation". doi:10.13140/rg.2.2.23673.49769.
{{}}
: Journal zitieren erfordert|journal=
(Hilfe)
Weitere Lektüre
- Cohen, J.; Cohen P.; West, S.G. & Aiken, L.S. (2002). Angewandte multiple Regressions-/Korrelationsanalyse für die Verhaltenswissenschaften (3. Aufl.). Psychologiepresse. ISBN 978-0-8058-2223-6.
- "Korrelation (in Statistiken)", Enzyklopädie der Mathematik, EMS Press, 2001 [1994]
- Oestreicher, J. & D. R. (26. Februar 2015). Gleichen Plag: Ein Wissenschaftsthriller internationaler Krankheiten, Politik und Drogenentdeckung. Kalifornien: Omega Cat Press. p. 408. ISBN 978-0963175540.
Externe Links
- MathWorld-Seite auf dem (Kreuz-) Korrelationskoeffizienten/s einer Probe
- Signifikanz zwischen zwei Korrelationen berechnenzum Vergleich von zwei Korrelationswerten.
- "Eine Matlab -Toolbox zum Berechnen gewichteter Korrelationskoeffizienten". Archiviert von das Original am 24. April 2021.
- Beweis dafür
- Interaktive Flash -Simulation bei der Korrelation von zwei normal verteilten Variablen Von Juha Puranen.
- Korrelationsanalyse.Biomedizinische Statistik
- R-Psychologe Korrelation Visualisierung der Korrelation zwischen zwei numerischen Variablen