Verteilungsfunktion


Im Wahrscheinlichkeitstheorie und Statistiken, das Verteilungsfunktion (CDF) eines realen Werts zufällige Variable , oder nur Verteilungsfunktion von , bewertet bei , ist der Wahrscheinlichkeit das nimmt einen Wert weniger als oder gleich .[1]
Jede Wahrscheinlichkeitsverteilung unterstützt auf die realen Zahlen, diskret oder "gemischt" und kontinuierlich, wird durch ein einzigartig identifiziert nach oben kontinuierlich[2] monotoner Anstieg Verteilungsfunktion befriedigend und .
Im Falle eines Skalars kontinuierliche Verteilung, es gibt den Bereich unter dem Wahrscheinlichkeitsdichtefunktion Von Minus unendlich bis . Kumulative Verteilungsfunktionen werden auch verwendet, um die Verteilung von Multivariate Zufallsvariablen.
Definition
Die kumulative Verteilungsfunktion eines realen Werts zufällige Variable ist die Funktion gegeben durch[3]: p. 77
|
| (Gl. 1) |
wo die rechte Seite die repräsentiert Wahrscheinlichkeit dass die zufällige Variable nimmt einen Wert weniger als oder gleich zu .
Die Wahrscheinlichkeit, dass Lügen in der halbbezogenen Liege Intervall , wo , ist deshalb[3]: p. 84
|
| (Gl. 2) |
In der obigen Definition ist das "weniger oder gleich" Zeichen "≤" eine Konvention, keine allgemein verwendete (z. B. ungarische Literatur verwendet "<"), aber die Unterscheidung ist für diskrete Verteilungen wichtig. Die ordnungsgemäße Verwendung von Tabellen der Binomial- und Poisson -Verteilungen hängt von dieser Konvention ab. Darüber hinaus mögen wichtige Formeln Paul LévyInversionsformel für die charakteristische Funktion verlassen sich auch auf die "weniger oder gleiche" Formulierung.
Wenn Sie mehrere zufällige Variablen behandeln usw. Die entsprechenden Buchstaben werden als Index verwendet, während das Index normalerweise weggelassen wird. Es ist konventionell, ein Kapital zu verwenden für eine kumulative Verteilungsfunktion im Gegensatz zum Unterfall benutzt für Wahrscheinlichkeitsdichtefunktionen und Wahrscheinlichkeitsmassenfunktionen. Dies gilt bei der Erörterung allgemeiner Verteilungen: Einige spezifische Verteilungen haben ihre eigene konventionelle Notation, zum Beispiel die Normalverteilung Verwendet und Anstatt von und , beziehungsweise.
Die Wahrscheinlichkeitsdichtefunktion einer kontinuierlichen Zufallsvariablen kann aus der kumulativen Verteilungsfunktion durch Differenzierung bestimmt werden[4] Verwendung der Grundsatz des Kalküls; d.h. gegeben Anwesend
Der CDF von a kontinuierliche Zufallsvariable kann als Integral seiner Wahrscheinlichkeitsdichtefunktion ausgedrückt werden folgendermaßen:[3]: p. 86
Im Falle einer zufälligen Variablen die Verteilung mit einer diskreten Komponente zu einem Wert hat Anwesend
Wenn ist kontinuierlich bei Dies entspricht Null und es gibt keine diskrete Komponente bei .
Eigenschaften

Jede kumulative Verteilungsfunktion ist nicht dekretierend[3]: p. 78 und rechtskontinuierlich,[3]: p. 79 was es zu einem macht Càdlàg Funktion. Außerdem,
Jede Funktion mit diesen vier Eigenschaften ist ein CDF, d. H. Für jede solche Funktion a zufällige Variable Kann so definiert werden, dass die Funktion die kumulative Verteilungsfunktion dieser zufälligen Variablen ist.
Wenn ist rein diskrete Zufallsvariabledann erreicht es Werte mit Wahrscheinlichkeit und der CDF von wird sein diskontinuierlich an den Punkten :
Wenn die CDF einer real geschätzten Zufallsvariable ist kontinuierlich, dann ist ein kontinuierliche Zufallsvariable; Wenn weiterhin ist absolut kontinuierlichdann gibt es a Lebesgue-integrierbar Funktion so dass
Beispiele
Als Beispiel annehmen ist gleichmäßig verteilt auf dem Einheitsintervall .
Dann der CDF von wird gegeben von
Angenommen, stattdessen Nimmt nur die diskreten Werte 0 und 1 mit gleicher Wahrscheinlichkeit.
Dann der CDF von wird gegeben von
Vermuten ist exponentiell verteilt. Dann der CDF von wird gegeben von
Hier λ > 0 ist der Parameter der Verteilung, der häufig als Ratenparameter bezeichnet wird.
Vermuten ist normal verteilt. Dann der CDF von wird gegeben von
Hier der Parameter ist der Mittelwert oder die Erwartung der Verteilung; und ist seine Standardabweichung.
Vermuten ist Binomial verteilt. Dann der CDF von wird gegeben von
Hier ist die Erfolgswahrscheinlichkeit und die Funktion bezeichnet die diskrete Wahrscheinlichkeitsverteilung der Anzahl der Erfolge in einer Abfolge von unabhängige Experimente und ist der "Boden" unter , d.h. die größte Ganzzahl weniger als oder gleich .
Abgeleitete Funktionen
Komplementäre kumulative Verteilungsfunktion (Schwanzverteilung)
Manchmal ist es nützlich, die entgegengesetzte Frage zu studieren und zu fragen, wie oft die zufällige Variable ist Oben eine bestimmte Ebene. Dies nennt man die Komplementäre kumulative Verteilungsfunktion (CCDF) oder einfach die Schwanzverteilung oder Überschreitungund ist definiert als
Dies hat Anwendungen in statistisch Hypothesentestzum Beispiel, weil die einseitigen p-Wert ist die Wahrscheinlichkeit, eine Teststatistik zu beobachten wenigstens so extrem wie die beobachtete. So, vorausgesetzt, dass die Teststatistik, T, hat eine kontinuierliche Verteilung, die einseitige p-Wert wird einfach durch das CCDF gegeben: für einen beobachteten Wert der Teststatistik
Im Überlebensanalyse, wird genannt Überlebensfunktion und bezeichnet während der Begriff Zuverlässigkeitsfunktion ist häufig in Ingenieurwesen.
Z-Tisch:
Eine der beliebtesten Anwendungen der kumulativen Verteilungsfunktion ist Standard -Normaltabelle, auch die genannt Normaltabelle Einheit oder Z Tabelle,[5] ist der Wert der kumulativen Verteilungsfunktion der Normalverteilung. Es ist sehr nützlich, Z-Tisch nicht nur für Wahrscheinlichkeiten unterhalb eines Wertes zu verwenden, bei dem die ursprüngliche Anwendung der kumulativen Verteilungsfunktion, sondern auch über und/oder zwischen Werten für die Standardnormalverteilung und auf jede Normalverteilung erweitert wurde.
- Eigenschaften
- Für eine nicht negative kontinuierliche Zufallsvariable mit einer Erwartung, Markovs Ungleichheit besagt, dass[6]
- Wie , Und tatsächlich unter der Vorraussetzung, dass ist endlich.
Nachweisen:
Assuming hat eine Dichtefunktion für jeden - Für eine zufällige Variable mit einer Erwartung,
Wenn die zufällige Variable nur nicht negative Ganzzahlwerte annehmen kann, entspricht dies zu
Gefaltete kumulative Verteilung

Während das Diagramm einer kumulativen Verteilung oft eine s-ähnliche Form hat, ist eine alternative Abbildung die gefaltete kumulative Verteilung oder Berg Grundstück, was die obere Hälfte des Diagramms faltet,[7][8] So unter Verwendung von zwei Skalen, eine für den Höhenmesser und eine für den Downslope. Diese Form der Illustration betont die Median, Dispersion (speziell die mittlere absolute Abweichung vom Median[9]) und Schiefe der Verteilung oder der empirischen Ergebnisse.
Inverse Verteilungsfunktion (Quantilfunktion)
Wenn die CDF F ist dann streng zunehmend und kontinuierlich ist die eindeutige reelle Zahl so dass . In einem solchen Fall definiert dies die Inverse Verteilungsfunktion oder Quantilfunktion.
Einige Verteilungen haben keine einzigartige Umkehrung (z. B. für den Fall, wo für alle , verursachen konstant sein). Dieses Problem kann durch Definition gelöst werden, denn , das Verallgemeinerte umgekehrte Verteilungsfunktion:
- Beispiel 1: Der Median ist .
- Beispiel 2: Setzen Sie . Dann rufen wir an das 95. Perzentil.
Einige nützliche Eigenschaften des inversen CDF (die auch in der Definition der verallgemeinerten inversen Verteilungsfunktion erhalten bleiben) sind:
- ist nicht dargestellt
- dann und nur dann, wenn
- Wenn hat ein Verteilung dann ist verteilt als . Dies wird in verwendet Zufällige Zahlengenerierung Verwendung der Inverse Transform -Probenahme-Methode.
- Wenn ist eine Sammlung von Independent -Verteilte zufällige Variablen, die auf demselben Stichprobenraum definiert sind, gibt es zufällige Variablen so dass ist verteilt als und mit Wahrscheinlichkeit 1 für alle .
Die Umkehrung des CDF kann verwendet werden, um die für die einheitlichen Verteilung erhaltenen Ergebnisse in andere Verteilungen zu übersetzen.
Empirische Verteilungsfunktion
Das Empirische Verteilungsfunktion ist eine Schätzung der kumulativen Verteilungsfunktion, die die Punkte in der Stichprobe generierte. Es konvergiert mit der Wahrscheinlichkeit 1 zu dieser zugrunde liegenden Verteilung. Es gibt eine Reihe von Ergebnissen, um die Konvergenzrate der empirischen Verteilungsfunktion zur zugrunde liegenden kumulativen Verteilungsfunktion zu quantifizieren.
Multivariater Fall
Definition für zwei zufällige Variablen
Wenn Sie gleichzeitig mit mehr als einer zufälligen Variablen umgehen gemeinsame kumulative Verteilungsfunktion kann auch definiert werden. Zum Beispiel für ein Paar zufällige Variablen , die gemeinsame CDF wird gegeben von[3]: p. 89
|
| (Gl. 3) |
wo die rechte Seite die repräsentiert Wahrscheinlichkeit dass die zufällige Variable nimmt einen Wert weniger als oder gleich zu und das nimmt einen Wert weniger als oder gleich zu .
Beispiel für die gemeinsame kumulative Verteilungsfunktion:
Für zwei kontinuierliche Variablen X und Y:
Für zwei diskrete Zufallsvariablen ist es vorteilhaft, eine Wahrscheinlichkeitstabelle zu generieren und die kumulative Wahrscheinlichkeit für jeden potenziellen Bereich von zu behandeln X und Yund hier ist das Beispiel:[10]
Bestimmen Sie angesichts der Gelenkwahrscheinlichkeitsmassenfunktion in tabellarischer Form die Funktion des gemeinsamen kumulativen Verteilungsfunktion.
Y = 2 | Y = 4 | Y = 6 | Y = 8 | |
X = 1 | 0 | 0,1 | 0 | 0,1 |
X = 3 | 0 | 0 | 0,2 | 0 |
X = 5 | 0,3 | 0 | 0 | 0,15 |
X = 7 | 0 | 0 | 0,15 | 0 |
Lösung: Verwenden der angegebenen Tabelle der Wahrscheinlichkeiten für jeden potenziellen Bereich von X und YDie gemeinsame kumulative Verteilungsfunktion kann in tabellarischer Form konstruiert werden:
Y < 2 | 2 ≤ Y < 4 | 4 ≤ Y < 6 | 6 ≤ Y < 8 | Y ≥ 8 | |
X < 1 | 0 | 0 | 0 | 0 | 0 |
1 ≤ X < 3 | 0 | 0 | 0,1 | 0,1 | 0,2 |
3 ≤ X < 5 | 0 | 0 | 0,1 | 0,3 | 0,4 |
5 ≤ X < 7 | 0 | 0,3 | 0,4 | 0,6 | 0,85 |
X ≥ 7 | 0 | 0,3 | 0,4 | 0,75 | 1 |
Definition für mehr als zwei zufällige Variablen
Zum zufällige Variablen , die gemeinsame CDF wird gegeben von
|
| (Gl. 4) |
Interpretieren der zufällige Variablen als zufälliger Vektor ergibt eine kürzere Notation:
Eigenschaften
Jeder multivariate CDF ist:
- Monotonisch nicht abgeschreckt für jede seiner Variablen,
- Rechtskontinuierlich in jeder seiner Variablen,
Jede Funktion, die die oben genannten vier Eigenschaften erfüllt, ist im Gegensatz zum Einzeldimensionsfall keine multivariate CDF. Zum Beispiel lassen zum oder oder und lass Andernfalls. Es ist leicht zu erkennen, dass die oben genannten Bedingungen erfüllt sind und doch ist kein CDF, da dann, wenn es so wäre, dann wie unten erläutert.
Die Wahrscheinlichkeit, dass ein Punkt zu a gehört Hyperrectangle ist analog zum 1-dimensionalen Fall:[11]
Komplexer Fall
Komplexe zufällige Variable
Die Verallgemeinerung der kumulativen Verteilungsfunktion von real bis Komplexe zufällige Variablen ist nicht offensichtlich, weil Ausdrücke der Form ergibt keinen Sinn. Allerdings Ausdrücke der Form Sinn ergeben. Daher definieren wir die kumulative Verteilung einer komplexen Zufallsvariablen über die Gelenkverteilung ihrer realen und imaginären Teile:
Komplexer Zufallsvektor
Verallgemeinerung von Gl. 4 ergibt
Verwendung in der statistischen Analyse
Das Konzept der kumulativen Verteilungsfunktion tritt auf zwei (ähnliche) Arten explizit in der statistischen Analyse auf. Kumulative Frequenzanalyse ist die Analyse der Häufigkeit des Auftretens von Werten eines Phänomens unter einem Referenzwert. Das Empirische Verteilungsfunktion ist eine formale direkte Schätzung der kumulativen Verteilungsfunktion, für die einfache statistische Eigenschaften abgeleitet werden können und die die Grundlage für verschiedene bilden können Statistische Hypothesentests. Solche Tests können beurteilen, ob es Hinweise darauf gibt, dass eine Stichprobe von Daten aus einer bestimmten Verteilung entstanden ist, oder Hinweise auf zwei Datenproben von Daten, die aus derselben (unbekannten) Bevölkerungsverteilung entstanden sind.
Kolmogorov -Smirnov- und Kuiper -Tests
Das Kolmogorov -Smirnov -Test basiert auf kumulativen Verteilungsfunktionen und kann verwendet werden, um zu testen, ob zwei empirische Verteilungen unterschiedlich sind oder ob sich eine empirische Verteilung von einer idealen Verteilung unterscheidet. Die eng verwandten Kuiper's Test ist nützlich, wenn die Domäne der Verteilung wie am Wochentag zyklisch ist. Zum Beispiel könnte der Kuiper -Test verwendet werden, um festzustellen, ob die Anzahl der Tornados im Jahr variiert oder ob der Verkauf eines Produkts bis zum Tag der Woche oder des Monats am Tag variiert.
Siehe auch
Verweise
- ^ Deisenroth, Marc Peter; Faisal, A. Aldo; Ong, Cheng bald (2020). Mathematik für maschinelles Lernen. Cambridge University Press. p. 181. ISBN 9781108455145.
- ^ Hüseyin Çakallı (2015). "Aufwärts- und Abwärtsstatistische Kontinuitäten". Filomat. 29 (10): 2265–2273. doi:10.2298/fil1510265c. JStor 24898386. S2CID 58907979.
- ^ a b c d e f Park, Kun IL (2018). Grundlagen der Wahrscheinlichkeit und stochastischen Prozesse mit Anwendungen für die Kommunikation. Springer. ISBN 978-3-319-68074-3.
- ^ Montgomery, Douglas C.; Runger, George C. (2003). Angewandte Statistiken und Wahrscheinlichkeit für Ingenieure (PDF). John Wiley & Sons, Inc. p. 104. ISBN 0-471-20454-4.
- ^ "Z Tabelle". Z Tabelle. Abgerufen 2019-12-11.
- ^ Zwillinger, Daniel; Kokoska, Stephen (2010). CRC -Standardwahrscheinlichkeits- und Statistiktabellen und Formeln. CRC Press. p. 49. ISBN 978-1-58488-059-2.
- ^ Gentle, J. E. (2009). Computerstatistik. Springer. ISBN 978-0-387-98145-1. Abgerufen 2010-08-06.[Seite benötigt]
- ^ Monti, K. L. (1995). "Gefaltete empirische Verteilungsfunktionskurven (Bergplots)". Der amerikanische Statistiker. 49 (4): 342–345. doi:10.2307/2684570. JStor 2684570.
- ^ Xue, J. H.; Titterington, D. M. (2011). "Die P-gefaltete kumulative Verteilungsfunktion und die mittlere absolute Abweichung vom P-Quantil" (PDF). Statistik und Wahrscheinlichkeitsbriefe. 81 (8): 1179–1182. doi:10.1016/j.spl.2011.03.014.
- ^ "Gelenkkumulative Verteilungsfunktion (CDF)". math.info. Abgerufen 2019-12-11.
- ^ "Archivierte Kopie" (PDF). www.math.wustl.edu. Archiviert von das Original (PDF) am 22. Februar 2016. Abgerufen 13. Januar 2022.
{{}}
: CS1 Wartung: Archiviertes Kopie als Titel (Link)
Externe Links
-
Medien im Zusammenhang mit kumulativen Verteilungsfunktionen bei Wikimedia Commons