Ausreichende Statistik

Im Statistiken, a Statistik ist reicht aus in Bezug auf a Statistisches Modell und sein assoziiert unbekannt Parameter Wenn "keine andere Statistik, die aus demselben berechnet werden kann Probe Bietet zusätzliche Informationen zum Wert des Parameters.[1] Insbesondere ist eine Statistik für a ausreichend Familie von Wahrscheinlichkeitsverteilungen Wenn die Stichprobe, aus der sie berechnet wird Stichprobenverteilung.

Ein verwandtes Konzept ist das von linearer Genauigkeit, was schwächer ist als ausreichend kann jedoch in einigen Fällen angewendet werden, in denen es keine ausreichende Statistik gibt, obwohl sie auf lineare Schätzer beschränkt ist.[2] Das Kolmogorov -Strukturfunktion befasst sich mit individuellen endlichen Daten; Der damit verbundene Begriff ist die algorithmische Statistik.

Das Konzept ist auf Sir Ronald Fisher 1920 stellte Stephen Stigler 1973 fest, dass das Konzept der Genehmigung in Ungnade gefallen war beschreibende Statistik Wegen der starken Abhängigkeit von einer Annahme der Verteilungsform (siehe Pitman -Koopman -Darmois -Theorem unten), blieb aber in theoretischen Arbeit sehr wichtig.[3]

Hintergrund

Ungefähr ein Satz gegeben von unabhängig identisch verteilt Daten, die auf einem unbekannten Parameter konditioniert sind , eine ausreichende Statistik ist eine Funktion deren Wert alle Informationen enthält, die zur Berechnung einer Schätzung des Parameters erforderlich sind (z. B. a Maximale Wahrscheinlichkeit schätzen). Aufgrund des Faktorisierungssatzes (siehe unten) für eine ausreichende Statistik Die Wahrscheinlichkeitsdichte kann geschrieben werden . Aus dieser Faktorisierung ist leicht ersichtlich, dass die maximale Wahrscheinlichkeitsschätzung von wird mit nur durch . Typischerweise ist die ausreichende Statistik eine einfache Funktion der Daten, z. Die Summe aller Datenpunkte.

Allgemeiner kann der "unbekannte Parameter" a darstellen Vektor von unbekannten Größen oder kann alles an dem Modell darstellen, das unbekannt oder nicht vollständig angegeben ist. In einem solchen Fall kann die ausreichende Statistik eine Reihe von Funktionen sein, die als a genannt werden gemeinsam ausreichende Statistik. Normalerweise gibt es so viele Funktionen wie Parameter. Zum Beispiel für a Gaußsche Verteilung mit unbekannt bedeuten und Varianz, Die gemeinsam ausreichende Statistik, aus der die maximalen Wahrscheinlichkeitsschätzungen beider Parameter geschätzt werden können, besteht aus zwei Funktionen, der Summe aller Datenpunkte und der Summe aller quadratischen Datenpunkte (oder äquivalent die Probenmittelwert und Stichprobenvarianz).

Das Konzept entspricht der Aussage, dass, bedingt Auf dem Wert einer ausreichenden Statistik für einen Parameter die Gelenkwahrscheinlichkeitsverteilung der Daten hängt nicht von diesem Parameter ab. Sowohl die Statistik als auch der zugrunde liegende Parameter können Vektoren sein.

Mathematische Definition

Eine Statistik t=T(X) ist ausreichend für den zugrunde liegenden Parameter θ genau, wenn die Bedingte Wahrscheinlichkeitsverteilung der Daten XAngesichts der Statistik t=T(X), hängt nicht vom Parameter ab θ.[4]

Alternativ kann man die Statistik sagenT(X) ist ausreichend für θ wenn es gegenseitige Information mit θ entspricht der gegenseitigen Informationen zwischen X und θ.[5] Mit anderen Worten, die Datenverarbeitung Ungleichheit wird eine Gleichheit:

Beispiel

Beispielsweise reicht der Stichprobenmittelwert für den Mittelwert aus (ausreichend (μ) von a Normalverteilung mit bekannter Varianz. Sobald der Stichprobenmittelwert bekannt ist, keine weiteren Informationen darüber μ kann aus der Probe selbst erhalten werden. Andererseits für eine willkürliche Verteilung die Median ist nicht ausreichend für den Mittelwert: Auch wenn der Median der Stichprobe bekannt ist, würde das Wissen, dass die Stichprobe selbst weitere Informationen über den Bevölkerungswert liefern würde. Wenn beispielsweise die Beobachtungen, die weniger als der Median sind, nur geringfügig sind, die Beobachtungen, die den Median überschreiten, ihn jedoch um einen großen Betrag überschreiten, würde dies einen Einfluss auf die Folge des Bevölkerungsmittelwerts haben.

Fisher -Anneyman -Faktorisierungssatz

Fischer Faktorisierungssatz oder Faktorisierungskriterium Bietet einen bequemen Charakterisierung einer ausreichenden Statistik. Wenn die Wahrscheinlichkeitsdichtefunktion ist ƒθ(x), dann T ist ausreichend für θ dann und nur dann, wenn Nichtnegative Funktionen g und h kann so gefunden werden, dass

d.h. die Dichte ƒ kann in ein Produkt berücksichtigt werden, so dass ein Faktor, h, hängt nicht ab von θ und der andere Faktor, der davon abhängt θ, kommt drauf an x nur durch T(x).

Es ist leicht zu erkennen, wenn F(t) ist eine Eins-zu-Eins-Funktion und T ist dann eine ausreichende Statistik F(T) ist eine ausreichende Statistik. Insbesondere können wir eine ausreichende Statistik mit einer Konstante ungleich Null multiplizieren und eine andere ausreichende Statistik erhalten.

Wahrscheinlichkeit Prinzipinterpretation

Eine Implikation des Satzes ist, dass bei Verwendung von Wahrscheinlichkeitsbasis zwei Datensätze für die ausreichende Statistik den gleichen Wert ergeben T(X) liefert immer die gleichen Schlussfolgerungen über θ. Nach dem Faktorisierungskriterium die Abhängigkeit der Wahrscheinlichkeit von der Wahrscheinlichkeit θ ist nur in Verbindung mit T(X). Da dies in beiden Fällen gleich ist, die Abhängigkeit von θ wird ebenfalls gleich sein, was zu identischen Schlussfolgerungen führt.

Nachweisen

Aufgrund von Hogg und Craig.[6] Lassen bezeichnen eine Zufallsstichprobe aus einer Verteilung mit der PDF f(xAnwesendθ) zum ι<θ<δ. Lassen Y1=u1(X1AnwesendX2, ...,Xn) eine Statistik sein, deren PDF ist g1(y1;θ). Was wir beweisen wollen, ist das Y1=u1(X1, X2, ...,Xn) ist eine ausreichende Statistik für θ Wenn und nur wenn, für eine Funktion HAnwesend

Nehmen wir zunächst an, das

Wir werden die Transformation machen yi=ui(x1Anwesendx2, ...,xn), zum i= 1, ...,n, umgekehrte Funktionen haben xi=wi(y1Anwesendy2, ...,yn), zum i= 1, ...,n, und Jacobian . Daher,

Das linke Mitglied ist das gemeinsame PDF g(y1, y2, ..., yn; θ) von Y1 = u1(X1, ..., Xn), ..., Yn = un(X1, ..., Xn). Im rechten Mitglied, ist der PDF von , so dass ist der Quotient von und ; Das heißt, es ist die bedingte PDF von gegeben .

Aber , und somit , wurde gegeben, um nicht abhängig zu sein . Seit wurde nicht in der Transformation eingeführt und dementsprechend nicht im Jakobier , es folgt dem hängt nicht von abhängig von und das ist eine ausreichende Statistik für .

Das Gegenteil wird durch Einnahme nachgewiesen:

wo hängt nicht von abhängig von Weil abhängig nur von , die unabhängig sind wenn konditioniert von , eine ausreichende Statistik durch Hypothese. Teilen Sie nun beide Mitglieder durch den absoluten Wert des nicht flüchtigen Jakobiers , und ersetzen durch die Funktionen in . Dies ergibt

wo ist der Jakobier mit ersetzt durch ihren Wert in Begriffen . Das linke Mitglied ist notwendigerweise das gemeinsame PDF von . Seit , und somit , hängt nicht ab von , dann

ist eine Funktion, die nicht abhängig ist .

Ein weiterer Beweis

Ein einfacherer veranschaulichenderer Beweis ist wie folgt, obwohl er nur im diskreten Fall gilt.

Wir verwenden die Abkürzungsnotation, um die gemeinsame Wahrscheinlichkeitsdichte von zu bezeichnen durch . Seit ist eine Funktion von , wir haben , so lange wie und null sonst. Deswegen:

mit der letzten Gleichheit, die durch die Definition ausreichender Statistiken wahr ist. Daher mit und .

Umgekehrt, wenn , wir haben

Mit der ersten Gleichheit durch die Definition von PDF für mehrere Variablen, die zweite nach der obigen Bemerkung, die dritte nach Hypothese und die vierte, weil die Summierung nicht vorbei ist .

Lassen bezeichnen die bedingte Wahrscheinlichkeitsdichte von gegeben . Dann können wir dafür einen expliziten Ausdruck abgeben:

Mit der ersten Gleichheit per Definition der bedingten Wahrscheinlichkeitsdichte, der zweiten nach der obigen Bemerkung, der dritten nach der oben nachgewiesenen Gleichheit und der vierten nach Vereinfachung. Dieser Ausdruck hängt nicht ab davon und somit ist eine ausreichende Statistik.[7]

Minimale Ausreichung

Eine ausreichende Statistik ist minimal ausreichend Wenn es als Funktion einer anderen ausreichenden Statistik dargestellt werden kann. Mit anderen Worten, S(X) ist minimal ausreichend dann und nur dann, wenn[8]

  1. S(X) ist ausreichend und
  2. wenn T(X) ist ausreichend, dann gibt es eine Funktion f so dass S(X) = f(T(X)).

Intuitiv eine minimal ausreichende Statistik am effizientesten erfasst alle möglichen Informationen über den Parameter θ.

Eine nützliche Charakterisierung von minimaler Ausreichung ist, dass wenn die Dichte der Dichte fθ existiert, S(X) ist minimal ausreichend dann und nur dann, wenn

ist unabhängig von θ: S(x) = S(y)

Dies folgt als Folge von Fisher -Faktorisierungssatz wie oben erwähnt.

Ein Fall, in dem Bahadur 1954 keine minimal ausreichende Statistik gibt.[9] Unter milden Bedingungen gibt es jedoch immer eine minimal ausreichende Statistik. Insbesondere im euklidischen Raum gilt diese Bedingungen immer, wenn die Zufallsvariablen (verbunden mit ) sind alle diskret oder alle kontinuierlich.

Wenn es eine minimal ausreichende Statistik gibt, und dies ist normalerweise der Fall, dann jeder Komplett Eine ausreichende Statistik ist notwendigerweise minimal ausreichend[10](Beachten Sie, dass diese Aussage keinen pathologischen Fall ausschließt, in dem ein vollständiges ausreichend existiert, während es keine minimal ausreichende Statistik gibt.) Es ist zwar schwierig, Fälle zu finden, in denen eine minimal ausreichende Statistik nicht existiert, aber es ist nicht so schwer, Fälle zu finden, in denen es keine vollständige Statistik gibt.

Die Sammlung von Wahrscheinlichkeitsverhältnissen zum , ist eine minimal ausreichende Statistik, wenn der Parameterraum diskret ist .

Beispiele

Bernoulli -Verteilung

Wenn X1, ....,Xn sind unabhängig Bernoulli-verteilt Zufällige Variablen mit dem erwarteten Wert pdann die Summe T(X) =X1+...+Xn ist eine ausreichende Statistik für p (Hier entspricht 'Erfolg' Xi= 1 und 'Versagen' an Xi= 0; Also T ist die Gesamtzahl der Erfolge)

Dies wird unter Berücksichtigung der gemeinsamen Wahrscheinlichkeitsverteilung gesehen:

Da die Beobachtungen unabhängig sind, kann dies als geschrieben werden

und Kräfte sammeln p und 1 -p, gibt

was das Faktorisierungskriterium erfüllt, mit h(x) = 1 ist nur eine Konstante.

Beachten Sie das entscheidende Merkmal: den unbekannten Parameter p interagiert mit den Daten x Nur über die Statistik T(x) = Σxi.

Als konkrete Anwendung gibt dies ein Verfahren zur Unterscheidung a Faire Münze aus einer voreingenommenen Münze.

Einheitliche Verteilung

Wenn X1, ...., Xn sind unabhängig und gleichmäßig verteilt in der Intervall [0,,θ], dann T(X) = max (X1, ..., Xn) ist für θ ausreichend - die Probe maximal ist eine ausreichende Statistik für die Bevölkerungsmaximum.

Um dies zu sehen, betrachten Sie das Gelenk Wahrscheinlichkeitsdichtefunktion von X(X1, ...,Xn). Da die Beobachtungen unabhängig sind, kann die PDF als Produkt einzelner Dichten geschrieben werden

wo 1{...} ist der Indikatorfunktion. Somit nimmt die Dichte an, die die vom Fisher -NEYMAN -Faktorisierungssatz benötigte Form erfordert, wo h(x) =1{Mindest{xi} ≥0}und der Rest des Ausdrucks ist nur eine Funktion von nur von θ und T(x) = Max {xi}.

In der Tat die Mindestvarianz unvoreingenommener Schätzer (MVUE) für θ ist

Dies ist die maximale Stichprobe, die skaliert ist, um für die zu korrigieren Voreingenommenheitund ist mvue von der Lehmann -Scheffé Theorem. Maximal ungekalktes Proben T(X) ist der Maximaler Wahrscheinlichkeitsschätzer zum θ.

Einheitliche Verteilung (mit zwei Parametern)

Wenn sind unabhängig und gleichmäßig verteilt in der Pause (wo und sind unbekannte Parameter), dann ist eine zweidimensionale ausreichende Statistik für .

Um dies zu sehen, betrachten Sie das Gelenk Wahrscheinlichkeitsdichtefunktion von . Da die Beobachtungen unabhängig sind, kann der PDF als Produkt einzelner Dichten geschrieben werden, d.h.

Die gemeinsame Dichte der Probe nimmt die vom Fisher -NEYMAN -Faktorisierungssatz benötigte Form durch, indem es zulassen

Seit hängt nicht vom Parameter ab und hängt nur von durch die Funktion

Das Fisher -NEYMAN -Faktorisierungssatz impliziert ist eine ausreichende Statistik für .

Poisson-Verteilung

Wenn X1, ....,Xn sind unabhängig und haben a Poisson-Verteilung mit Parameter λdann die Summe T(X) =X1+...+Xn ist eine ausreichende Statistik fürλ.

Betrachten Sie dazu die gemeinsame Wahrscheinlichkeitsverteilung:

Da die Beobachtungen unabhängig sind, kann dies als geschrieben werden

die geschrieben werden kann als

was zeigt, dass das Faktorisierungskriterium erfüllt ist, wo h(x) ist der Gegenstand des Produkts der Faktorien. Beachten Sie, dass der Parameter λ nur durch seine Summe mit den Daten interagiert T(X).

Normalverteilung

Wenn sind unabhängig und normal verteilt mit dem erwarteten Wert (ein Parameter) und bekannte endliche Varianz dann

ist eine ausreichende Statistik für

Um dies zu sehen, betrachten Sie das Gelenk Wahrscheinlichkeitsdichtefunktion von . Da die Beobachtungen unabhängig sind, kann der PDF als Produkt einzelner Dichten geschrieben werden, d.h.

Die gemeinsame Dichte der Probe nimmt die vom Fisher -NEYMAN -Faktorisierungssatz benötigte Form durch, indem es zulassen

Seit hängt nicht vom Parameter ab und hängt nur von durch die Funktion

Das Fisher -NEYMAN -Faktorisierungssatz impliziert ist eine ausreichende Statistik für .

Wenn ist unbekannt und seitdem Die oben genannte Wahrscheinlichkeit kann als umgeschrieben werden wie

Der Faktor -Faktorisierungstheorem von Fisher -Nee -Faktor hält immer noch und impliziert das ist eine gemeinsame Statistik für .

Exponentialverteilung

Wenn sind unabhängig und exponentiell verteilt mit dem erwarteten Wert θ (ein unbekannter realwertiger positiver Parameter), dann ist eine ausreichende Statistik für θ.

Um dies zu sehen, betrachten Sie das Gelenk Wahrscheinlichkeitsdichtefunktion von . Da die Beobachtungen unabhängig sind, kann der PDF als Produkt einzelner Dichten geschrieben werden, d.h.

Die gemeinsame Dichte der Probe nimmt die vom Fisher -NEYMAN -Faktorisierungssatz benötigte Form durch, indem es zulassen

Seit hängt nicht vom Parameter ab und hängt nur von durch die Funktion

Das Fisher -NEYMAN -Faktorisierungssatz impliziert ist eine ausreichende Statistik für .

Gamma -Verteilung

Wenn sind unabhängig und verteilt als , wo und sind unbekannte Parameter von a Gamma -Verteilung, dann ist eine zweidimensionale ausreichende Statistik für .

Um dies zu sehen, betrachten Sie das Gelenk Wahrscheinlichkeitsdichtefunktion von . Da die Beobachtungen unabhängig sind, kann der PDF als Produkt einzelner Dichten geschrieben werden, d.h.

Die gemeinsame Dichte der Probe nimmt die vom Fisher -NEYMAN -Faktorisierungssatz benötigte Form durch, indem es zulassen

Seit hängt nicht vom Parameter ab und hängt nur von durch die Funktion

Das Fisher -NEYMAN -Faktorisierungssatz impliziert ist eine ausreichende Statistik für

Rao -Blackwell Theorem

Ausreichend findet eine nützliche Anwendung in der Rao -Blackwell Theoremdas heißt das, wenn g(X) ist jede Art von Schätzer von θ, dann normalerweise die bedingte Erwartung von g(X) gegeben ausreichend Statistik T(X) ist ein besserer (im Sinne von niedrigeren Varianz) Schätzer von θund ist nie schlimmer. Manchmal kann man sehr leicht einen sehr groben Schätzer konstruieren g(X) und bewerten Sie dann diesen bedingten erwarteten Wert, um einen Schätzer zu erhalten, der in verschiedenen Sinnen optimal ist.

Exponentielle Familie

Laut dem Pitman -Koopman -Darmois -Theorem, Unter Familien der Wahrscheinlichkeitsverteilungen, deren Domäne nicht mit dem geschätzten Parameter variiert, nur in Exponentiale Familien Gibt es eine ausreichende Statistik, deren Dimension mit zunehmender Probengröße begrenzt bleibt? Intuitiv besagt dies Nichtparametrische Statistiken Um die Informationen in den Daten vollständig zu erfassen.

Weniger knapp, nehme an sind unabhängig identisch verteilt real Zufällige Variablen, deren Verteilung in einer Familie von Wahrscheinlichkeitsverteilungen vorliegt, parametrisiert durch , die bestimmte technische Regelmäßigkeitsbedingungen erfüllen, dann ist diese Familie eine exponentiell Familie, wenn und nur wenn es ein gibt -Valifiziert ausreichend Statistik deren Anzahl von Skalarkomponenten steigt nicht mit der Stichprobengröße an n steigt.[11]

Dieser Satz zeigt, dass die Existenz eines endlich-dimensionalen, realvektorgenannten ausreichenden Statistiken die möglichen Formen einer Familie von Verteilungen auf dem echte Linie.

Wenn die Parameter oder die zufälligen Variablen nicht mehr realiert sind, ist die Situation komplexer.[12]

Andere Arten von Sieben

Bayes'sche Sackgasse

Eine alternative Formulierung der Erkrankung, die eine Statistik ausreicht, die in einem Bayes'schen Kontext festgelegt ist, beinhaltet die hinteren Verteilungen, die durch die Verwendung des vollständigen Datensatzes und mit nur einer Statistik erhalten werden. Somit ist die Anforderung, dass für fast jeden xAnwesend

Im Allgemeinen können wir ohne die Annahme eines parametrischen Modells sagen, dass die Statistik T ist Vorhersage ausreichend wenn

Es stellt sich heraus, dass diese "Bayes'sche Sugcycycy" eine Folge der obigen Formulierung ist.[13] Sie sind jedoch im unendlich-dimensionalen Fall nicht direkt äquivalent.[14] Eine Reihe von theoretischen Ergebnissen für die Genauigkeit in einem Bayes'schen Kontext ist verfügbar.[15]

Linearer Genauigkeit

Ein Konzept namens "linearer Sieben" kann in einem Bayes'schen Kontext formuliert werden.[16] und allgemeiner.[17] Definieren Sie zuerst den besten linearen Prädiktor eines Vektors Y bezogen auf X wie . Dann eine lineare Statistik T(x) ist linear ausreichend[18] wenn

Siehe auch

Anmerkungen

  1. ^ Fisher, R.A. (1922). "Zu den mathematischen Grundlagen der theoretischen Statistik". Philosophische Transaktionen der königlichen Gesellschaft a. 222 (594–604): 309–368. Bibcode:1922RSPTA.222..309f. doi:10.1098/rsta.1922.0009. JFM 48.1280.02. JStor 91208.
  2. ^ Dodge, Y. (2003) - Eintrag für linearer Genauigkeit
  3. ^ Stigler, Stephen (Dezember 1973). "Studien zur Vorgeschichte von Wahrscheinlichkeit und Statistik. XXXII: LAPLACE, FISHER und die Entdeckung des Konzepts der Genauigkeit". Biometrika. 60 (3): 439–445. doi:10.1093/biomet/60.3.439. JStor 2334992. HERR 0326872.
  4. ^ Casella, George; Berger, Roger L. (2002). Statistische Inferenz, 2. Aufl.. Duxbury Press.
  5. ^ Cover, Thomas M. (2006). Elemente der Informationstheorie. Joy A. Thomas (2. Aufl.). Hoboken, N.J.: Wiley-Interscience. p. 36. ISBN 0-471-24195-4. OCLC 59879802.
  6. ^ Hogg, Robert V.; Craig, Allen T. (1995). Einführung in die mathematische Statistik. Prentice Hall. ISBN 978-0-02-355722-4.
  7. ^ "The Fisher -Neneman -Faktorisierungssatz".. Webseite bei Connexions (cnx.org)
  8. ^ Dodge (2003) - Eintrag für minimal ausreichende Statistiken
  9. ^ Lehmann und Casella (1998), Theorie der Punktschätzung, 2. Auflage, Springer, S. 37
  10. ^ Lehmann und Casella (1998), Theorie der Punktschätzung, 2. Auflage, Springer, Seite 42
  11. ^ Tikochinsky, Y.; Tishby, N. Z.; Levine, R. D. (1984-11-01). "Alternativer Ansatz zur Inferenz der Maximum-Entropie". Physische Bewertung a. 30 (5): 2638–2644. doi:10.1103/PhysReva.30.2638. ISSN 0556-2791.
  12. ^ Andersen, Erling Bernhard (September 1970). "Seichlich und exponentielle Familien für diskrete Stichprobenräume". Zeitschrift der American Statistical Association. 65 (331): 1248–1255. doi:10.1080/01621459.1970.10481160. ISSN 0162-1459.
  13. ^ Bernardo, J.M.; Smith, A.F.M. (1994). "Abschnitt 5.1.4". Bayes'sche Theorie. Wiley. ISBN 0-471-92416-4.
  14. ^ Blackwell, D.; Ramamoorthi, R. V. (1982). "Eine Bayes, aber nicht klassisch ausreichend Statistik". Annals of Statistics. 10 (3): 1025–1026. doi:10.1214/aoS/1176345895. HERR 0663456. Zbl 0485.62004.
  15. ^ Nogales, A.G.; Oyola, J.A.; Perez, P. (2000). "Über die bedingte Unabhängigkeit und das Verhältnis zwischen Genau und Invarianz unter der Sichtweise von Bayesian". Statistik und Wahrscheinlichkeitsbriefe. 46 (1): 75–84. doi:10.1016/s0167-7152 (99) 00089-9. HERR 1731351. Zbl 0964.62003.
  16. ^ Goldstein, M.; O'Hagan, A. (1996). "Bayes linearer Sendung und Systeme von Experten hinteren Bewertungen". Zeitschrift der Royal Statistical Society. Serie B. 58 (2): 301–316. JStor 2345978.
  17. ^ Godambe, V. P. (1966). "Ein neuer Ansatz zur Probenahme aus endlichen Populationen. II verteilungsfreie Sucht". Zeitschrift der Royal Statistical Society. Serie B. 28 (2): 320–328. JStor 2984375.
  18. ^ Witting, T. (1987). "Die lineare Markov -Eigenschaft in der Glaubwürdigkeitstheorie". Astin Bulletin. 17 (1): 71–84. doi:10.2143/ast.17.1.2014984.

Verweise