Statistiken


Statistiken ist die Disziplin, die die Sammlung, Organisation, Analyse, Interpretation und Präsentation von betrifft Daten.[1][2][3] Bei der Anwendung von Statistiken auf ein wissenschaftliches, industrielles oder soziales Problem ist es konventionell, mit a zu beginnen Statistische Bevölkerung oder ein Statistisches Modell studieren. Populationen können verschiedene Gruppen von Menschen oder Objekten sein, wie "alle Menschen, die in einem Land leben" oder "jedes Atom, das einen Kristall kompetiert". Statistiken befassen sich mit allen Aspekten von Daten, einschließlich der Planung der Datenerfassung in Bezug auf das Design von Umfragen und Experimente.[4]
Wann Volkszählung Daten können nicht gesammelt werden, Statistiker Sammeln Sie Daten, indem Sie spezifische Experimententwürfe und Umfrage entwickeln Proben. Repräsentative Stichproben stellt sicher, dass Schlussfolgerungen und Schlussfolgerungen von der Stichprobe bis zur Bevölkerung insgesamt vernünftigerweise erstrecken können. Ein experimentelle Studie Beinhaltet die Messung des untersuchten Systems, die Manipulation des Systems und dann zusätzliche Messungen unter Verwendung desselben Verfahrens, um festzustellen, ob die Manipulation die Werte der Messungen geändert hat. Dagegen eine Beobachtungsstudie beinhaltet keine experimentelle Manipulation.
Zwei statistische Hauptmethoden werden in verwendet Datenanalyse: beschreibende Statistik, die Daten aus einer Stichprobe zusammenfassen Indizes so wie die bedeuten oder Standardabweichung, und Inferenzstatistik, die Schlussfolgerungen aus Daten ziehen, die zufälligen Variationen unterliegen (z. B. Beobachtungsfehler, Stichprobenvariation).[5] Beschreibende Statistiken befassen sich am häufigsten mit zwei Eigenschaften von a Verteilung (Stichprobe oder Population): zentrale Tendenz (oder Lage) versucht, den zentralen oder typischen Wert der Verteilung zu charakterisieren, während Dispersion (oder Variabilität) charakterisiert das Ausmaß, in dem Mitglieder der Verteilung von ihrem Zentrum abweichen. Schlussfolgerungen auf Mathematische Statistik werden im Rahmen des Rahmens von gemacht Wahrscheinlichkeitstheorie, die sich mit der Analyse von zufälligen Phänomenen befasst.
Ein statistisches Standardverfahren beinhaltet die Erfassung von Daten Test der Beziehung Zwischen zwei statistischen Datensätzen oder einem Datensatz und synthetischen Daten aus einem idealisierten Modell. Für die statistische Beziehung zwischen den beiden Datensätzen wird eine Hypothese vorgeschlagen, und dies wird als verglichen Alternative zu einem idealisierten Nullhypothese ohne Beziehung zwischen zwei Datensätzen. Das Ablehnen oder Missbrauch der Nullhypothese wird unter Verwendung statistischer Tests durchgeführt, die den Sinn quantifizieren, in dem sich der Null angezogen werden kann, wenn die im Test verwendet werden. Wenn Sie aus einer Nullhypothese arbeiten, werden zwei grundlegende Fehlerformen erkannt: Typ I Fehler (Nullhypothese wird fälschlicherweise abgelehnt, indem er ein "falsch positives" und Fehler II -Fehler (Die Nullhypothese wird nicht abgelehnt und eine tatsächliche Beziehung zwischen den Populationen wird über einen "falsch negativen" abgelehnt.)[6] Mit diesem Rahmen wurden mehrere Probleme in Verbindung gebracht, von der Erhalt einer ausreichenden Stichprobengröße bis zur Angabe einer angemessenen Nullhypothese.[5]
Messprozesse, die statistische Daten generieren, unterliegen ebenfalls dem Fehler. Viele dieser Fehler werden als zufällig (Rauschen) oder systematisch eingestuft (Voreingenommenheit), aber andere Arten von Fehlern (z. B. Fehler, z. B. wenn ein Analytiker falsche Einheiten meldet) können ebenfalls auftreten. Das Vorhandensein von fehlende Daten oder Zensur kann zu verzerrten Schätzungen führen und spezifische Techniken entwickelt wurden, um diese Probleme anzugehen.
Einführung
Statistik ist eine mathematische Wissenschaftsgruppe, die sich auf die Sammlung, Analyse, Interpretation oder Erklärung und Präsentation von bezieht Daten,[7] oder als Zweig von Mathematik.[8] Einige betrachten Statistiken eher als eine eigenständige mathematische Wissenschaft als als Zweig der Mathematik. Während viele wissenschaftliche Untersuchungen Daten verwenden, befasst sich Statistiken mit der Verwendung von Daten im Zusammenhang mit Unsicherheit und Entscheidungsfindung angesichts der Unsicherheit.[9][10]
Bei der Anwendung von Statistiken auf ein Problem ist es üblich, mit a zu beginnen Population oder zu studieren. Populationen können verschiedene Themen wie "Alle Menschen, die in einem Land leben" oder "jedes Atom, das einen Kristall kompetiert" sein. Im Idealfall erstellen Statistiker Daten über die gesamte Bevölkerung (eine Operation genannt Volkszählung). Dies kann von staatlichen statistischen Instituten organisiert werden. Beschreibende Statistik Kann verwendet werden, um die Bevölkerungsdaten zusammenzufassen. Zu den numerischen Deskriptoren gehören bedeuten und Standardabweichung zum kontinuierliche Daten (wie Einkommen), obwohl Häufigkeit und Prozentsatz in Bezug auf die Beschreibung nützlicher sind Kategoriale Daten (wie Bildung).
Wenn eine Volkszählung nicht machbar ist, wird eine ausgewählte Teilmenge der Bevölkerung genannt Probe wird untersucht. Sobald eine Stichprobe, die für die Bevölkerung repräsentativ ist Experimental- Einstellung. Wiederum können beschreibende Statistiken verwendet werden, um die Beispieldaten zusammenzufassen. Das Zeichnen der Probe enthält jedoch ein Element der Zufälligkeit; Daher sind auch die numerischen Deskriptoren aus der Stichprobe anfällig für Unsicherheit. Bedeutende Schlussfolgerungen über die gesamte Bevölkerung zu ziehen, Inferenzstatistik wird gebraucht. Es verwendet Muster in den Stichprobendaten, um Schlussfolgerungen über die Bevölkerung zu ziehen, die bei der Berücksichtigung der Zufälligkeit dargestellt werden. Diese Schlussfolgerungen können in Form der Beantwortung von Ja/Nein -Fragen zu den Daten bestehen (Hypothesentest), Schätzung numerischer Merkmale der Daten (Einschätzung), beschreiben Assoziationen Innerhalb der Daten (Korrelation) und Modellierungsbeziehungen innerhalb der Daten (z. B. verwenden Regressionsanalyse). Inferenz kann sich auf erstrecken Vorhersage, Vorhersageund Schätzung nicht beobachteter Werte entweder in oder in Verbindung mit der untersuchten Bevölkerung. Es kann beinhalten Extrapolation und Interpolation von Zeitfolgen oder räumliche Daten, und Data Mining.
Mathematische Statistik
Mathematische Statistik ist die Anwendung von Mathematik zu Statistiken. Zu diesem Zweck verwendete mathematische Techniken gehören Mathematische Analyse, Lineare Algebra, Stochastische Analyse, Differentialgleichung, und Mess-theoretische Wahrscheinlichkeitstheorie.[11][12]
Geschichte

Die frühen Schriften zur statistischen Inferenz stammen aus Arabische Mathematiker und Kryptografen, während der Islamisches goldenes Zeitalter Zwischen dem 8. und 13. Jahrhundert. Al-Khalil (717–786) schrieb die Buch mit kryptografischen Nachrichten, was die erste Verwendung von Permutationen und Kombinationen enthält, um alle möglich aufzulisten Arabisch Worte mit und ohne Vokale.[13] In seinem Buch, Manuskript zur Entschlüsselung kryptografischer Botschaften, Al-kindi gab eine detaillierte Beschreibung der Verwendung Frequenzanalyse entschlüsseln verschlüsselt Mitteilungen. Al-kindi machte auch die früheste bekannte Verwendung von statistische Inferenz, während er und später arabische Kryptografen die frühen statistischen Methoden für entwickelten Dekodierung verschlüsselte Nachrichten. Ibn Adlan (1187–1268) leisteten später einen wichtigen Beitrag zur Verwendung von Stichprobengröße in der Frequenzanalyse.[13]
Das früheste europäische Schreiben über Statistiken stammt aus 1663 mit der Veröffentlichung von Natürliche und politische Beobachtungen über die Sterblichkeitsrechnungen durch John Graunt.[14] Frühe Anwendungen des statistischen Denkens drehten sich um die Bedürfnisse der Staaten, um die Politik auf demografischen und wirtschaftlichen Daten zu basieren, daher deren stat- Etymologie. Der Umfang der Disziplin der Statistik erweiterte sich im frühen 19. Jahrhundert um die Sammlung und Analyse von Daten im Allgemeinen. Heute ist die Statistiken in der Regierung, in der Wirtschaft sowie in den Naturwissenschaften und sozialer Wissenschaften weit verbreitet.
Die mathematischen Grundlagen moderner Statistiken wurden im 17. Jahrhundert mit der Entwicklung des Wahrscheinlichkeitstheorie durch Gerolamo Cardano, Blaise Pascal und Pierre de Fermat. Die mathematische Wahrscheinlichkeitstheorie ergab sich aus der Studie von Glücksspiele, obwohl das Wahrscheinlichkeitskonzept bereits untersucht wurde in Mittelalterliches Gesetz und von Philosophen wie z. Juan Caramuel.[15] Das Methode der kleinsten Quadrate wurde zuerst von beschrieben von Adrien-Marie Legendre im Jahr 1805.

Das moderne Statistikfeld entstand im späten 19. und frühen 20. Jahrhundert in drei Phasen.[16] Die erste Welle um die Jahrhundertwende wurde von der Arbeit von angeführt Francis Galton und Karl Pearson, der Statistiken in eine strenge mathematische Disziplin verwandelte, die zur Analyse verwendet wurde, nicht nur in der Wissenschaft, sondern auch in Industrie und Politik. Galtons Beiträge beinhalteten die Einführung der Konzepte von Standardabweichung, Korrelation, Regressionsanalyse und die Anwendung dieser Methoden auf die Untersuchung der Vielfalt der menschlichen Eigenschaften - height, Gewicht, Wimpernlänge unter anderem.[17] Pearson entwickelte die Pearson-Produktmoment-Korrelationskoeffizient, definiert als Produktmoment,[18] das Momente Methode Für die Verteilung von Proben und die Pearson -Verteilungunter anderem.[19] Galton und Pearson gründeten Biometrika als erstes Journal of Mathematical Statistics und Bio-Statistiken (dann Biometrie genannt), und letzterer gründete die weltweit erste Universitätsstatistikabteilung bei University College London.[20]
Ronald Fisher prägte den Begriff Nullhypothese während der Lady tasting tea Experiment, das "nie bewiesen oder etabliert, aber möglicherweise im Verlauf des Experimentierens widerlegt wird".[21][22]
Die zweite Welle der 1910er und 20er Jahre wurde von initiiert von William Sealy Gossetund erreichte seinen Höhepunkt in den Erkenntnissen von Ronald Fisher, der die Lehrbücher schrieb, die die akademische Disziplin an Universitäten auf der ganzen Welt definieren sollten. Fishers wichtigste Veröffentlichungen waren sein Samenpapier von 1918 Die Korrelation zwischen Verwandten zur Annahme des Mendelschen Erbschaft (Welches war der erste, der den statistischen Begriff verwendete, Varianz), seine klassische Arbeit von 1925 Statistische Methoden für Forschungsarbeiter und sein 1935 Das Design von Experimenten,[23][24][25] wo er sich streng entwickelte Versuchsplanung Modelle. Er entstand die Konzepte von ausreichend, Nebenstatistik, Fisher's linearer Diskriminator und Fischerinformationen.[26] In seinem Buch von 1930 Die genetische Theorie der natürlichen SelektionEr wandte Statistiken auf verschiedene biologisch Konzepte wie Fisher's Prinzip[27] (die A. W. F. Edwards genannt "wahrscheinlich das berühmteste Argument in Evolutionsbiologie") und Fisherian Runaway,[28][29][30][31][32][33] ein Konzept in Sexuelle Auswahl über einen positiven Rückfahreffekt für Rückmeldungen in Evolution.
Die letzte Welle, bei der hauptsächlich die Verfeinerung und Ausweitung früherer Entwicklungen auftrat, entstand aus der kollaborativen Arbeit zwischen Egon Pearson und Jerzy Neyman in den 1930ern. Sie stellten die Konzepte von "vor" ein "Typ II" Error, Kraft eines Tests und Vertrauensintervalle. Jerzy Neyman zeigte 1934, dass eine geschichtete zufällige Stichprobe im Allgemeinen eine bessere Schätzmethode war als eine zielgerichtete Probenahme (Quota).[34]
Heutzutage werden statistische Methoden in allen Bereichen angewendet, die Entscheidungsfindung beinhalten, genaue Schlussfolgerungen aus einer zusammengesetzten Daten zu machen und Entscheidungen angesichts der Unsicherheit aufgrund der statistischen Methodik zu treffen. Die Verwendung von Moderne Computers hat groß angelegte statistische Berechnungen beschleunigt und auch neue Methoden gemacht, die manuell unpraktisch sind. Statistiken sind weiterhin ein Bereich der aktiven Forschung, zum Beispiel zum Problem der Analyse Große Daten.[35]
Statistische Daten
Datensammlung
Probenahme
Wenn die vollständigen Volkszählungsdaten nicht erfasst werden können, sammeln Statistiker Beispieldaten durch die Entwicklung spezifischer Experimententwürfe und Vermessungsproben. Statistik selbst bietet auch Werkzeuge zur Vorhersage und Prognose durch Statistische Modelle.
Um eine Stichprobe als Leitfaden für eine ganze Bevölkerung zu verwenden, ist es wichtig, dass sie wirklich die Gesamtbevölkerung darstellt. Vertreter Probenahme versichert, dass Schlussfolgerungen und Schlussfolgerungen sicher von der Stichprobe bis zur Bevölkerung insgesamt erstrecken können. Ein Hauptproblem liegt bei der Bestimmung des Ausmaßes, in dem die ausgewählte Stichprobe tatsächlich repräsentativ ist. Statistik bietet Methoden zur Schätzung und korrigierter Verzerrung innerhalb der Stichproben- und Datenerfassungsverfahren. Es gibt auch Methoden zum experimentellen Design für Experimente, die diese Probleme zu Beginn einer Studie verringern und ihre Fähigkeit stärken, Wahrheiten über die Bevölkerung zu erkennen.
Die Stichprobenentheorie ist Teil der Mathematische Disziplin von Wahrscheinlichkeitstheorie. Wahrscheinlichkeit wird in verwendet Mathematische Statistik das studieren Abtastverteilungen von Stichprobenstatistik und allgemeiner die Eigenschaften von Statistische Verfahren. Die Verwendung einer statistischen Methode ist gültig, wenn das betrachtete System oder die bevölkerungsbedingte Bevölkerung die Annahmen der Methode erfüllt. Der Unterschied in der Sicht zwischen der klassischen Wahrscheinlichkeitstheorie und der Stichprobenentheorie besteht grob, dass die Wahrscheinlichkeitstheorie von den angegebenen Parametern einer Gesamtpopulation bis zu ableiten Wahrscheinlichkeiten, die sich auf Proben beziehen. Die statistische Inferenz bewegt sich jedoch in die entgegengesetzte Richtung -Induktiv schließen Von Proben bis zu den Parametern einer größeren oder Gesamtpopulation.
Versuchs- und Beobachtungsstudien
Ein gemeinsames Ziel für ein statistisches Forschungsprojekt ist die Untersuchung Kausalitätund insbesondere, um eine Schlussfolgerung über die Auswirkung von Änderungen der Werte von Prädiktoren zu ziehen oder Unabhängige Variablen von abhängigen Variablen. Es gibt zwei Haupttypen kausaler statistischer Studien: Experimentelle Studien und beobachtende Studien. In beiden Arten von Studien wird die Wirkung von Unterschieden einer unabhängigen Variablen (oder Variablen) auf das Verhalten der abhängigen Variablen beobachtet. Der Unterschied zwischen den beiden Typen besteht darin, wie die Studie tatsächlich durchgeführt wird. Jeder kann sehr effektiv sein. In einer experimentellen Studie wird die Messung des untersuchten Systems, die Manipulation des Systems und dann zusätzliche Messungen mit demselben Verfahren angenommen, um festzustellen, ob die Manipulation die Werte der Messungen geändert hat. Im Gegensatz dazu beinhaltet eine Beobachtungsstudie nicht Experimentelle Manipulation. Stattdessen werden Daten gesammelt und Korrelationen zwischen Prädiktoren und Reaktion werden untersucht. Während die Tools der Datenanalyse am besten für Daten von funktionieren Randomisierte Studiensie werden auch auf andere Arten von Daten angewendet - wie wie natürliche Experimente und beobachtende Studien[36]- Für die ein Statistiker eine modifizierte, strukturiertere Schätzmethode (z. B.,, Unterschiede in der Unterschiede Schätzung und Instrumentalvariablenunter anderem) die produzieren konsequente Schätzer.
Experimente
Die grundlegenden Schritte eines statistischen Experiments sind:
- Planung der Forschung, einschließlich der Feststellung der Anzahl der Replikate der Studie unter Verwendung der folgenden Informationen: vorläufige Schätzungen zur Größe der Größe von Behandlungseffekte, alternative Hypothesenund die geschätzten experimentelle Variabilität. Berücksichtigung der Auswahl experimenteller Probanden und der Ethik der Forschung ist erforderlich. Statistiker empfehlen, dass Experimente (mindestens) eine neue Behandlung mit einer Standardbehandlung oder -kontrolle vergleichen, um eine unvoreingenommene Schätzung des Unterschieds in den Behandlungseffekten zu ermöglichen.
- Versuchsplanung, verwenden Blockierung den Einfluss von zu verringern verwirrende Variablen, und Randomisierte Zuordnung von Behandlungen an Probanden zuzulassen unvoreingenommene Schätzungen von Behandlungseffekten und experimentellem Fehler. Zu diesem Zeitpunkt schreiben die Experimentatoren und Statistiker die Versuchsprotokoll Dies wird die Leistung des Experiments leiten und die die spezifiziert Primäranalyse der experimentellen Daten.
- Durchführung des Experiments nach der Versuchsprotokoll und Analyse der Daten nach dem experimentellen Protokoll.
- Weitere Untersuchung des Datensatzes in Sekundäranalysen, um neue Hypothesen für zukünftige Studien vorzuschlagen.
- Dokumentieren und Präsentieren der Ergebnisse der Studie.
Experimente zum menschlichen Verhalten haben besondere Bedenken. Die Berühmten Hawthorne -Studie Untersuchte Änderungen des Arbeitsumfelds im Hawthorne -Werk der Hawthorne Western Electric Company. Die Forscher waren daran interessiert zu bestimmen, ob eine erhöhte Beleuchtung die Produktivität des Fließband Arbeitskräfte. Die Forscher haben zunächst die Produktivität in der Anlage gemessen, dann die Beleuchtung in einem Gebiet der Anlage modifizierten und überprüfte, ob sich die Veränderungen der Beleuchtung auf die Produktivität auswirkten. Es stellte sich heraus, dass sich die Produktivität tatsächlich verbesserte (unter den experimentellen Bedingungen). Die Studie wird heute jedoch stark wegen Fehlern in experimentellen Verfahren kritisiert, insbesondere für das Fehlen von a Kontrollgruppe und Blindheit. Das Hawthorne -Effekt Bezieht sich darauf, festzustellen, dass sich ein Ergebnis (in diesem Fall die Produktivität der Arbeiterproduktivität) aufgrund der Beobachtung selbst geändert hat. Diejenigen in der Hawthorne -Studie wurden produktiver, nicht weil die Beleuchtung verändert wurde, sondern weil sie beobachtet wurden.[37]
Beobachtungsstudie
Ein Beispiel für eine Beobachtungsstudie ist eines, das den Zusammenhang zwischen Rauchen und Lungenkrebs untersucht. Diese Art von Studie verwendet typischerweise eine Umfrage, um Beobachtungen über den Interessenbereich zu sammeln und dann statistische Analysen durchzuführen. In diesem Fall würden die Forscher Beobachtungen sowohl von Rauchern als auch von Nichtrauchern sammeln, vielleicht durch a Kohortenstudie, und suchen Sie dann nach der Anzahl der Fälle von Lungenkrebs in jeder Gruppe.[38] A Fall-Kontroll-Studie ist eine andere Art von Beobachtungsstudie, in der Menschen mit und ohne das Interesse (z. B. Lungenkrebs) zur Teilnahme eingeladen werden und ihre Expositionsgeschichte gesammelt werden.
Arten von Daten
Es wurden verschiedene Versuche unternommen, eine Taxonomie von zu erstellen Messebenen. Der Psychophysiker Stanley Smith Stevens Definierte nominale, ordinale, Intervall- und Verhältnisskalen. Nominale Messungen haben keine aussagekräftige Rangreihenfolge zwischen den Werten und erlauben eine einzelne (injektive) Transformation. Ordinale Messungen haben ungenaue Unterschiede zwischen aufeinanderfolgenden Werten, haben jedoch eine aussagekräftige Ordnung für diese Werte und ermöglichen eine beliebige Bestellverschreibungsumwandlung. Intervallmessungen haben aussagekräftige Entfernungen zwischen definierten Messungen, der Nullwert ist jedoch willkürlich (wie im Fall mit Längengrad und Temperatur Messungen in Celsius oder Fahrenheit) und erlauben jede lineare Transformation. Verhältnismessungen haben sowohl einen aussagekräftigen Nullwert als auch die Abstände zwischen verschiedenen definierten Messungen und ermöglichen jede Neutransformation.
Da Variablen, die nur den nominalen oder ordinalen Messungen entsprechen kategorische Variablen, während das Verhältnis und Intervallmessungen als zusammen gruppiert werden Quantitative Variablen, was entweder sein kann diskret oder kontinuierlichaufgrund ihrer numerischen Natur. Solche Unterschiede können oft lose korreliert werden Datentyp In der Informatik können in dieser dichotomen kategorialen Variablen mit dem dargestellt werden Boolean Datentyp, polytomen kategoriale Variablen mit willkürlich zugewiesenen Ganzzahlen in dem Integraler Datentypund kontinuierliche Variablen mit dem Echter Datentyp Einbeziehung schwimmende Punktarithmetik. Die Zuordnung von Datentypen der Informatik auf statistische Datentypen hängt jedoch davon ab, welche Kategorisierung der letzteren implementiert wird.
Andere Kategorisierungen wurden vorgeschlagen. Zum Beispiel Mosteller und Tukey (1977)[39] Distinguierte Noten, Ränge, gezählte Brüche, Zählungen, Mengen und Balden. Nelder (1990)[40] beschrieben kontinuierliche Zählungen, kontinuierliche Verhältnisse, Zählverhältnisse und kategoriale Datenmodi. (Siehe auch: Chrisman (1998),[41] Van Den Berg (1991).[42]))
Die Frage, ob es angemessen ist, verschiedene Arten von statistischen Methoden auf Daten anzuwenden, die aus verschiedenen Arten von Messverfahren erhalten wurden, wird durch Probleme in Bezug auf die Transformation von Variablen und die genaue Interpretation von Forschungsfragen kompliziert. "Die Beziehung zwischen den Daten und dem, was sie beschrieben haben . "[43]: 82
Methoden
Beschreibende Statistik
A beschreibende Statistik (in dem Graf Nomen Sinn) ist a Zusammenfassungsstatistik das quantitativ beschreibt oder fasst Merkmale einer Sammlung von zusammen Information,[44] während beschreibende Statistik in dem Massennomen Sinn ist der Prozess der Verwendung und Analyse dieser Statistiken. Beschreibende Statistiken unterscheiden sich von Inferenzstatistik (oder induktive Statistiken) in dieser deskriptiven Statistiken darauf abzielen, a zusammenzufassen Probe, anstatt die Daten zu verwenden, um über das zu erfahren Population dass die Datenprobe dargestellt wird.
Inferenzstatistik
Statistische Inferenz ist der Prozess der Verwendung Datenanalyse Eigenschaften eines zugrunde liegenden Abschlusses abgeben Wahrscheinlichkeitsverteilung.[45] Inferentielle statistische Analyse färbt die Eigenschaften von a PopulationZum Beispiel durch Testen von Hypothesen und Ableiten von Schätzungen. Es wird angenommen, dass der beobachtete Datensatz ist probiert von einer größeren Bevölkerung. Inferenzstatistiken können im Gegensatz zu Gegenstand beschreibende Statistik. Beschreibende Statistiken befassen sich ausschließlich mit den Eigenschaften der beobachteten Daten, und es beruht nicht auf der Annahme, dass die Daten aus einer größeren Bevölkerung stammen.
Terminologie und Theorie der Inferenzstatistik
Statistiken, Schätzer und entscheidende Größen
In Betracht ziehen unabhängige identisch verteilte (IID-) Zufallsvariablen mit einem gegebenen Wahrscheinlichkeitsverteilung: Standard statistische Inferenz und Schätztheorie definiert a zufällige Probe als die zufälliger Vektor gegeben durch die Spaltenvektor dieser IID -Variablen.[46] Das Population Die Untersuchung wird durch eine Wahrscheinlichkeitsverteilung beschrieben, die unbekannte Parameter aufweisen kann.
Eine Statistik ist eine zufällige Variable, die eine Funktion der Zufallsstichprobe ist, aber Keine Funktion unbekannter Parameter. Die Wahrscheinlichkeitsverteilung der Statistik kann jedoch unbekannte Parameter haben. Betrachten Sie jetzt eine Funktion des unbekannten Parameters: An Schätzer ist eine Statistik, die zur Schätzung dieser Funktion verwendet wird. Häufig verwendete Schätzer umfassen Probenmittelwert, unvoreingenommen Stichprobenvarianz und Probekovarianz.
Eine zufällige Variable, die eine Funktion der Zufallsstichprobe und des unbekannten Parameters ist, der jedoch die Wahrscheinlichkeitsverteilung hängt nicht vom unbekannten Parameter ab wird als a genannt entscheidende Menge oder Drehzahl. Weit verbreitete Drehungen enthalten die Z-Score, das Chi Square Statistic und Schüler t-Wert.
Zwischen zwei Schätzern eines gegebenen Parameters, dem mit niedrigeren mittlere quadratische Fehler soll mehr sein effizient. Darüber hinaus soll ein Schätzer sein unvoreingenommen wenn es erwarteter Wert ist gleich dem wahrer Wert des geschätzten und asymptotisch unvoreingenommenen unbekannten Parameters, wenn sein erwarteter Wert an der konvergiert Grenze zum wahren Wert eines solchen Parameters.
Weitere wünschenswerte Eigenschaften für Schätzer sind: Umvue Schätzer, die die niedrigste Varianz für alle möglichen Werte des zu geschätzten Parameters aufweisen (dies ist normalerweise eine einfachere Eigenschaft, die zu überprüfen als die Effizienz) und konsequente Schätzer die konvergiert Wahrscheinlichkeit zum wahren Wert eines solchen Parameters.
Dies lässt immer noch die Frage, wie Schätzer in einer bestimmten Situation erhalten und die Berechnung tragen können. Es wurden verschiedene Methoden vorgeschlagen: die Momente Methode, das Maximale Wahrscheinlichkeit Methode, die kleinsten Quadrate Methode und die neuere Methode von Schätzung von Gleichungen.
Nullhypothese und alternative Hypothese
Die Interpretation statistischer Informationen kann häufig die Entwicklung von a beinhalten Nullhypothese Dies ist normalerweise (aber nicht unbedingt), dass keine Beziehung zwischen Variablen besteht oder dass keine Veränderung im Laufe der Zeit aufgetreten ist.[47][48]
Die beste Illustration für einen Anfänger ist die Situation, die durch ein Strafverfahren begegnet ist. Die Nullhypothese, h0, behauptet, dass der Angeklagte unschuldig ist, während die alternative Hypothese, h1behauptet, dass der Angeklagte schuldig ist. Die Anklage kommt wegen des Verdachts der Schuld. Das h0 (Status quo) steht im Widerspruch zu H1 und wird beibehalten, es sei denn h1 wird durch Beweise "zweifelsfrei" gestützt. "Nicht abgelehnt h0"In diesem Fall bedeutet keine Unschuld, sondern nur, dass die Beweise nicht ausreichten, um zu verurteilen. Die Jury tut also nicht unbedingt annehmen H0 aber kann nicht abgelehnt H0. Während man eine Nullhypothese nicht "beweisen" kann, kann man testen, wie nah es ist, mit a wahr zu sein Power Test, welche Tests auf Fehler II -Fehler.
Was Statistiker Rufen Sie an alternative Hypothese ist einfach eine Hypothese, die dem widerspricht Nullhypothese.
Fehler
Arbeiten von a NullhypotheseEs werden zwei breite Kategorien von Fehler erkannt:
- Typ I Fehler Wo die Nullhypothese fälschlicherweise abgelehnt wird und ein "falsch positives" gibt.
- Fehler II -Fehler Wo die Nullhypothese nicht abgelehnt wird und ein tatsächlicher Unterschied zwischen den Populationen übersehen wird, wodurch ein "falsch negatives" angegeben wird.
Standardabweichung bezieht sich auf das Ausmaß, in dem sich einzelne Beobachtungen in einer Stichprobe von einem zentralen Wert unterscheiden, wie z. Standart Fehler bezieht sich auf eine Schätzung des Unterschieds zwischen Stichprobenmittelwert und Bevölkerungsdurchschnitt.
A Statistischer Fehler ist die Menge, durch die sich eine Beobachtung von ihrer unterscheidet erwarteter Wert. EIN Restwert ist die Menge, die eine Beobachtung vom Wert unterscheidet, den der Schätzer des erwarteten Wertes für eine bestimmte Stichprobe annimmt (auch als Vorhersage bezeichnet).
Mittlere quadratische Fehler wird zum Erhalten verwendet effiziente Schätzer, eine weit verbreitete Klasse von Schätzern. Quadratfehler des Wurzels ist einfach die quadratische Wurzel des mittleren quadratischen Fehlers.

Viele statistische Methoden versuchen, die zu minimieren Restbetragsummeund diese werden genannt ""Methoden der kleinsten Quadrate" im Kontrast zu Am wenigsten absolute Abweichungen. Letzteres verleiht kleinen und großen Fehlern das gleiche Gewicht, während erstere große Fehler mehr Gewicht verleiht. Die verbleibende Summe von Quadraten ist auch differenzierbar, was eine praktische Eigenschaft für das Tun liefert Regression. Die geringsten Quadrate, die auf angewendet werden lineare Regression wird genannt Gewöhnliche kleinste Quadrate Methode und kleinste Quadrate angewendet auf Nichtlineare Regression wird genannt Nichtlineare kleinste Quadrate. Auch in einem linearen Regressionsmodell wird der nicht deterministische Teil des Modells als Fehlerbegriff, Störung oder einfacheres Rauschen bezeichnet. Sowohl die lineare Regression als auch die nichtlineare Regression werden in angesprochen Polynom am wenigsten Quadrate, was auch die Varianz in einer Vorhersage der abhängigen Variablen (Y -Achse) als Funktion der unabhängigen Variablen (x -Achse) und der Abweichungen (Fehler, Rauschen, Störungen) aus der geschätzten (angepassten) Kurve beschreibt.
Messprozesse, die statistische Daten generieren, unterliegen ebenfalls dem Fehler. Viele dieser Fehler werden als klassifiziert als zufällig (Rauschen) oder systematisch (Voreingenommenheit), aber andere Arten von Fehlern (z. B. Fehler, z. B. wenn ein Analysten falsche Einheiten meldet) können ebenfalls wichtig sein. Das Vorhandensein von fehlende Daten oder Zensur Kann dazu führen, dass Voreingenommene Schätzungen Es wurden spezifische Techniken entwickelt, um diese Probleme anzugehen.[49]
Intervallschätzung

Die meisten Studien probieren nur einen Teil einer Population, sodass die Ergebnisse die gesamte Bevölkerung nicht vollständig darstellen. Alle aus der Stichprobe erhaltenen Schätzungen entsprechen nur dem Bevölkerungswert. Vertrauensintervalle Erlauben Sie Statistikern, auszudrücken, wie genau die Stichprobenschätzung mit dem wahren Wert in der gesamten Bevölkerung entspricht. Oft werden sie als 95% -Konfidenzintervalle ausgedrückt. Formal ist ein 95% -Konfidenzintervall für einen Wert ein Bereich, in dem das Intervall unter denselben Bedingungen (ein anderer Datensatz) unter denselben Bedingungen wiederholt wurde (ein anderer Datensatz), in 95% aller möglichen Fälle den tatsächlichen (Populations-) Wert enthalten würde . Das macht nicht implizieren, dass die Wahrscheinlichkeit, dass der wahre Wert im Konfidenzintervall liegt, 95%beträgt. Von dem Häufigkeit Perspektive, eine solche Behauptung macht nicht einmal sinnvoll, da der wahre Wert nicht a ist zufällige Variable. Entweder ist der wahre Wert innerhalb des angegebenen Intervalls oder nicht. Es ist jedoch wahr, dass die Wahrscheinlichkeit 95% beträgt, bevor die Daten abgetastet werden und einen Plan für die Erstellung des Konfidenzintervalls erhalten, dass das noch zu kalkulierte Intervall den wahren Wert abdeckt: Zu diesem Zeitpunkt, die, die, die, die, die, die, die, die, die Grenzen des Intervalls sind noch zu beobachten zufällige Variablen. Ein Ansatz, der ein Intervall ergibt, das so interpretiert werden kann, dass sie eine gegebene Wahrscheinlichkeit haben, den wahren Wert zu enthalten, besteht darin, a zu verwenden Glaubwürdige Intervall aus Bayes'sche Statistik: Dieser Ansatz hängt von einer anderen Art ab Interpretieren dessen, was unter "Wahrscheinlichkeit" gemeint ist, das ist als Bayesianische Wahrscheinlichkeit.
In Prinzip -Konfidenzintervallen können symmetrisch oder asymmetrisch sein. Ein Intervall kann asymmetrisch sein, da es als Unter- oder Obergrenze für einen Parameter (linksseitiges Intervall oder rechtseitiges Intervall) funktioniert, aber es kann auch asymmetrisch sein, da das zweiseitige Intervall aufgebaut wird, das die Symmetrie um die Schätzung verletzt. Manchmal werden die Grenzen für ein Konfidenzintervall asymptotisch erreicht und diese werden verwendet, um die wahren Grenzen zu approximieren.
Bedeutung
Statistiken geben selten ein einfaches Ja/Nein -Typ Antwort auf die in der Analyse untersuchte Frage. Die Interpretation hängt häufig auf das Ausmaß der statistischen Signifikanz ab und bezieht sich häufig auf die Wahrscheinlichkeit eines Wertes, der die Nullhypothese genau ablehnt (manchmal als die bezeichnet p-Wert).

Der Standardansatz[46] ist eine Nullhypothese gegen eine alternative Hypothese zu testen. EIN Kritische Region ist der Satz von Werten des Schätzers, der zur Niederlage der Nullhypothese führt. Die Wahrscheinlichkeit des Typ -I -Fehlers ist daher die Wahrscheinlichkeit, dass der Schätzer zu dem kritischen Bereich gehört, da die Nullhypothese wahr ist (wahr (statistische Signifikanz) und die Wahrscheinlichkeit eines Fehlers vom Typ II ist die Wahrscheinlichkeit, dass der Schätzer nicht zum kritischen Bereich gehört, da die alternative Hypothese wahr ist. Das Statistische Macht Von einem Test ist die Wahrscheinlichkeit, dass sie die Nullhypothese korrekt ablehnt, wenn die Nullhypothese falsch ist.
Der Hinweis auf statistische Signifikanz bedeutet nicht unbedingt, dass das Gesamtergebnis in realer Welt signifikant ist. Zum Beispiel kann in einer großen Studie eines Arzneimittels gezeigt werden, dass das Medikament eine statistisch signifikante, aber sehr kleine vorteilhafte Wirkung hat, so dass das Medikament dem Patienten wahrscheinlich nicht merklich hilft.
Obwohl im Prinzip das akzeptable Niveau von statistische Signifikanz kann der Debatte unterliegen, die Signifikanzniveau ist der größte p-Wert, der es dem Test ermöglicht, die Nullhypothese abzulehnen. Dieser Test entspricht logisch äquivalent zu sagen Teststatistik. Je kleiner das Signifikanzniveau ist, desto geringer ist die Wahrscheinlichkeit, Typ I -Fehler zu begehen.
Einige Probleme sind normalerweise mit diesem Rahmen verbunden (siehe Kritik an Hypothesentests):
- Ein Unterschied, der statistisch signifikant ist, kann immer noch keine praktische Bedeutung haben, aber es ist möglich, Tests ordnungsgemäß zu formulieren, um dies zu berücksichtigen. Eine Antwort besteht darin, nur über die Berichterstattung hinauszugehen Signifikanzniveau Um die zu enthalten p-Wert Bei der Berichterstattung, ob eine Hypothese abgelehnt oder akzeptiert wird. Der p-Wert zeigt jedoch nicht das an Größe oder Bedeutung des beobachteten Effekts und kann auch die Bedeutung kleinerer Unterschiede in großen Studien übertreiben. Ein besserer und immer häufigerer Ansatz ist es, zu berichten Vertrauensintervalle. Obwohl diese aus den gleichen Berechnungen wie die von Hypothesentests hergestellt werden oder p-Werte, sie beschreiben sowohl die Größe des Effekts als auch die Unsicherheit, die ihn umgibt.
- Irrtum der transponierten bedingten, auch bekannt als auch bekannt Irrtum des Staatsanwalts: Es entstehen Kritikpunkte, weil der Hypothese -Testansatz eine Hypothese erzwingt (die Nullhypothese) Zu bevorzugen, da das, was bewertet wird, die Wahrscheinlichkeit des beobachteten Ergebniss angesichts der Nullhypothese und nicht der Wahrscheinlichkeit der Nullhypothese angesichts des beobachteten Ergebniss ist. Eine Alternative zu diesem Ansatz wird von angeboten Bayes'sche Inferenz, obwohl es eine Feststellung eines erfordert vorherige Wahrscheinlichkeit.[50]
- Die Ablehnung der Nullhypothese beweist die alternative Hypothese nicht automatisch.
- Wie alles in Inferenzstatistik Es stützt sich auf die Stichprobengröße und daher unter Fette Schwänze P-Werte können ernsthaft falsch eingeflossen sein.[Klarstellung erforderlich]
Beispiele
Einige bekannte statistische Tests und Verfahren sind:
Explorationsdatenanalyse
Explorationsdatenanalyse (Eda) ist ein Ansatz zu Analysieren Datensätze Um ihre Haupteigenschaften zusammenzufassen, oft mit visuellen Methoden. EIN Statistisches Modell Kann verwendet werden oder nicht, aber in erster Linie dient EDA, um zu sehen, was die Daten uns über die formale Modellierung oder Hypothesentestaufgabe hinaus mitteilen können.
Missbrauch
Missbrauch von Statistiken Kann subtile, aber schwerwiegende Fehler in der Beschreibung und Interpretation erzeugen - in dem Sinne, dass selbst erfahrene Fachkräfte solche Fehler machen und in dem Sinne ernsthaft machen, dass sie zu verheerenden Entscheidungsfehlern führen können. Zum Beispiel stützen sich die Sozialpolitik, die medizinische Praxis und die Zuverlässigkeit von Strukturen wie Brücken alle auf die ordnungsgemäße Verwendung von Statistiken.
Selbst wenn statistische Techniken korrekt angewendet werden, können die Ergebnisse für diejenigen, denen es an Fachwissen fehlt, schwer zu interpretieren sein. Das statistische Signifikanz von einem Trend in den Daten - was misst, inwieweit ein Trend durch zufällige Variation der Stichprobe verursacht werden kann - kann mit einem intuitiven Sinn für ihre Bedeutung nicht übereinstimmen. Die Reihe von grundlegenden statistischen Fähigkeiten (und Skepsis), die Menschen in ihrem Alltag richtig umgehen müssen, wird als bezeichnet als Statistische Alphabetisierung.
Es besteht die allgemeine Wahrnehmung, dass statistisches Wissen allzu sehr absichtlich ist missbraucht indem Sie Wege finden, nur die Daten zu interpretieren, die für den Moderator günstig sind.[51] Ein Misstrauen und ein Missverständnis der Statistiken sind mit dem Zitat verbunden, "Es gibt drei Arten von Lügen: Lügen, verdammte Lügen und Statistiken"Der Missbrauch von Statistiken kann sowohl unbeabsichtigt als auch beabsichtigt sein, und das Buch Wie man mit Statistiken lügt,[51] durch Darrell Huffbeschreibt eine Reihe von Überlegungen. In dem Versuch, die Verwendung und den Missbrauch von Statistiken zu beleuchten, werden Überprüfungen statistischer Techniken durchgeführt, die in bestimmten Bereichen verwendet werden (z. B. Warne, Lazo, Ramos und Ritter (2012)).[52]
Möglichkeiten zur Vermeidung von Missbrauch von Statistiken umfassen die Verwendung geeigneter Diagramme und Vermeidung Voreingenommenheit.[53] Missbrauch kann auftreten, wenn Schlussfolgerungen sind übergeneralisiert und behauptet, repräsentativ für mehr als sie wirklich zu sein, oft entweder durch absichtlich oder unbewusst übersehen, wie sie die Stichprobenverzerrung übersehen.[54] Balkendiagramme sind wohl die einfachsten Diagramme, die sie verwenden und verstehen können, und sie können entweder von Hand oder mit einfachen Computerprogrammen hergestellt werden.[53] Leider suchen die meisten Menschen nicht nach Voreingenommenheit oder Fehlern, daher werden sie nicht bemerkt. Daher können Menschen oft glauben, dass etwas wahr ist, auch wenn es nicht gut ist repräsentiert.[54] Um Daten aus statistischen und genauen und genauen Daten zu machen, muss die Stichprobe für das Ganze repräsentativ sein.[55] Laut Huff "kann die Zuverlässigkeit einer Stichprobe durch [Voreingenommenheit] zerstört werden ... erlauben Sie sich ein gewisses Maß an Skepsis."[56]
Um das Verständnis von Statistiken zu unterstützen, schlug Huff eine Reihe von Fragen vor, die in jedem Fall gestellt werden sollen:[51]
- Wer sagt das? (Hat er/sie eine Axt zum Schleifen?)
- Woher weiß er/sie? (Hat er/sie die Ressourcen, um die Fakten zu kennen?)
- Was fehlt? (Gibt er/sie uns ein komplettes Bild?)
- Hat jemand das Thema verändert? (Bietet er/sie uns die richtige Antwort auf das falsche Problem?)
- Macht das Sinn? (Stimmt seine Schlussfolgerung logisch und überein mit dem, was wir bereits wissen?)

Fehlinterpretation: Korrelation
Das Konzept von Korrelation Besonders bemerkenswert für die potenzielle Verwirrung, die es verursachen kann. Statistische Analyse von a Datensatz Oft zeigt sich, dass zwei Variablen (Eigenschaften) der betrachteten Bevölkerung tendenziell zusammen variieren, als ob sie verbunden wären. Zum Beispiel könnte eine Studie über ein jährliches Einkommen, das auch das Todesalter betrachtet, feststellen, dass arme Menschen tendenziell ein kürzeres Leben haben als wohlhabende Menschen. Die beiden Variablen sollen korreliert sein; Sie können jedoch die Ursache voneinander sein oder nicht. Die Korrelationsphänomene könnten durch ein drittes, zuvor unbeständiges Phänomen verursacht werden, das als lauernde Variable bezeichnet wird oder Variable verwirrende. Aus diesem Grund gibt es keine Möglichkeit, die Existenz einer kausalen Beziehung zwischen den beiden Variablen sofort zu schließen.
Anwendungen
Angewandte Statistiken, theoretische Statistiken und mathematische Statistiken
Angewendete Statistiken, manchmal bezeichnet als Statistische Wissenschaft,[57] Enthält beschreibende Statistiken und die Anwendung von Inferenzstatistiken.[58][59] Theoretische Statistik betrifft die logischen Argumente, die die Rechtfertigung von Ansätzen zugrunde liegen statistische Inferenzsowie umfassen Mathematische Statistik. Mathematische Statistiken umfassen nicht nur die Manipulation von Wahrscheinlichkeitsverteilungen notwendig, um Ergebnisse im Zusammenhang mit Schätz- und Inferenzmethoden abzuleiten, aber auch für verschiedene Aspekte von Computerstatistik und die Versuchsplanung.
Statistische Berater Kann Organisationen und Unternehmen helfen, die für ihre speziellen Fragen nicht internes Fachwissen haben.
Maschinelles Lernen und Data Mining
Maschinelles Lernen Modelle sind statistische und probabilistische Modelle, die Muster in den Daten unter Verwendung von Rechenalgorithmen erfassen.
Statistik in der Wissenschaft
Statistiken sind für eine Vielzahl von anwendbar Akademische Disziplinen, einschließlich natürlich und Sozialwissenschaften, Regierung und Geschäft. Geschäftsstatistiken wenden statistische Methoden in Ökonometrie, Prüfung und Produktion und Operationen, einschließlich Dienstleistungsverbesserungen und Marketingforschung.[60] Eine Studie mit zwei Zeitschriften in der tropischen Biologie ergab, dass die 12 häufigsten statistischen Tests: Varianzanalyse (ANOVA), Chi-Quadrat-Test, Studenten t -Test, Lineare Regression, Pearsons Korrelationskoeffizient, Mann-Whitney u Test, Kruskal-Wallis-Test, Shannons Diversity Index, Tukeys Test, Clusteranalyse, Spearmans Rangkorrelationstest und Hauptkomponentenanalyse.[61]
Ein typischer Statistikkurs behandelt beschreibende Statistiken, Wahrscheinlichkeit, Binomial und Normalverteilungen, Test von Hypothesen und Konfidenzintervallen, lineare Regressionund Korrelation.[62] Moderne grundlegende statistische Kurse für Studenten konzentrieren sich auf die korrekte Testauswahl, die Interpretation der Ergebnisse und die Verwendung von Kostenlose Statistiksoftware.[61]
Statistisches Computer

Der schnelle und anhaltende Zunahme der Rechenleistung ab der zweiten Hälfte des 20. Jahrhunderts hat sich erheblich auf die Praxis der statistischen Wissenschaft ausgewirkt. Frühe statistische Modelle stammten fast immer aus der Klasse von Lineare Modelle, aber leistungsstarke Computer, gepaart mit geeigneten numerischen Algorithmen, verursachte ein erhöhtes Interesse an Nichtlineare Modelle (wie zum Beispiel Neuronale Netze) sowie die Schaffung neuer Typen, wie z. Verallgemeinerte lineare Modelle und Multilevel -Modelle.
Eine erhöhte Rechenleistung hat auch zur wachsenden Beliebtheit rechenintensiver Methoden geführt, die auf basieren Resampling, wie zum Beispiel Permutationstests und die Bootstrap, während Techniken wie Gibbs -Probenahme benutzte Bayes'sche Modelle machbarer. Die Computerrevolution hat Auswirkungen auf die Zukunft der Statistiken mit einem neuen Schwerpunkt auf "experimentellen" und "empirischen" Statistiken. Eine große Anzahl von allgemeinen und besonderen Zwecken Statistische Software sind jetzt verfügbar. Beispiele für verfügbare Software, die komplexe statistische Berechnungen in der Lage sind, umfassen Programme wie z. B. Mathematica, SAS, SPSS, und R.
Geschäftsstatistik
Im Geschäft ist "Statistik" weit verbreitet Management- und Entscheidungshilfe Werkzeug. Es wird besonders in angewendet Finanzverwaltung, Marketing-Management, und Produktion, Dienstleistungen und Operations Management .[63][64] Statistiken werden auch stark verwendet in Management Accounting und Prüfung. Die Disziplin von Managementwissenschaft Formalisiert die Verwendung von Statistiken und anderen Mathematik im Geschäft. (Ökonometrie ist die Anwendung statistischer Methoden auf Wirtschaftsdaten um empirische Inhalte zu geben wirtschaftliche Beziehungen.))
Ein typischer Kurs für "Geschäftsstatistiken" ist für bestimmt Business Majorsund Cover [65] beschreibende Statistik (Sammlung, Beschreibung, Analyse und Zusammenfassung der Daten), Wahrscheinlichkeit (typischerweise die Binomial- und Normalverteilungen), Test von Hypothesen und Konfidenzintervallen, lineare Regressionund Korrelation; (Nachfolger) Kurse können beinhalten Vorhersage, Zeitfolgen, Entscheidungsbäume, Mehrfach lineare Regressionund andere Themen von Geschäftsanalysen allgemeiner. Siehe auch Business Mathematics § Universitätsniveau. Professionelle Zertifizierungsprogramme, so wie die CFAenthalten häufig Themen in Statistiken.
Statistiken, die für Mathematik oder Kunst angewendet werden
Traditionell befasste sich die Statistiken mit der Anziehung von Schlussfolgerungen unter Verwendung einer halbstandardisierten Methodik, die in den meisten Wissenschaften "Lernen" war. Diese Tradition hat sich durch die Verwendung von Statistiken in nicht-inferentiellen Kontexten verändert. Was einst als trockenes Thema angesehen wurde, das in vielen Bereichen als Gradwiderstand genommen wurde, wird nun begeistert angesehen.[Nach wem?] Anfänglich von einigen mathematischen Puristen verspottet, wird es jetzt in bestimmten Bereichen als wesentliche Methodik angesehen.
- Im Zahlentheorie, Handlungsdiagramme Von Daten, die durch eine Verteilungsfunktion erzeugt werden, können mit bekannten Tools, die in Statistiken verwendet werden, um zugrunde liegende Muster zu erkennen, die dann zu Hypothesen führen können.
- Prädiktive Methoden der Statistik in Vorhersage Kombinieren Chaostheorie und Fraktale Geometrie Kann zum Erstellen von Videowerken verwendet werden.[66]
- Das Prozesskunst von Jackson Pollock stützte sich auf künstlerische Experimente, bei denen die zugrunde liegenden Verteilungen in der Natur künstlerisch enthüllt wurden.[67] Mit dem Aufkommen von Computern wurden statistische Methoden angewendet, um solche verteilungsgetriebenen natürlichen Prozesse zu formalisieren, um bewegende Videokunst zu erstellen und zu analysieren.
- Statistikmethoden können vorhersagend in verwendet werden Performance Art, wie in einem Kartentrick basierend auf einem Markov -Prozess Das funktioniert nur einige Zeit, deren Anlass mithilfe der statistischen Methodik vorhergesagt werden kann.
- Statistiken können verwendet werden, um vorhersagend Kunst zu schaffen, wie im statistischen oder Stochastische Musik erfunden von Iannis Xenakis, wo die Musik leistungsspezifisch ist. Obwohl diese Art von Kunst nicht immer wie erwartet herauskommt, verhalten sie sich auf eine Weise, die mit Statistiken vorhersehbar und abstimmbar ist.
Spezialisierte Disziplinen
Statistische Techniken werden in einer Vielzahl von Arten von wissenschaftlicher und sozialer Forschung eingesetzt, darunter: Bio-Statistiken, Computerbiologie, Computersoziologie, Netzwerkbiologie, Sozialwissenschaften, Soziologie und Sozialforschung. Einige Bereiche der Anfrage verwenden angewandte Statistiken so umfangreich, dass sie haben Spezialterminologie. Diese Disziplinen umfassen:
- Versicherungsmathematik (Bewertet das Risiko in der Versicherungs- und Finanzbranche)
- Angewandte Informationsökonomie
- Astrostatistik (statistische Bewertung astronomischer Daten)
- Bio-Statistiken
- Chemometrie (zur Analyse von Daten von Chemie)
- Data Mining (Anwendung Statistiken und Mustererkennung Wissen aus Daten zu entdecken)
- Datenwissenschaft
- Demographie (Statistische Studie über Populationen)
- Ökonometrie (Statistische Analyse der Wirtschaftsdaten)
- Energiestatistik
- Technische Statistik
- Epidemiologie (Statistische Analyse der Krankheit)
- Erdkunde und Geografisches Informationssystem, speziell in Raumanalyse
- Bildverarbeitung
- Jurimetrie (Gesetz)
- Medizinische Statistik
- Politikwissenschaft
- Psychologische Statistiken
- Zuverlässigkeitstechnik
- Sozialstatistik
- Statistische Mechanik
Darüber hinaus gibt es bestimmte Arten statistischer Analysen, die auch ihre eigene spezielle Terminologie und Methodik entwickelt haben:
- Bootstrap/ Klappmesser Resampling
- Multivariate Statistiken
- Statistische Klassifizierung
- Strukturierte Datenanalyse
- Modellierung von Strukturgleichungen
- Vermessungsmethode
- Überlebensanalyse
- Statistiken in verschiedenen Sportarten, insbesondere in Baseball - bekannt als Sabermetrie - und Kricket
Statistiken bilden auch ein Schlüsselbasis -Tool für Unternehmen und Fertigung. Es wird verwendet, um die Variabilität der Messsysteme und Steuerungsprozesse zu verstehen (wie in Statistische Prozess Kontrolle oder SPC) zum Zusammenfassen von Daten und zum Treffen datengesteuerter Entscheidungen. In diesen Rollen ist es ein Schlüsselwerkzeug und möglicherweise das einzig zuverlässige Werkzeug.
Siehe auch
- Häufigkeitsschätzung
- Glossar der Wahrscheinlichkeit und Statistik
- Liste der akademischen statistischen Verbände
- Liste wichtiger Veröffentlichungen in Statistiken
- Liste der nationalen und internationalen statistischen Dienste
- Liste der statistischen Pakete (Software)
- Liste der Statistikartikel
- Liste der statistischen Beratungszentren der Universität
- Notation in Wahrscheinlichkeit und Statistik
- Statistikausbildung
- World Statistics Day
- Fundamente und Hauptbereiche der Statistik
Verweise
- ^ "Statistiken". Oxford Referenz. Oxford University Press. Januar 2008. ISBN 978-0-19-954145-4. Archiviert vom Original am 2020-09-03. Abgerufen 2019-08-14.
- ^ Romijn, Jan.-Willem (2014). "Philosophie der Statistik". Stanford Encyclopedia of Philosophy. Archiviert vom Original am 2021-10-19. Abgerufen 2016-11-03.
- ^ "Cambridge Wörterbuch". Archiviert vom Original am 2020-11-22. Abgerufen 2019-08-14.
- ^ Dodge, Y. (2006) Das Oxford -Wörterbuch über statistische Begriffe, Oxford University Press. ISBN0-19-920613-9
- ^ a b Lund Research Ltd. "Deskriptive und inferentielle Statistik". Statistics.laerd.com. Archiviert vom Original am 2020-10-26. Abgerufen 2014-03-23.
- ^ "Was ist der Unterschied zwischen Typ I und Typ II -Hypothesentestfehlern?". About.com Bildung. Archiviert vom Original am 2017-02-27. Abgerufen 2015-11-27.
- ^ Moses, Lincoln E. (1986) Denken und erklären Sie mit Statistiken, Addison-Wesley, ISBN978-0-201-15619-5. S. 1–3
- ^ Hays, William Lee, (1973) Statistiken für die Sozialwissenschaften, Holt, Rinehart und Winston, p.xii, ISBN978-0-03-077945-9
- ^ Moore, David (1992). "Lehrstatistiken als respektables Thema". In F. Gordon; S. Gordon (Hrsg.). Statistiken für das 21. Jahrhundert. Washington, DC: The Mathematical Association of America. pp.14–25. ISBN 978-0-88385-078-7.
- ^ Chance, Beth L.; Rossman, Allan J. (2005). "Vorwort" (PDF). Untersuchung statistischer Konzepte, Anwendungen und Methoden. Duxbury Press. ISBN 978-0-495-05064-3. Archiviert (PDF) vom Original am 2020-11-22. Abgerufen 2009-12-06.
- ^ Lakshmikantham, D.; Kannan, V. (2002). Handbuch der stochastischen Analyse und Anwendungen. New York: M. Dekker. ISBN 0824706609.
- ^ Schervish, Mark J. (1995). Theorie der Statistik (Corr. 2. Print. Ed.). New York: Springer. ISBN 0387945466.
- ^ a b Broemeling, Lyle D. (1. November 2011). "Ein Bericht über frühe statistische Inferenz in der arabischen Kryptologie". Der amerikanische Statistiker. 65 (4): 255–257. doi:10.1198/tas.2011.10191. S2CID 123537702.
- ^ Willcox, Walter (1938) "Der Gründer von Statistik". Überprüfung der Internationales statistisches Institut 5 (4): 321–328. JStor 1400906
- ^ J. Franklin, Die Wissenschaft der Vermutung: Beweise und Wahrscheinlichkeit vor Pascal, Johns Hopkins Univ PR 2002
- ^ Helen Mary Walker (1975). Studien zur Geschichte der statistischen Methode. Arno Press. ISBN 9780405066283. Archiviert vom Original am 2020-07-27. Abgerufen 2015-06-27.
- ^ Galton, F (1877). "Typische Vererbungsgesetze". Natur. 15 (388): 492–553. Bibcode:1877natur..15..492.. doi:10.1038/015492a0.
- ^ Stigler, S.M. (1989). "Francis Galtons Bericht über die Erfindung der Korrelation". Statistische Wissenschaft. 4 (2): 73–79. doi:10.1214/ss/1177012580.
- ^ Pearson, K. (1900). "Nach dem Kriterium, dass ein bestimmtes System von Abweichungen von der Wahrscheinlichkeit bei einem korrelierten Variablensystem so ist, dass es vernünftigerweise aus zufälliger Stichproben entstanden sein soll". Philosophischer Magazin. Serie 5. 50 (302): 157–175. doi:10.1080/14786440009463897. Archiviert vom Original am 2020-08-18. Abgerufen 2019-06-27.
- ^ "Karl Pearson (1857–1936)". Abteilung für statistische Wissenschaft - University College London. Archiviert von das Original am 2008-09-25.
- ^ Fisher | 1971 | loc = Kapitel II. Die Experimenteprinzipien, die durch ein psycho-physikalisches Experiment veranschaulicht werden, Abschnitt 8. Die Nullhypothese
- ^ OED -Zitat: 1935 R.A. Fischer, Das Design von Experimenten II. 19, "Wir können von dieser Hypothese als" Nullhypothese "sprechen, und die Nullhypothese wird nie bewiesen oder etabliert, sondern möglicherweise im Verlauf des Experimentierens widerlegt."
- ^ Box, JF (Februar 1980). "R.A. Fisher und das Design von Experimenten, 1922–1926". Der amerikanische Statistiker. 34 (1): 1–7. doi:10.2307/2682986. JStor 2682986.
- ^ Yates, F (Juni 1964). "Sir Ronald Fisher und das Design von Experimenten". Biometrie. 20 (2): 307–321. doi:10.2307/2528399. JStor 2528399.
- ^ Stanley, Julian C. (1966). "Der Einfluss von Fishers" Das Design von Experimenten "auf die Bildungsforschung dreißig Jahre später". American Educational Research Journal. 3 (3): 223–229. doi:10.3102/00028312003003223. JStor 1161806. S2CID 145725524.
- ^ Agresti, Alan; David B. Hichcock (2005). "Bayes'sche Inferenz für die kategoriale Datenanalyse" (PDF). Statistische Methoden und Anwendungen. 14 (3): 298. doi:10.1007/s10260-005-0121-y. S2CID 18896230. Archiviert (PDF) vom Original am 2013-12-19. Abgerufen 2013-12-19.
- ^ Edwards, A.W.F. (1998). "Natürliche Selektion und das Geschlechtsverhältnis: Fisher's Quellen". Amerikanischer Naturforscher. 151 (6): 564–569. doi:10.1086/286141. PMID 18811377. S2CID 40540426.
- ^ Fisher, R.A. (1915) Die Entwicklung der sexuellen Präferenz. Eugenics Review (7) 184: 192
- ^ Fisher, R.A. (1930) Die genetische Theorie der natürlichen Selektion. ISBN0-19-850440-3
- ^ Edwards, A.W.F. (2000) Perspektiven: Anekdotische, historische und kritische Kommentare zur Genetik. Die Genetics Society of America (154) 1419: 1426
- ^ Andersson, Malte (1994). Sexuelle Auswahl. Princeton University Press. ISBN 0-691-00057-3. Archiviert vom Original am 2019-12-25. Abgerufen 2019-09-19.
- ^ Andersson, M. und Simmons, L.W. (2006) Sexuelle Selektion und Partnerwahl. Trends, Ökologie und Evolution (21) 296: 302
- ^ Gayon, J. (2010) Sexuelle Selektion: Ein weiterer darwinischer Prozess. COMPTES Rendus Biologies (333) 134: 144
- ^ Neyman, J (1934). "Zu den beiden verschiedenen Aspekten der repräsentativen Methode: die Methode der geschichteten Probenahme und die Methode der zielgerichteten Selektion". Zeitschrift der Royal Statistical Society. 97 (4): 557–625. doi:10.2307/2342192. JStor 2342192.
- ^ "Wissenschaft in einer komplexen Welt - Big Data: Chance oder Bedrohung?". Santa Fe Institute. Archiviert vom Original am 2016-05-30. Abgerufen 2014-10-13.
- ^ Freedman, D.A. (2005) Statistische Modelle: Theorie und Praxis, Cambridge University Press. ISBN978-0-521-67105-7
- ^ McCarney R., Warner J., Iliffe S., Van Haselen R., Griffin M., Fisher P. (2007). "Der Hawthorne -Effekt: Eine randomisierte, kontrollierte Studie". BMC Med Res -Methode. 7 (1): 30. doi:10.1186/1471-2288-7-30. PMC 1936999. PMID 17608932.
- ^ Rothman, Kenneth J; Grönland, Sander; Lash, Timothy, Hrsg. (2008). "7". Moderne Epidemiologie (3. Aufl.). Lippincott Williams & Wilkins. p.100. ISBN 9780781755641.
- ^ Mosteller, F.; Tukey, J.W. (1977). Datenanalyse und Regression. Boston: Addison-Wesley.
- ^ Nelder, J.A. (1990). Das Wissen, das zum Computerisieren und Interpretation statistischer Informationen erforderlich ist. Im Expertensysteme und künstliche Intelligenz: Die Notwendigkeit von Informationen über Daten. Bericht der Bibliotheksvereinigung, London, 23. bis 27. März.
- ^ Chrisman, Nicholas R (1998). "Messwerte für Kartographie überdenken". Kartographie und geografische Informationswissenschaft. 25 (4): 231–242. doi:10.1559/152304098782383043.
- ^ Van Den Berg, G. (1991). Auswahl einer Analysemethode. Leiden: DSWO Press
- ^ Hand, D.J. (2004). Messungstheorie und -praxis: Die Welt durch Quantifizierung. London: Arnold.
- ^ Mann, Prem S. (1995). Einführungsstatistik (2. Aufl.). Wiley. ISBN 0-471-31009-3.
- ^ Upton, G., Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN978-0-19-954145-4.
- ^ a b Piazza Elio, probabilità e statistica, Esculapio 2007
- ^ Everitt, Brian (1998). Das Cambridge Dictionary of Statistics. Cambridge, UK New York: Cambridge University Press. ISBN 0521593468.
- ^ "Cohen (1994) Die Erde ist rund (p <0,05)". Yourstatsguru.com. Archiviert vom Original am 2015-09-05. Abgerufen 2015-07-20.
- ^ Rubin, Donald B.; Little, Roderick J.A., Statistische Analyse mit fehlenden Daten, New York: Wiley 2002
- ^ Ioannidis, J.P.A. (2005). "Warum die meisten veröffentlichten Forschungsergebnisse falsch sind". PLOS -Medizin. 2 (8): e124. doi:10.1371/journal.pMed.0020124. PMC 1182327. PMID 16060722.
- ^ a b c Huff, Darrell (1954) Wie man mit Statistiken lügt, WW Norton & Company, Inc. New York. ISBN0-393-31072-8
- ^ Warne, R. Lazo; Ramos, T.; Ritter, N. (2012). "Statistische Methoden, die in begabten Education Journals, 2006–2010 verwendet werden". Gifted Child Quarterly. 56 (3): 134–149. doi:10.1177/001698621244122. S2CID 144168910.
- ^ a b Drennan, Robert D. (2008). "Statistik in Archäologie". In Pearsall, Deborah M. (Hrsg.). Enzyklopädie der Archäologie. Elsevier Inc. pp.2093–2100. ISBN 978-0-12-373962-9.
- ^ a b Cohen, Jerome B. (Dezember 1938). "Missbrauch von Statistiken". Zeitschrift der American Statistical Association. JStor. 33 (204): 657–674. doi:10.1080/01621459.1938.10502344.
- ^ Freund, J.E. (1988). "Moderne Grundstatistik". Credo Referenz.
- ^ Huff, Darrell; Irving Geis (1954). Wie man mit Statistiken lügt. New York: Norton.
Die Zuverlässigkeit einer Stichprobe kann durch [Voreingenommenheit] zerstört werden ... erlauben Sie sich ein gewisses Maß an Skepsis.
- ^ Nelder, John A. (1999). "Von Statistiken zur statistischen Wissenschaft". Zeitschrift der Royal Statistical Society. Serie D (der Statistiker). 48 (2): 257–269. doi:10.1111/1467-9884.00187. ISSN 0039-0526. JStor 2681191. Archiviert vom Original am 2022-01-15. Abgerufen 2022-01-15.
- ^ Nikoletasa, M.M. (2014) "Statistik: Konzepte und Beispiele." ISBN978-1500815684
- ^ Anderson, D.R.; Sweeney, D.J.; Williams, T.A. (1994) Einführung in Statistiken: Konzepte und Anwendungen, S. 5–9. West Group. ISBN978-0-314-03309-3
- ^ "Journal of Business & Economic Statistics". Journal of Business & Economic Statistics. Taylor & Francis. Archiviert Aus dem Original am 27. Juli 2020. Abgerufen 16. März 2020.
- ^ a b Natalia loaiza Velásquez, María Isabel González Lutz & Julián Monge-Nájera (2011). "Welche Statistiken sollten tropische Biologen lernen?" (PDF). Revista Biología Tropical. 59: 983–992. Archiviert (PDF) vom Original am 2020-10-19. Abgerufen 2020-04-26.
- ^ Pekoz, Erol (2009). Der Leitfaden des Managers zu Statistiken. Erol Pekoz. ISBN 9780979570438.
- ^ "Ziele und Umfang". Journal of Business & Economic Statistics. Taylor & Francis. Archiviert vom Original am 23. Juni 2021. Abgerufen 16. März 2020.
- ^ "Journal of Business & Economic Statistics". Journal of Business & Economic Statistics. Taylor & Francis. Archiviert Aus dem Original am 27. Juli 2020. Abgerufen 16. März 2020.
- ^ Es stehen zahlreiche Texte zur Verfügung, die den Umfang und die Reichweite der Disziplin in der Geschäftswelt widerspiegeln:
- Sharpe, N. (2014). Geschäftsstatistik, Pearson. ISBN978-0134705217
- Wegner, T. (2010). Angewandte Geschäftsstatistiken: Methoden und Excel-basierte Anwendungen, Juta Academic. ISBN0702172863
- Holmes, L., Illowsky, B., Dean, S (2017). Einführungsgeschäftsstatistik Archiviert 2021-06-16 am Wayback -Maschine Archiviert 2021-06-16 am Wayback -Maschine
- Nica, M. (2013). Prinzipien der Geschäftsstatistik Archiviert 2021-05-18 am Wayback -Maschine Archiviert 2021-05-18 am Wayback -Maschine
- ^ Cline, Graysen (2019). Nichtparametrische statistische Methoden mit r. Edtech. ISBN 978-1-83947-325-8. OCLC 1132348139. Archiviert from the original on 2022-05-15. Abgerufen 2021-09-16.
- ^ Palacios, Bernardo; Rosario, Alfonso; Wilhelmus, Monica M.; Zetina, Sandra; Zenit, Roberto (2019-10-30). "Pollock vermieden hydrodynamische Instabilitäten, mit seiner Tropftechnik zu malen". PLUS EINS. 14 (10): E0223706. Bibcode:2019PLOSO..1423706p. doi:10.1371/journal.pone.0223706. ISSN 1932-6203. PMC 6821064. PMID 31665191.
Weitere Lektüre
- Lydia Denworth, "Ein wesentliches Problem: Standard wissenschaftliche Methoden sind unter Beschuss. Wird sich etwas ändern?", Wissenschaftlicher Amerikaner, vol. 321, Nr. 4 (Oktober 2019), S. 62–67. "Die Verwendung von p Werte seit fast einem Jahrhundert [seit 1925] zu bestimmen statistische Signifikanz von Experimental- Die Ergebnisse haben zu einer Illusion von beigetragen Sicherheit und [zu] Reproduzierbarkeitskrisen in vielen Wissenschaftliche Felder. Die statistische Analyse der Reform der Reform ist zunehmend
- Barbara Illowsky; Susan Dean (2014). Einführungsstatistik. OpenStax CNX. ISBN 9781938168208.
- Stockburger, David W. "Einführungsstatistik: Konzepte, Modelle und Anwendungen". Missouri State University (3. Web ed.). Archiviert von das Original am 28. Mai 2020.
- OpenIntro -Statistik Archiviert 2019-06-16 bei der Wayback -Maschine, 3. Auflage von Diez, Barr und Cetinkaya-Rundel
- Stephen Jones, 2010. Statistiken in der Psychologie: Erklärungen ohne Gleichungen. Palgrave Macmillan. ISBN9781137282392.
- Cohen, J (1990). "Dinge, die ich (bisher) gelernt habe" " (PDF). Amerikanischer Psychologe. 45 (12): 1304–1312. doi:10.1037/0003-066X.45.12.1304. Archiviert von das Original (PDF) Am 2017-10-18.
- Gigerenzer, G (2004). "Dindless Statistics". Journal of Socioökonomie. 33 (5): 587–606. doi:10.1016/j.socec.2004.09.033.
- Ioannidis, J.P.A. (2005). "Warum die meisten veröffentlichten Forschungsergebnisse falsch sind". PLOS -Medizin. 2 (4): 696–701. doi:10.1371/journal.pMed.0040168. PMC 1855693. PMID 17456002.
Externe Links
- (Elektronische Version): Tibco Software Inc. (2020). Data Science Lehrbuch.
- Online -Statistikausbildung: Ein interaktiver Multimedia -Studiengang. Entwickelt von Rice University (Lead Developer), University of Houston Clear Lake, Tufts University und National Science Foundation.
- UCLA statistische Computerressourcen
- Philosophie der Statistik von dem Stanford Encyclopedia of Philosophy