Probengrößenbestimmung
Probengrößenbestimmung ist der Akt der Auswahl der Anzahl der Beobachtungen oder Replikate in a einbeziehen Statistische Probe. Die Stichprobengröße ist ein wichtiges Merkmal jeder empirischen Studie, in der das Ziel ist, zu machen Schlussfolgerungen über einen Population aus einer Probe. In der Praxis wird die in einer Studie verwendete Stichprobengröße normalerweise anhand der Kosten, der Zeit oder der Bequemlichkeit des Sammelns der Daten und der Notwendigkeit festgelegt, dass sie ausreichend anbieten müssen Statistische Macht. In komplizierten Studien können es mehrere verschiedene Stichprobengrößen geben: beispielsweise in a geschichtet Umfrage Für jede Schicht geben es unterschiedliche Größen. In einem VolkszählungEs werden Daten für eine ganze Bevölkerung gesucht, daher entspricht die beabsichtigte Stichprobengröße der Bevölkerung. Im Experimentelles Design, wo eine Studie in unterschiedliche Unterteilung unterteilt werden kann BehandlungsgruppenEs kann für jede Gruppe unterschiedliche Stichprobengrößen geben.
Beispielgrößen können auf verschiedene Arten ausgewählt werden:
- Verwenden von Erfahrung - kleine Stichproben, obwohl manchmal unvermeidlich, kann zu weitem führen Vertrauensintervalle und Risiko von Fehlern in Statistische Hypothesentests.
- Unter Verwendung einer Zielvarianz für eine Schätzung, die aus der Probe gewonnen wird, wird schließlich erhalten, d. H. Wenn eine hohe Genauigkeit erforderlich ist (enges Konfidenzintervall), führt dies zu einer niedrigen Zielvarianz des Schätzers.
- Verwenden eines Ziels für die Kraft von a Statistischer Test angewendet werden, sobald die Probe gesammelt wird.
- Unter Verwendung eines Konfidenzniveaus, d. H. Je größer das erforderliche Konfidenzniveau ist, desto größer ist die Stichprobengröße (bei einer konstanten Präzisionsanforderung).
Einführung
Größere Probengrößen führen im Allgemeinen zu erhöhtem Anstieg Präzision Wenn Schätzung Unbekannte Parameter. Wenn wir beispielsweise den Anteil einer bestimmten Fischart wissen möchten, die mit einem Erreger infiziert sind, hätten wir im Allgemeinen eine genauere Schätzung dieses Anteils, wenn wir 200 statt 100 Fische untersuchen und untersuchen würden. Mehrere grundlegende Fakten mathematischer Statistiken beschreiben dieses Phänomen, einschließlich der Gesetz der großen Anzahl und die Zentralgrenze Theorem.
In einigen Situationen ist die Zunahme der Präzision für größere Stichprobengrößen minimal oder sogar nicht existent. Dies kann aus der Anwesenheit von resultieren systematische Fehler oder stark Abhängigkeit in den Daten oder wenn die Daten einer schwerwiegenden Verteilung folgen.
Probengrößen können anhand der Qualität der resultierenden Schätzungen bewertet werden. Wenn beispielsweise ein Anteil geschätzt wird, möchte man möglicherweise die 95% haben Konfidenzintervall weniger als 0,06 Einheiten breit sein. Alternativ kann die Stichprobengröße basierend auf dem bewertet werden Energie eines Hypothesentests. Wenn wir beispielsweise die Unterstützung für einen bestimmten politischen Kandidaten unter Frauen mit der Unterstützung dieses Kandidaten unter Männern vergleichen, möchten wir möglicherweise 80% Macht haben, um einen Unterschied in den Unterstützungsniveaus von 0,04 Einheiten festzustellen.
Einschätzung
Schätzung eines Anteils
Eine relativ einfache Situation ist die Einschätzung von a Anteil. Zum Beispiel möchten wir den Anteil der Bewohner einer Gemeinde, die mindestens 65 Jahre alt sind, schätzen.
Das Schätzer von a Anteil ist , wo X ist die Anzahl der "positiven" Beobachtungen (z. B. die Anzahl der Menschen aus dem n Stichproben, die mindestens 65 Jahre alt sind). Wenn die Beobachtungen sind unabhängigDieser Schätzer hat eine (skalierte) binomiale Verteilung (und ist auch die Probe bedeuten von Daten von a Bernoulli -Verteilung). Das Maximum Varianz dieser Verteilung beträgt 0,25, was auftritt, wenn der wahr ist Parameter ist p = 0,5. In der Praxis seitdem p ist unbekannt, die maximale Varianz wird häufig für die Bewertungen der Stichprobengröße verwendet. Wenn eine vernünftige Schätzung für P die Menge bekannt ist kann anstelle von 0,25 verwendet werden.
Für ausreichend groß n, Die Verteilung von wird durch a eng angenähert Normalverteilung.[1] Verwenden Sie dies und die Waldmethode für die BinomialverteilungErgibt ein Konfidenzintervall der Form
- ,
- wobei Z ein Standard ist Z-Score Für das gewünschte Vertrauensniveau (1,96 für ein 95% -Konfidenzintervall).
Wenn wir ein Konfidenzintervall haben möchten, das ist W Einheiten insgesamt Breite (w/2 auf jeder Seite des Probenmittelwerts) würden wir lösen
zum ndie Probengröße ergibt
im Falle der Verwendung von 0,5 als konservativste Schätzung des Verhältnisses. (Hinweis: w/2 = Fehlermarge.))
In der folgenden Abbildung kann man beobachten, wie sich die Stichprobengrößen für Binomialanteile verändern, wenn sich unterschiedliche Konfidenzniveaus und Fehlergrenzen verändern.
Andernfalls wäre die Formel , was ergibt .
Wenn wir beispielsweise daran interessiert sind, den Anteil der US -Bevölkerung zu schätzen, der einen bestimmten Präsidentschaftskandidaten unterstützt, und wir möchten, dass die Breite von 95% Konfidenzintervall höchstens 2 Prozentpunkte (0,02) beträgt, würden wir eine Stichprobengröße benötigen von (1,962)/(0,022) = 9604. Es ist vernünftig, die Schätzung von 0,5 für P in diesem Fall zu verwenden, da die Präsidentenrennen häufig nahe bei 50/50 liegen und es auch ratsam ist, eine konservative Schätzung zu verwenden. Das Fehlermarge In diesem Fall beträgt 1 Prozentpunkt (Hälfte von 0,02).
Das Vorstehende ist häufig vereinfacht
bildet ein 95% -Konfidenzintervall für den wahren Anteil. Wenn dieses Intervall nicht mehr als sein muss W Einheiten breit, die Gleichung
kann gelöst werden für n, nachgeben[2][3] n= 4/W2= 1//B2 wo B ist der auf der Schätzung gebundene Fehler, d. H. Die Schätzung wird normalerweise als angegeben innerhalb von ± b. Zum B = 10% eins erfordert n = 100, für B = 5% du brauchst man braucht n = 400, für B = 3% der Anforderung nähert sich an n = 1000, während für B = 1% eine Stichprobengröße von n = 10000 ist erforderlich. Diese Zahlen werden häufig in Nachrichtenberichten von zitiert Meinungsumfragen und andere Beispielumfragen. Die gemeldeten Ergebnisse sind jedoch möglicherweise nicht der genaue Wert, da die Zahlen vorzugsweise abgerundet sind. Zu wissen, dass der Wert der n ist die Mindestanzahl von Beispielpunkte Die Anzahl der Befragten muss dann auf oder über dem Minimum liegen, um das gewünschte Ergebnis zu erzielen.
Schätzung eines Mittelwerts
Ein Anteil ist ein Sonderfall eines Mittelwerts. Bei der Schätzung des Bevölkerungsmittelwerts unter Verwendung einer unabhängigen und identisch verteilten (IID-) Stichprobe der Größe n, wobei jeder Datenwert Varianz aufweist σ2, das Standart Fehler des Stichprobenmittelwerts lautet:
Dieser Ausdruck beschreibt quantitativ, wie die Schätzung mit zunehmender Stichprobengröße genauer wird. Verwendung der Zentralgrenze Theorem Um die Annäherung des Stichprobenmittelwerts mit einer Normalverteilung zu rechtfertigen, ergibt sich ein Konfidenzintervall der Form
- ,
- wobei Z ein Standard ist Z-Score Für das gewünschte Vertrauensniveau (1,96 für ein 95% -Konfidenzintervall).
Wenn wir ein Konfidenzintervall haben möchten, das ist W Einheiten insgesamt Breite (w/2 auf jeder Seite des Probenmittelwerts) würden wir lösen
zum ndie Probengröße ergibt
. (Hinweis: w/2 = Fehlermarge.))
Wenn wir beispielsweise daran interessiert sind, die Menge zu schätzen, mit der ein Medikament den Blutdruck eines Subjekts mit einem 95% -Konfidenzintervall senkt, das sechs Einheiten breit ist, und wir wissen, dass die Standardabweichung des Blutdrucks in der Bevölkerung 15 beträgt, dann die dann die Erforderliche Stichprobengröße ist , was auf 97 gerundet wäre, weil der erhaltene Wert der ist Minimum Probengröße und Stichprobengrößen müssen Ganzzahlen sein und müssen auf oder über dem berechneten Minimum liegen.
Erforderliche Probengrößen für Hypothesentests
Ein häufiges Problem für Statistiker ist die Berechnung der Stichprobengröße, die für eine bestimmte Erfolge erforderlich ist Energie für einen Test bei einem vorgegebenen Typ I -Fehler Rate α. Wie folgt kann dies durch vorbestimmte Tabellen für bestimmte Werte, durch Meads Ressourcengleichung oder allgemeiner durch die geschätzt werden Verteilungsfunktion:
Tische
[4] Leistung | Cohen's d | ||
---|---|---|---|
0,2 | 0,5 | 0,8 | |
0,25 | 84 | 14 | 6 |
0,50 | 193 | 32 | 13 |
0,60 | 246 | 40 | 16 |
0,70 | 310 | 50 | 20 |
0,80 | 393 | 64 | 26 |
0,90 | 526 | 85 | 34 |
0,95 | 651 | 105 | 42 |
0,99 | 920 | 148 | 58 |
Die rechts gezeigte Tabelle kann in a verwendet werden Zwei-Stichproben-T-Test Um die Stichprobengrößen von a zu schätzen Versuchsgruppe und ein Kontrollgruppe Das ist gleich groß, dh die Gesamtzahl der Personen im Versuch ist doppelt so hoch wie die angegebene Zahl und die gewünschten Signifikanzniveau ist 0,05.[4] Die verwendeten Parameter sind:
- Der gewünschte Statistische Macht des Versuchs, in der Spalte links gezeigt.
- Cohen's d (= Effektgröße), was der erwartete Unterschied zwischen dem ist meint der Zielwerte zwischen der experimentellen Gruppe und der Kontrollgruppe, geteilt durch die Erwartungen Standardabweichung.
Meads Ressourcengleichung
Die Ressourcengleichung von Mead wird häufig zur Schätzung der Stichprobengrößen von verwendet Labortieresowie in vielen anderen Laborexperimenten. Es ist möglicherweise nicht so genau wie die Verwendung anderer Methoden bei der Schätzung der Stichprobengröße, gibt jedoch einen Hinweis darauf, wie die entsprechende Stichprobengröße ist, bei der Parameter wie erwartete Standardabweichungen oder erwartete Werteunterschiede zwischen Gruppen unbekannt oder sehr schwer zu schätzen sind.[5]
Alle Parameter in der Gleichung sind in der Tat die Freiheitsgrade von der Anzahl ihrer Konzepte und daher werden ihre Zahlen durch 1 vor dem Einfügen in die Gleichung abgezogen.
Die Gleichung ist:[5]
wo:
- N ist die Gesamtzahl der Personen oder Einheiten in der Studie (minus 1)
- B ist der Blockierungskomponente, dargestellt Umwelteffekte im Design (minus 1)
- T ist der Behandlungskomponente, entsprechend der Anzahl von Behandlungsgruppen (einschließlich Kontrollgruppe) verwendet werden oder die Anzahl der gestellten Fragen (minus 1)
- E ist der Grad der Freiheit der Fehlerkomponenteund sollte irgendwo zwischen 10 und 20 sein.
Zum Beispiel, wenn eine Studie mit Labortieren mit vier Behandlungsgruppen geplant ist (T= 3) mit acht Tieren pro Gruppe, was 32 Tiere insgesamt macht (N= 31) ohne weiteres Schichtung (B= 0), dann E Würde 28 entsprechen, was über dem Grenzwert von 20 liegt, was darauf hinweist, dass die Stichprobengröße etwas zu groß sein kann und sechs Tiere pro Gruppe möglicherweise angemessener sein können.[6]
Verteilungsfunktion
Lassen Xi, i = 1, 2, ..., n unabhängige Beobachtungen von a Normalverteilung mit unbekanntem Mittelwert μ und bekannter Varianz σ2. Betrachten Sie zwei Hypothesen, a Nullhypothese:
und eine alternative Hypothese:
für einige "kleinste signifikante Unterschiede" μ*> 0. Dies ist der kleinste Wert, für den wir uns darum kümmern, einen Unterschied zu beobachten. Nun, wenn wir (1) ablehnen möchten H0 mit einer Wahrscheinlichkeit von mindestens 1 -β WennHa ist wahr (d. H. a Energie von 1 -β) und (2) ablehnen H0 mit Wahrscheinlichkeit α wann H0 ist wahr, dann brauchen wir Folgendes:
Wenn zα ist der obere α -Prozentpunkt der Standardnormalverteilung dann
und so
- 'Ablehnen H0 Wenn unser Stichproben durchschnitt () ist mehr als '
ist ein Entscheidungsregel was erfüllt (2). (Dies ist ein 1-Schwanzer-Test.)
Jetzt wünschen wir uns, dass dies mit einer Wahrscheinlichkeit von mindestens 1 - geschiehtβ WennHa ist wahr. In diesem Fall stammt unser Stichprobendurchschnitt von einer Normalverteilung mit mittlerer μ*. Deshalb benötigen wir
Durch sorgfältige Manipulation kann dies gezeigt werden (siehe Statistische Macht#Beispiel#) zu passieren, wenn
wo ist der Normalwert Verteilungsfunktion.
Geschichtete Probengröße
Mit komplizierteren Stichprobentechniken wie z. geschichtete StichprobeDie Probe kann häufig in Unterproben aufgeteilt werden. Normalerweise, wenn es gibt H Solche Unterproben (von H Unterschiedliche Schichten) dann hat jeder von ihnen eine Stichprobengröße nh, h = 1, 2, ..., H. Diese nh muss der Regel entsprechen, dass n1 + n2 + ... + nH = n (d. H. Dass die Gesamtstichprobengröße durch die Summe der Unterprobengrößen angegeben ist). Auswählen dieser nh Optimal kann auf verschiedene Arten durchgeführt werden, wobei die optimale Allokation von Neyman (z.
Es gibt viele Gründe für die Verwendung einer geschichteten Probenahme:[7] Verringerung der Varianzen von Stichprobenschätzungen, zur Verwendung teilweise nicht zufälliger Methoden oder zur individuellen Untersuchung von Schichten. Eine nützliche, teilweise nicht zufällige Methode wäre, Personen zu probieren, wenn sie leicht zugänglich sind, aber wenn dies nicht die Probencluster ist, um die Reisekosten zu sparen.[8]
Im Allgemeinen für H Strata, ein gewichteter Probe -Mittelwert ist
mit
Die Gewichte, häufig, aber nicht immer die Anteile der Bevölkerungselemente in den Schichten und . Für eine feste Stichprobengröße das heißt Anwesend
das kann ein Minimum erfolgen, wenn die Abtastrate Innerhalb jeder Schicht wird proportional zur Standardabweichung innerhalb jeder Schicht: , wo und ist eine Konstante so, dass .
Eine "optimale Zuordnung" wird erreicht, wenn die Stichprobenraten innerhalb der Schichten direkt proportional zu den Standardabweichungen innerhalb der Schichten und umgekehrt proportional zur Quadratwurzel der Stichprobenkosten pro Element innerhalb der Schichten, umgekehrt werden. :
wo ist eine Konstante so, dass oder allgemeiner, wenn
Qualitative Forschung
Die Bestimmung der Stichprobengrößen in qualitativen Studien verfolgt einen anderen Ansatz. Es ist im Allgemeinen ein subjektives Urteil, das als Forschung erfolgt.[13] Ein Ansatz besteht darin, weiterhin weitere Teilnehmer oder Material zu umfassen, bis Sättigung ist erreicht.[14] Die Anzahl, die zur Erreichung der Sättigung erforderlich ist, wurde empirisch untersucht.[15][16][17][18]
Es gibt einen Mangel an zuverlässigen Leitlinien zur Schätzung der Stichprobengrößen, bevor die Forschung beginnt, mit einer Reihe von Vorschlägen.[16][19][20][21] Ein Werkzeug, das einer quantitativen Leistungsberechnung ähnelt, basierend auf dem negative binomial distribution, wurde vorgeschlagen für thematische Analyse.[22][21]
Siehe auch
- Versuchsplanung
- Beispiel für technische Antwortoberfläche unter Schrittweise Regression
- Cohens h
Anmerkungen
- ^ NIST/Sematech, "7.2.4.2. Probengrößen erforderlich", E-Handbuch statistischer Methoden.
- ^ "Schlussfolgerung für Regression". Utdallas.edu.
- ^ "Konfidenzintervall für einen Teil" Archiviert 2011-08-23 bei der Wayback -Maschine
- ^ a b Kapitel 13, Seite 215, in: Kenny, David A. (1987). Statistiken für die Sozial- und Verhaltenswissenschaften. Boston: Little, braun. ISBN 978-0-316-48915-7.
- ^ a b Kirkwood, James; Robert Hybrrecht (2010). Das UFAW -Handbuch zur Pflege und Verwaltung von Labor- und anderen Forschungstieren. Wiley-Blackwell. p. 29. ISBN 978-1-4051-7523-4. Online -Seite 29
- ^ Isogenic.info> Ressourcengleichung Von Michael FW Festung. Aktualisiert September 2006
- ^ Kish (1965, Abschnitt 3.1)
- ^ Kish (1965), p. 148.
- ^ Kish (1965), p. 78.
- ^ Kish (1965), p. 81.
- ^ Kish (1965), p. 93.
- ^ Kish (1965), p. 94.
- ^ Sandelowski, M. (1995). Stichprobengröße in der qualitativen Forschung. Forschung in Krankenpflege & Gesundheit18, 179–183
- ^ Glaser, B. (1965). Die konstante vergleichende Methode der qualitativen Analyse. Soziale Probleme, 12, 436–445
- ^ Francis, Jill J.; Johnston, Marie; Robertson, Clare; Glidewell, Liz; Entwistle, Vikki; Eccles, Martin P.; Grimshaw, Jeremy M. (2010). "Was ist eine angemessene Stichprobengröße? Operationalisierung der Datensättigung für theoretische Interviewstudien" (PDF). Psychologie & Gesundheit. 25 (10): 1229–1245. doi:10.1080/08870440903194015. PMID 20204937. S2CID 28152749.
- ^ a b Gast, Greg; Bunce, Arwen; Johnson, Laura (2006). "Wie viele Interviews reichen genug?" Feldmethoden. 18: 59–82. doi:10.1177/1525822x05279903. S2CID 62237589.
- ^ Wright, Adam; Maloney, Francine L.; Flowitz, Joshua C. (2011). "Einstellungen der Kliniker gegenüber und Verwendung elektronischer Problemlisten: Eine thematische Analyse". BMC -medizinische Informatik und Entscheidungsfindung. 11: 36. doi:10.1186/1472-6947-11-36. PMC 3120635. PMID 21612639.
- ^ Mason, Mark (2010). "Stichprobengröße und Sättigung in Doktorandenstudien mit qualitativen Interviews". Forum Qualitative Sozenorforschung. 11 (3): 8.
- ^ Emmel, N. (2013). Stichproben und Auswahl von Fällen in der qualitativen Forschung: ein realistischer Ansatz. London: Salbei.
- ^ Onwuegbuzie, Anthony J.; Leech, Nancy L. (2007). "Ein Aufruf für qualitative Leistungsanalysen". Qualität und Menge. 41: 105–121. doi:10.1007/s11135-005-1098-1. S2CID 62179911.
- ^ a b Fugard AJB; Potts HWW (10. Februar 2015). "Unterstützung des Denkens an Stichprobengrößen für thematische Analysen: ein quantitatives Werkzeug" (PDF). Internationales Journal für Sozialforschungsmethodik. 18 (6): 669–684. doi:10.1080/13645579.2015.1005453. S2CID 59047474.
- ^ Galvin R (2015). Wie viele Interviews reichen genug? Erzeugen qualitative Interviews in den Aufbau von Energieverbrauchsforschung zuverlässiges Wissen? Journal of Building Engineering, 1: 2–12.
Verweise
- Bartlett, J. E., II; Kotrlik, J. W.; Higgins, C. (2001). "Organisationsforschung: Ermittlung einer geeigneten Stichprobengröße für die Umfrageforschung" (PDF). Informationstechnologie, Lernen und Performance Journal. 19 (1): 43–50.
- Kish, L. (1965). Vermessungstichprobe. Wiley. ISBN 978-0-471-48900-9.
- Smith, Scott (8. April 2013). "Ermittlung der Stichprobengröße: So stellen Sie sicher, dass Sie die richtige Stichprobengröße erhalten". Qualtrik. Abgerufen 19. September 2018.
- Israel, Glenn D. (1992). "Probengröße bestimmen". Universität von Florida, Peod-6. Abgerufen 29. Juni 2019.
- Rens van de Schoot, Milica Miočević (Hrsg.).2020. Kleine Stichprobengrößenlösungen (Open Access): Ein Leitfaden für angewandte Forscher und Praktiker. Routledge.
Weitere Lektüre
- NIST: Auswählen von Beispielgrößen
- ASTM E122-07: Standardpraxis zur Berechnung der Stichprobengröße zur Schätzung mit angegebener Genauigkeit, der Durchschnitt für ein Merkmal vieler oder Prozess