Konfidenzintervall


aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Vertrauensintervall)
Wechseln zu: Navigation, Suche
Datei:Confidence intervall normal dist.svg
Konfidenzintervalle zum Niveau 95 % für 100 Stichproben vom Umfang 30 aus einer normalverteilten Grundgesamtheit. Davon überdecken 94 Intervalle den exakten Erwartungswert μ = 5; die übrigen 6 tun das nicht.

Ein Konfidenzintervall (auch Vertrauensbereich oder Vertrauensintervall und Erwartungsbereich genannt) ist ein Intervall aus der Statistik, das die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) angibt. Das Konfidenzintervall ist der Bereich, der bei unendlicher Wiederholung eines Zufallsexperiments mit einer gewissen Häufigkeit (dem Konfidenzniveau) die wahre Lage des Parameters einschließt.

Ein häufig verwendetes Konfidenzniveau ist 95 %, so dass in diesem Fall (mindestens) 95 % aller auf Grundlage von gemessenen Daten berechneten Konfidenzintervalle den wahren Wert der zu untersuchenden Population beinhalten. Die häufig anzutreffende Formulierung, dass der wahre Wert zu 95 % im Konfidenzintervall liegt, d. h. im vorhandenen berechneten Intervall, ist streng genommen nicht korrekt.<ref>Significance Test Controversy (englisch)</ref><ref>What is the Real Result in the Target Population? In: Statistics in Brief: Confidence Intervals. PMC 2947664 (freier Volltext) (englisch)</ref>

Das Schätzen von Parametern mit Hilfe von Konfidenzintervallen wird Intervallschätzung genannt, die entsprechende Schätzfunktion ein Bereichs- oder Intervallschätzer. Ein Vorteil gegenüber Punktschätzern ist, dass man an einem Konfidenzintervall direkt die Signifikanz ablesen kann. Ein für ein vorgegebenes Konfidenzniveau breites Intervall weist auf einen geringen Stichprobenumfang oder eine starke Variabilität in der Grundgesamtheit hin.

Definition

Es seien unabhängige und identisch verteilte Zufallsvariablen <math>X_1,\dotsc, X_n</math> mit unbekanntem reellen Verteilungsparameter <math>\vartheta</math> gegeben. Wenn sich Stichprobenfunktionen <math>U</math> und <math>V</math> angeben lassen, so dass gilt:

<math>P(U < \vartheta < V) \geq \gamma</math>

mit <math>\gamma \in (0,1)</math>, dann heißt das (stochastische) Intervall <math></math>,

das <math>\hat\mu</math> mit der Wahrscheinlichkeit <math>1-\alpha</math> überdeckt, bestimmen sich aus der Beziehung

<math>P(\bar x_u \le \bar X \le \bar x_o )=1-\alpha</math>.

Man standardisiert zur Standardnormalverteilung <math>\mathcal{N}(0,1)</math> und erhält für die standardisierte Zufallsvariable

<math>Z = \frac {\bar X-\mu}{\sigma/\sqrt{n}}

</math>

die Wahrscheinlichkeit

<math>P \left( {-z_\left( 1-\tfrac {\alpha}{2} \right) \le \frac{\bar X-\mu}{\sigma/\sqrt{n}} \le z_\left( 1-\tfrac{\alpha}{2} \right)} \right) =1-\alpha</math>,

wobei <math>\textstyle z_\left( 1-\frac {\alpha}{2} \right)</math> das <math>(1-\tfrac{\alpha}{2})</math>-Quantil der Standardnormalverteilung ist. Löst man nach <math>\mu</math> auf, so ergibt sich aus

<math>P \left( { \bar X-z_\left( 1-\tfrac {\alpha}{2} \right)\frac {\sigma}{\sqrt{n}} \le \mu \le \bar X+z_\left( 1-\tfrac {\alpha}{2} \right) \frac {\sigma}{\sqrt{n}}} \right) =1- \alpha

</math>

das (1−α)-Konfidenzintervall für <math>\mu</math>

Datei:Konfidenz.png
Mögliche Lage des unbekannten µ im Schätzintervall um das beobachtete<math>\bar x</math>.
<math>\left mit den unbekannten Parametern Erwartungswert μ und der Varianz σ2. Man geht auf Grund langjähriger Beobachtungen hier davon aus, dass <math>X</math> annähernd normalverteilt ist. Die Marktforschungsabteilung hat ein Konfidenzniveau von 0,95 als ausreichend erachtet. Es wird nun 16 Tage lang der tägliche Absatz erfasst. Es hat sich beispielsweise ergeben

Absatz x 110 112 106 90 96 118 108 114 107 90 85 84 113 105 90 104

Bei normalverteilter Grundgesamtheit mit unbekannter Varianz wird das Konfidenzintervall für den Erwartungswert angegeben als

<math>\left[ { \bar x-t_\left( 1-\frac {\alpha}{2}; n-1 \right) \frac {s}{\sqrt{n}} \ ; \ \bar x+t_ \left( 1-\frac {\alpha}{2} ; n-1 \right) \frac {s}{\sqrt{n}}} \right]

</math>

Es ist

<math>\bar x = \frac{1}{16} \cdot (110 + 112 + \dotsb+ 104)=\frac{1}{16} \cdot 1632 = 102</math>

und

<math>

\begin{align} s^2 &= \frac{1}{n-1} \sum (x_i-\bar x)^2\\ &= \frac{1}{15} \left((110-102)^2+(112-102)^2+ \dotsb+ (104-102)^2 \right)\\ &= \frac{1}{15} \cdot 1856 = 123{,}73 \end{align} </math>

Es ist das (1-α/2)-Quantil der t-Verteilung mit 15 Freiheitsgraden

<math>t_\left( 1-\frac {\alpha}{2} ; n-1 \right) = t_\left( 0{,}975; 15 \right) = 2{,}131</math>

Der Wert für t ist sehr komplex zu errechnen und muss daher aus einer Tabelle abgelesen werden.

Das 95 %-Konfidenzintervall berechnet sich dann als

<math>\left[ { 102 - 2{,}131 \frac {\sqrt{123{,}73}} {\sqrt{16}} ; 102 + 2{,}131 \frac {\sqrt{123{,}73}} {\sqrt{16}} } \right] = [102 -5{,}93; 102 + 5{,}93] = [96{,}07; 107{,}93]

</math>

Im Mittel enthalten 95 % der so geschätzten Intervalle den wahren Mittelwert, also den durchschnittlichen Tagesabsatz an Spülmittelflaschen. Für dieses konkrete Intervall trifft die Aussage, dass es mit 95 % Wahrscheinlichkeit den wahren Mittelwert enthält, nicht zu. Man weiß lediglich, dass dieses Intervall aus einer Menge (von Intervallen) stammt, von denen 95 % der Intervalle den wahren Mittelwert enthalten.

Beispiel 2

Ein Unternehmen lieferte ein Los (eine Charge) von 6000 Stück (z. B. Schrauben) an den Kunden. Dieser führt mittels Stichprobennahme gemäß der internationalen Norm ISO 2859-1<ref>Annahmestichprobenprüfung anhand der Anzahl fehlerhaften Einheiten oder Fehler [Attributprüfung] - Teil 1: Nach der annehmbaren Qualitätsgrenzlage AQL geordnete Stichprobenpläne für die Prüfung einer Serie von Losen</ref> eine Eingangsprüfung durch. Dabei werden z. B. 200 Schrauben (je nach gewähltem AQL) zufällig über das gesamte Los gezogen und auf Übereinstimmung mit den vereinbarten Anforderungen (Qualitätsmerkmalen) geprüft. Von den 200 geprüften Schrauben erfüllen 10 Stück die gestellten Anforderungen nicht. Mittels der Berechnung des Konfidenzintervalls (Excel-Funktion BETAINV) kann der Kunde abschätzen, wie groß der zu erwartende Anteil fehlerhafter Schrauben im ganzen Los ist: bei einem Konfidenzniveau von 95 % berechnet man das Clopper-Pearson-Konfidenzintervall [2,4 %, 9 %] für den Anteil fehlerhafter Schrauben im Los (Parameter: n=200, k=10).

Literatur

  • Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. 8. Auflage. Vieweg, 2005.
  • Joachim Hartung: Statistik. 14. Auflage. Oldenbourg, 2005.

Weblinks

Einzelnachweise

<references />