Normalverteilung


aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Normalverteilung
Dichtefunktion
350px Dichtefunktionen der Normalverteilung <math>\scriptstyle\mathcal N(\mu,\sigma^2)</math>:
<math>\scriptstyle\mathcal N(0;\,0{,}2)</math> (blau), <math>\scriptstyle\mathcal N(0;\,1)</math> (rot), <math>\scriptstyle\mathcal N(0;\,5)</math> (gelb) und <math>\scriptstyle\mathcal N(-2;\,0{,}5)</math> (grün)
Verteilungsfunktion
350px Verteilungsfunktionen der Normalverteilungen
<math>\scriptstyle\mathcal N(0;\,0{,}2)</math> (blau), <math>\scriptstyle\mathcal N(0;\,1)</math> (rot), <math>\scriptstyle\mathcal N(0;\,5)</math> (gelb) und <math>\scriptstyle\mathcal N(-2;\,0{,}5)</math> (grün)
Parameter <math>\mu \in \R</math> — Erwartungswert
<math>\sigma^2 > 0</math> — Varianz
Träger <math>x \in \R</math>
Dichtefunktion <math>\frac{1}{\sqrt{2\pi\sigma^2
\operatorname{exp}\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2}\right)</math>
 | cdf        = <math>\frac12\left(1 + \operatorname{erf}\left( \frac{x-\mu}{\sqrt{2\sigma^2}}\right)\right) </math>
 | mean       = <math>\mu</math>
 | median     = <math>\mu</math>
 | mode       = <math>\mu</math>
 | variance   = <math>\sigma^2\,</math>
 | skewness   = 0
 | kurtosis   = 3 
 | entropy    = <math>\frac12 \ln(2 \pi e \, \sigma^2)</math>
 | mgf        = <math>\exp\left( \mu t + \tfrac{1}{2}\sigma^2t^2 \right)</math>
 | char       = <math>\exp \left( i\mu t - \tfrac{1}{2}\sigma^2 t^2 \right)</math>
 | fisher     = <math>\begin{pmatrix}\frac{1}{\sigma^2} & 0 \\ 0& \frac{1}{2\sigma^4}\end{pmatrix}</math>
 | conjugate prior = Normal distribution
 }}

Die Normal- oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gaußsche Normalverteilung, Gaußsche Verteilungskurve, Gauß-Kurve, Gaußsche Glockenkurve, Gaußsche Glockenfunktion, Gauß-Glocke oder schlicht Glockenkurve genannt.

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, dem zufolge Verteilungen, die durch Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, unter schwachen Voraussetzungen annähernd normalverteilt sind.

Die Abweichungen der (Mess-)Werte vieler natur-, wirtschafts- und ingenieurswissenschaftlicher Vorgänge vom Mittelwert lassen sich durch die Normalverteilung (bei biologischen Prozessen oft logarithmische Normalverteilung) entweder exakt oder wenigstens in sehr guter Näherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhängig voneinander in verschiedene Richtungen wirken).

Zufallsgrößen mit Normalverteilung benutzt man zur Beschreibung zufälliger Vorgänge wie:

In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.

In der Messtechnik wird häufig eine Normalverteilung angesetzt, die die Streuung der Messfehler beschreibt. Hierbei ist von Bedeutung, wie viele Messpunkte innerhalb einer gewissen Streubreite liegen.

Die Standardabweichung <math>\sigma</math> beschreibt die Breite der Normalverteilung. Die Halbwertsbreite einer Normalverteilung ist das ungefähr 2,4-fache (genau <math> 2 \sqrt{2 \ln 2}</math>) der Standardabweichung. Es gilt näherungsweise:

  • Im Intervall der Abweichung <math>\pm \sigma</math> vom Mittelwert sind 68,27 % aller Messwerte zu finden,
  • Im Intervall der Abweichung <math>\pm 2\sigma</math> vom Mittelwert sind 95,45 % aller Messwerte zu finden,
  • Im Intervall der Abweichung <math>\pm 3\sigma</math> vom Mittelwert sind 99,73 % aller Messwerte zu finden.

Und ebenso lassen sich umgekehrt für gegebene Wahrscheinlichkeiten die maximalen Abweichungen vom Mittelwert finden:

  • 50 % aller Messwerte haben eine Abweichung von höchstens <math>0{,}675\sigma</math> vom Mittelwert,
  • 90 % aller Messwerte haben eine Abweichung von höchstens <math>1{,}645\sigma</math> vom Mittelwert,
  • 95 % aller Messwerte haben eine Abweichung von höchstens <math>1{,}960\sigma</math> vom Mittelwert,
  • 99 % aller Messwerte haben eine Abweichung von höchstens <math>2{,}576\sigma</math> vom Mittelwert.

Somit kann neben dem Mittelwert auch der Standardabweichung eine einfache Bedeutung zugeordnet werden.

Geschichte

Datei:DEU-10m-anv.jpg
Gaußsche Glockenkurve auf einem deutschen Zehn-Mark-Schein der 1990er Jahre

Im Jahre 1733 zeigte Abraham de Moivre in seiner Schrift The Doctrine of Chances im Zusammenhang mit seinen Arbeiten am Grenzwertsatz für Binomialverteilungen eine Abschätzung des Binomialkoeffizienten, die als Vorform der Normalverteilung gedeutet werden kann.<ref name="Götze 2002" /> Die für die Normierung der Normalverteilungsdichte zur Wahrscheinlichkeitsdichte notwendige Berechnung des nichtelementaren Integrals

<math>\int_{-\infty}^\infty e^{-\frac 12 t^2}\mathrm dt = \sqrt{2\pi}</math>

gelang Pierre-Simon Laplace im Jahr 1782 (nach anderen Quellen Poisson). Im Jahr 1809 publizierte Gauß sein Werk Theoria motus corporum coelestium in sectionibus conicis solem ambientium (dt.: Theorie der Bewegung der in Kegelschnitten sich um die Sonne bewegenden Himmelskörper), das neben der Methode der kleinsten Quadrate und der Maximum-Likelihood-Schätzung die Normalverteilung definiert. Ebenfalls Laplace war es, der 1810 den Satz vom zentralen Grenzwert bewies, der die Grundlage der theoretischen Bedeutung der Normalverteilung darstellt und de Moivres Arbeit am Grenzwertsatz für Binomialverteilungen abschloss. Adolphe Quetelet erkannte schließlich bei Untersuchungen des Brustumfangs von mehreren tausend Soldaten im Jahr 1844 eine verblüffende Übereinstimmung mit der Normalverteilung und brachte die Normalverteilung in die angewandte Statistik. Er hat vermutlich die Bezeichnung „Normalverteilung“ geprägt.<ref>Hans Wußing: Von Gauß bis Poincaré: Mathematik und Industrielle Revolution. S. 33.</ref>

Definition

Eine stetige Zufallsvariable <math>X</math> mit der Wahrscheinlichkeitsdichte <math>f\colon\R\to\R</math>, gegeben durch<ref>Bei <math>e^x</math> handelt es sich um die Exponentialfunktion mit der Basis <math>e.</math></ref>

<math>f(x) = \frac {1}{\sigma\sqrt{2\pi}} e^{-\frac {1}{2} \left(\frac{x-\mu}{\sigma}\right)^2}</math>

heißt <math>\mathcal N\left(\mu, \sigma^2\right)</math>-verteilt, normalverteilt mit den Parametern <math>\mu</math> und <math>\sigma^2</math>, auch geschrieben als <math>X \sim \mathcal N\left(\mu, \sigma^2\right)</math> oder <math>(\mu, \sigma^2)</math>-normalverteilt. Für die Parameter gilt: <math>\mu</math> ist der Erwartungswert und <math>\sigma^2</math> ist die Varianz.

Datei:Gauss dichtefunktion.svg
Dichtefunktion der Standardnormalverteilung <math>\varphi(x)=\tfrac {1}{\sqrt{2\pi}} e^{-\frac {1}{2} x^2}</math>

Im Fall <math>\mu = 0</math> und <math>\sigma^2 = 1</math> wird diese Verteilung Standardnormalverteilung genannt. Die Dichtefunktion der Standardnormalverteilung ist

<math>\varphi(x)=\frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} x^2}\,.</math>

Sie ist nebenstehend dargestellt.

Die Verteilungsfunktion der Normalverteilung ist durch

<math>F(x) = \frac{1}{\sigma\sqrt{2\pi}} \int_{-\infty}^x e^{-\frac{1}{2} \left(\frac{t-\mu}{\sigma}\right)^2} \mathrm dt</math>

gegeben. Mit der Substitution <math>z = \tfrac{t-\mu}{\sigma}</math> folgt

<math> F(x) = \frac{1}{\sqrt{2\pi}} \int\limits_{-\infty}^{(x-\mu)/\sigma} e^{-\frac 12 z^2} \mathrm dz = \Phi \left(\frac{x-\mu}{\sigma}\right)\,.</math>

Dabei ist <math>\Phi</math> die Verteilungsfunktion der Standardnormalverteilung

<math>\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x e^{-\frac{1}{2} t^2} \mathrm dt.</math>

Die mehrdimensionale Verallgemeinerung findet man im Artikel mehrdimensionale Normalverteilung.

Eigenschaften

Symmetrie

Der Graph der Wahrscheinlichkeitsdichte <math>f\colon\ \R\to\R</math> ist eine Gaußsche Glockenkurve, deren Höhe und Breite von <math>\sigma</math> abhängt. Sie ist achsensymmetrisch zur Geraden mit der Gleichung <math>x = \mu.</math> Der Graph der Verteilungsfunktion <math>F</math> ist punktsymmetrisch zum Punkt <math>(\mu ; 0{,}5).</math> Für <math>\mu=0</math> gilt insbesondere <math>\varphi(-x) =\varphi(x)</math> und <math>\Phi(-x) = 1 - \Phi(x)</math> für alle <math>x \in \R</math>.

Maximalwert und Wendepunkte der Dichtefunktion

Mit Hilfe der ersten und zweiten Ableitung lassen sich der Maximalwert und die Wendepunkte bestimmen. Die erste Ableitung ist

<math>f'(x) = -\frac{x-\mu}{\sigma^2} f(x).</math>

Das Maximum der Dichtefunktion der Normalverteilung liegt demnach bei <math>x_\mathrm{max} = \mu</math> und beträgt dort <math>f_\mathrm{max} = \tfrac 1{\sigma\sqrt{2\pi}}.</math>

Die zweite Ableitung lautet

<math>f(x) = \frac 1{\sigma^2}\left(\frac 1{\sigma^2}(x-\mu)^2-1\right) f(x).</math>

Somit liegen die Wendestellen der Dichtefunktion bei <math>x=\mu\pm\sigma</math>. Die Dichtefunktion hat an den Wendestellen den Wert <math>\tfrac 1{\sigma\sqrt{2\pi e}}</math>.

Normierung

Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1, also gleich der Wahrscheinlichkeit des sicheren Ereignisses, ist. Somit folgt, dass, wenn zwei Gaußsche Glockenkurven dasselbe <math>\mu,</math> aber unterschiedliches <math>\sigma</math> haben, die Kurve mit dem größeren <math>\sigma</math> breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert 1 haben und nur die Standardabweichung (oder „Streuung“) größer ist). Zwei Glockenkurven mit gleichem <math>\sigma,</math> aber unterschiedlichem <math>\mu</math> haben kongruente Graphen, die um die Differenz der <math>\mu</math>-Werte parallel zur <math>x</math>-Achse gegeneinander verschoben sind.

Jede Normalverteilung ist tatsächlich normiert, denn mit Hilfe der linearen Substitution <math>z= \tfrac{x-\mu}\sigma</math> erhalten wir

<math> \int_{-\infty}^\infty \frac 1{\sigma \sqrt{2\pi}} e^{-\frac 12 \left(\frac{x-\mu}\sigma\right)^2} \mathrm dx= \frac 1{\sqrt{2\pi}} \int_{-\infty}^\infty e^{-\frac 12 z^2} \mathrm dz=1.</math>

Für die Normiertheit des letzteren Integrals siehe den Artikel Fehlerintegral.

Berechnung

Da sich <math>\Phi(z)</math> nicht auf eine elementare Stammfunktion zurückführen lässt, wurde für die Berechnung früher meist auf Tabellen zurückgegriffen (siehe Tabelle der Standardnormalverteilung). Heutzutage sind in üblichen Tabellenkalkulationsprogrammen Zellenfunktionen verfügbar, die auch die Transformation auf beliebige <math> \mu </math> und <math> \sigma </math> beherrschen. Die dahinter liegenden Näherungen sind transformierte Polynome.<ref>Espen Gaarder Haug: The complete guide to option pricing formulas, Band 1, McGraw-Hill, 1998, ISBN 0-7863-1240-8, eingeschränkte Vorschau in der Google-Buchsuche.</ref>

Erwartungswert

Der Erwartungswert der Standardnormalverteilung ist 0. Es sei <math>X \sim \mathcal N\left(0,1\right)</math>, so gilt

<math> \operatorname{E}(X) =\frac{1}{\sqrt{2\pi}}\int\limits_{-\infty}^{+\infty}x\ e^{-\frac 12 x^2}\mathrm dx = 0,</math>

da der Integrand integrierbar und punktsymmetrisch ist.


Ist nun <math>Y \sim \mathcal N\left(\mu, \sigma^2\right)</math>, so gilt <math>X=(Y-\mu)/\sigma</math> ist standardnormalverteilt, und somit

<math> \operatorname{E}(Y)=\operatorname{E}(\sigma X + \mu)=\sigma \underbrace{\operatorname{E}(X)}_{=0} + \mu=\mu.</math>

Varianz und weitere Streumaße

Die Varianz der <math>(\mu, \sigma^2)</math>-normalverteilten Zufallsgröße ist <math>\sigma^2</math>, ein elementarer Beweis wird Poisson zugeschrieben.

Die mittlere absolute Abweichung ist <math> \sqrt{\frac{2}{\pi}}\,\sigma \approx 0{,}80\sigma</math> und der Interquartilsabstand <math>\approx 1{,}349\sigma</math>.

Variationskoeffizient

Aus Erwartungswert <math>\mu</math> und Standardabweichung <math>\sigma</math> der <math>\mathcal N(\mu,\sigma^2)</math>-Verteilung erhält man unmittelbar den Variationskoeffizienten

<math>\operatorname{VarK} = \frac{\sigma}{\mu}.</math>

Schiefe

Die Schiefe besitzt unabhängig von den Parametern <math>\mu</math> und <math>\sigma</math> immer den Wert 0.

Wölbung

Die Wölbung ist ebenfalls von <math>\mu</math> und <math>\sigma</math> unabhängig und ist gleich 3. Um die Wölbungen anderer Verteilungen besser einschätzen zu können, werden sie oft mit der Wölbung der Normalverteilung verglichen. Dabei wird die Wölbung der Normalverteilung auf 0 normiert (Subtraktion von 3); diese Größe wird als Exzess bezeichnet.

Kumulanten

Die kumulantenerzeugende Funktion ist

<math>g_X(t)= \mu t+\frac{\sigma^2 t^2}2 </math>

Damit ist die erste Kumulante <math> \kappa_1=\mu </math>, die zweite ist <math> \kappa_2=\sigma^2 </math> und alle weiteren Kumulanten verschwinden.

Charakteristische Funktion

Die charakteristische Funktion für eine standardnormalverteilte Zufallsvariable <math>Z \sim \mathcal N(0,1)</math> berechnet sich gemäß

<math>\begin{align}

\varphi_Z(s) &= \operatorname E(e^{isZ})\\

         &= \frac 1{\sqrt{2\pi}}\int\limits_{-\infty}^\infty e^{isz} e^{-\frac 12 z^2} \mathrm dz\\
         &= \frac 1{\sqrt{2\pi}}\int\limits_{-\infty}^\infty e^{-\frac 12 (z-is)^2} e^{-\frac 12 s^2} \mathrm dz\\
         &= \frac 1{\sqrt{2\pi}}e^{-\frac 12 s^2} \int\limits_{-\infty}^\infty e^{-\frac 12 z^2} \mathrm dz\\
         &= e^{-\frac 12 s^2}.

\end{align} </math>

Für eine Zufallsvariable <math>X \sim \mathcal N(\mu, \sigma^2)</math> erhält man nun

<math>\begin{align}
 \varphi_X(s) &= \operatorname E(e^{is(\sigma Z + \mu)})\\
              &= \operatorname E(e^{is\sigma Z}e^{is\mu})\\
              &= e^{is\mu}\operatorname E(e^{is\sigma Z})\\
              &= e^{is\mu}\varphi_Z(\sigma s)\\
              &= \exp\left(is\mu-\tfrac  12 \sigma^2 s^2\right).

\end{align}</math>

Momenterzeugende Funktion

Die momenterzeugende Funktion der Normalverteilung ist

<math>m_X(s) = \exp\left(\mu s+\frac{\sigma^2 s^2}2\right).</math>

Momente

Die Zufallsvariable <math>X</math> sei <math>\mathcal{N}(\mu,\sigma^2)</math>-verteilt. Dann sind ihre ersten Momente wie folgt:

Ordnung <math>k</math> Moment <math>\operatorname E(X^k)</math> zentrales Moment <math>E((X-\mu)^k)</math>
0 <math>1</math> <math>1</math>
1 <math>\mu</math> <math>0</math>
2 <math>\mu^2 + \sigma^2</math> <math>\sigma^2</math>
3 <math>\mu^3 + 3\mu\sigma^2</math> <math>0</math>
4 <math>\mu^4 + 6 \mu^2 \sigma^2 + 3 \sigma^4</math> <math>3 \sigma^4</math>
5 <math>\mu^5 + 10 \mu^3 \sigma^2 + 15 \mu \sigma^4</math> <math>0</math>
6 <math>\mu^6 + 15 \mu^4 \sigma^2 + 45 \mu^2 \sigma^4 + 15 \sigma^6 </math> <math> 15 \sigma^6 </math>
7 <math>\mu^7 + 21 \mu^5 \sigma^2 + 105 \mu^3 \sigma^4 + 105 \mu \sigma^6 </math> <math>0</math>
8 <math>\mu^8 + 28 \mu^6 \sigma^2 + 210 \mu^4 \sigma^4 + 420 \mu^2 \sigma^6 + 105 \sigma^8 </math> <math> 105 \sigma^8 </math>

Alle zentralen Momente <math>\mu_n</math> lassen sich durch die Standardabweichung <math>\sigma</math> darstellen:

<math>\mu_{n}=\begin{cases}

0 & \text{wenn }n\text{ ungerade}\\ (n-1)!! \cdot \sigma^n & \text{wenn }n\text{ gerade}\end{cases}</math>

dabei wurde die Doppelfakultät verwendet:

<math>(n-1)!! = (n-1)\cdot(n-3)\cdot \ldots\cdot3\cdot 1\quad \text{für } n \text{ gerade}.</math>

Invarianz gegenüber Faltung

Die Normalverteilung ist invariant gegenüber der Faltung, d. h., die Summe unabhängiger normalverteilter Zufallsgrößen ist wieder normalverteilt. Somit bildet die Normalverteilung eine Faltungshalbgruppe in ihren beiden Parametern. Eine veranschaulichende Formulierung dieses Sachverhaltes lautet: Die Faltung einer Gaußkurve der Halbwertsbreite <math>\Gamma_a</math> mit einer Gaußkurve der Halbwertsbreite <math>\Gamma_b</math> ergibt wieder eine Gaußkurve mit der Halbwertsbreite

<math>\Gamma_c = \sqrt{\Gamma_a^2 + \Gamma_b^2}.</math>

Sind also <math>X, Y</math> zwei unabhängige Zufallsvariable mit

<math>X \sim \mathcal N(\mu_X,\sigma_X^2),\ Y \sim \mathcal N(\mu_Y,\sigma_Y^2),</math>

so ist deren Summe ebenfalls normalverteilt:

<math>X+Y \sim \mathcal N(\mu_X+\mu_Y,\sigma_X^2+\sigma_Y^2)</math>

Das kann beispielsweise mit Hilfe von charakteristischen Funktionen gezeigt werden, indem man verwendet, dass die charakteristische Funktion der Summe das Produkt der charakteristischen Funktionen der Summanden ist (vgl. Faltungssatz der Fouriertransformation).

Gegeben seien allgemeiner <math>n</math> unabhängige und normalverteilte Zufallsgrößen <math>X_i \sim \mathcal N(\mu_i, \sigma_i^2)</math>. Dann ist deren Summe wieder normalverteilt

<math>\sum_{i=1}^n X_i \sim \mathcal N\left(\sum_{i=1}^n \mu_i, \sum_{i=1}^n \sigma_i^2 \right)</math>

und das arithmetische Mittel ebenfalls

<math>\frac 1n \sum_{i=1}^n X_i \sim \mathcal N\left(\frac 1n \sum_{i=1}^n \mu_i, \frac 1{n^2} \sum_{i=1}^n \sigma_i^2 \right).</math>

Nach dem Satz von Cramér gilt sogar die Umkehrung: Ist eine normalverteilte Zufallsgröße die Summe von unabhängigen Zufallsgrößen, dann sind die Summanden ebenfalls normalverteilt.

Die Dichtefunktion der Normalverteilung ist ein Fixpunkt der Fourier-Transformation, d. h., die Fourier-Transformierte einer Gaußkurve ist wieder eine Gaußkurve. Das Produkt der Standardabweichungen dieser korrespondierenden Gaußkurven ist konstant; es gilt die Heisenbergsche Unschärferelation.

Entropie

Die Normalverteilung hat die Entropie: <math>\log\left(\sigma\sqrt{2\,\pi\,e}\right)</math>.

Da sie für gegebenen Mittelwert und gegebene Varianz die größte Entropie unter allen Verteilungen hat, wird sie in der Maximum-Entropie-Methode oft als A-priori-Wahrscheinlichkeit verwendet.

Beziehungen zu anderen Verteilungsfunktionen

Transformation zur Standardnormalverteilung

Eine Normalverteilung mit beliebigen <math> \mu </math> und <math> \sigma </math> und der Verteilungsfunktion F hat, wie oben erwähnt, die nachfolgende Beziehung zur <math>\mathcal{N}(0,1)</math>-Verteilung:

<math>

F(x) = \Phi \left(\tfrac{x-\mu}{\sigma}\right). </math>

Darin ist <math>\Phi</math> die Verteilungsfunktion der Standardnormalverteilung.


Wenn <math>X\sim \mathcal{N}(\mu,\sigma^2)</math>, dann führt die Transformation

<math>Z=\frac{X-\mu}{\sigma}</math>

zu einer standardnormalverteilten Zufallsvariablen Z, denn

<math>P(Z\le z)=P(\tfrac{X-\mu}{\sigma}\le z)=P(X\le \sigma z+\mu)=F(\sigma z+\mu)=\Phi(z).</math>


Geometrisch betrachtet entspricht die durchgeführte Substitution einer flächentreuen Transformation der Glockenkurve von <math> \mathcal{N}(\mu;\sigma^2) </math> zur Glockenkurve von <math> \mathcal{N}(0;1) </math>.

Approximation der Binomialverteilung durch die Normalverteilung

Hauptartikel: Normal-Approximation

Die Normalverteilung kann zur Approximation der Binomialverteilung verwendet werden, wenn der Stichprobenumfang <math>n</math> hinreichend groß und in der Grundgesamtheit der Anteil <math>p</math> der gesuchten Eigenschaft weder zu groß noch zu klein ist. Als Faustregel dafür gilt <math>np(1-p)\geq 9,</math> was für die Standardabweichung <math>\sigma\geq 3</math> bedeutet.

Falls diese Bedingung nicht erfüllt sein sollte, ist die Näherung immer noch vertretbar genau, wenn gilt: <math>np\geq 4</math> und zugleich <math>n(1-p)\geq 4.</math>

Ist ein Bernoulli-Versuch mit <math> n </math> voneinander unabhängigen Stufen (bzw. Zufallsversuchen) mit einer Erfolgswahrscheinlichkeit <math> p </math> gegeben, so lässt sich die Wahrscheinlichkeit für <math>k</math> Erfolge allgemein durch <math> P(X=k)= \tbinom{n}{k} \cdot p^k\cdot (1-p)^{n-k} </math> für <math> k=0,1,\dots,n </math> berechnen (Binomialverteilung).

Für große Werte von <math> n </math> kann diese Binomialverteilung durch eine Normalverteilung approximiert werden (Satz von Moivre-Laplace, zentraler Grenzwertsatz). Dabei ist

  • der Erwartungswert <math> \mu=n\cdot p </math> und
  • die Standardabweichung <math> \sigma=\sqrt{n \cdot p \cdot (1-p) }.</math>

Ist nun <math>\sigma > 3</math>, dann ist folgende Näherung brauchbar:

<math>\begin{align}
P(x_1 \leq X \leq x_2) &= \underbrace{\sum_{k=x_1}^{x_2} {n \choose k} \cdot p^k\cdot (1-p)^{n-k}}_{\mathrm{BV}}\\
&\approx \underbrace{\Phi\left(\frac{x_2+0{,}5-\mu}{\sigma}\right) -\Phi\left(\frac{x_1-0{,}5-\mu}{\sigma}\right)}_{\mathrm{NV}}.

\end{align}</math>

Bei der Normalverteilung wird die untere Grenze um 0,5 verkleinert und die obere Grenze um 0,5 vergrößert, um eine bessere Approximation gewährleisten zu können. Dies nennt man auch Stetigkeitskorrektur. Nur wenn <math> \sigma </math> einen sehr hohen Wert besitzt, kann auf sie verzichtet werden.

Da die Binomialverteilung diskret ist, muss auf einige Punkte geachtet werden:

  • <math> < </math> oder <math> \leq </math> (und auch größer und größer gleich) müssen beachtet werden (was ja bei der Normalverteilung nicht der Fall ist). Deshalb muss bei <math> P(X_{BV}<x) </math> die nächstkleinere natürliche Zahl gewählt werden, d. h.
<math> P(X_{BV}<x)=P(X_{BV}\leq x-1) </math> bzw. <math> P(X_{BV}>x)=P(X_{BV}\geq x+1),</math>
damit mit der Normalverteilung weitergerechnet werden kann.
Zum Beispiel: <math> P(X_{BV}<70)=P(X_{BV}\leq 69) </math>
  • Außerdem ist
<math> P(X_{BV} \leq x) = P(0 \leq X_{BV} \leq x) </math>
<math> P(X_{BV} \geq x) = P(x \leq X_{BV} \leq n) </math>
<math> P(X_{BV} = x) = P(x \leq X_{BV} \leq x) </math> (unbedingt mit Stetigkeitskorrektur)
und lässt sich somit durch die oben angegebene Formel berechnen.

Der große Vorteil der Approximation liegt darin, dass sehr viele Stufen einer Binomialverteilung sehr schnell und einfach bestimmt werden können.

Beziehung zur Cauchy-Verteilung

Der Quotient von zwei unabhängigen <math>\mathcal{N}(0,1)</math>-standardnormalverteilten Zufallsvariablen ist Cauchy-verteilt.

Beziehung zur Chi-Quadrat-Verteilung

  • Die Summe <math>X_n=Z_1^2 + \cdots + Z_n^2</math> von <math>n</math> unabhängigen quadrierten standardnormalverteilten Zufallsvariablen <math>Z_i\sim \mathcal{N}(0,1) (i=1,\ldots,n)</math> genügt einer Chi-Quadrat-Verteilung <math>X_n\sim\chi^2_n</math> mit <math>n</math> Freiheitsgraden.
  • Die Summe <math> X_{n-1}=\frac{1}{\sigma^{2}}\sum_{i=1}^{n} (Z_{i}-\overline Z)^{2}</math> mit <math>\overline Z:=\frac{1}{n}\sum_{i=1}^{n} Z_i</math> und <math>n</math> unabhängigen normalverteilten Zufallsvariablen <math>Z_i\sim \mathcal{N}(\mu,\sigma^{2}) (i=1,\ldots,n)</math> genügt einer Chi-Quadrat-Verteilung <math>X_{n-1}\sim\chi^2_{n-1}</math> mit <math>n-1</math> Freiheitsgraden.
  • Mit steigender Zahl an Freiheitsgraden (df ≫ 100) nähert sich die Chi-Quadrat-Verteilung der Normalverteilung an.

Beziehung zur Rayleigh-Verteilung

Der Betrag <math> Z = \sqrt{X^2 + Y^2} </math> zweier normalverteilter Zufallsvariablen <math>X, Y </math> ist Rayleigh-verteilt.

Beziehung zur logarithmischen Normalverteilung

Ist die Zufallsvariable <math>X</math> normalverteilt mit <math>\mathcal{N}(\mu,\sigma^{2})</math>, dann ist die Zufallsvariable <math>Y=e^{X}</math> logarithmisch-normalverteilt mit <math>\mathcal{LN}(\mu,\sigma^{2})</math>.

Die Entstehung einer logarithmischen Normalverteilung ist auf multiplikatives, die einer Normalverteilung auf additives Zusammenwirken vieler Zufallsgrößen zurückführen.

Beziehung zur F-Verteilung

Wenn die identischen normalverteilten Zufallsvariablen <math>X_1^{(1)}, X_2^{(1)}, \dots , X_n^{(1)}</math> und <math>X_1^{(2)}, X_2^{(2)}, \dots , X_n^{(2)}</math> die Parameter

<math>\operatorname E(X_{i}^{(1)})=\mu_{1}, \sqrt{\operatorname{Var}(X_{i}^{(1)})}=\sigma_{1}</math>
<math>\operatorname E(X_{i}^{(2)})=\mu_{2}, \sqrt{\operatorname{Var}(X_{i}^{(2)})}=\sigma_{2}</math>

mit <math>\sigma_{1}=\sigma_{2}=\sigma</math> besitzen, dann unterliegt die Zufallsvariable

<math>Y_{n_{1}-1,n_{2}-1}:=\frac{(n_{2}-1)\sum\limits_{i=1}^{n_{1}}(X_{i}^{(1)}-\barNein^{(1)})^{2}}
                             {(n_{1}-1)\sum\limits_{j=1}^{n_{2}}(X_{i}^{(2)}-\barNein^{(2)})^{2}}</math>

einer F-Verteilung mit <math>((n_{1}-1,n_{2}-1))</math> Freiheitsgraden. Dabei sind

<math>\bar{X}^{(1)}=\frac{1}{n_{1}}\sum_{i=1}^{n_{1}}X_{i}^{(1)},\quad

\bar{X}^{(2)}=\frac{1}{n_{2}}\sum_{i=1}^{n_{2}}X_{i}^{(2)}.</math>

Beziehung zur studentschen t-Verteilung

Wenn die unabhängigen Zufallsvariablen <math>X_1, X_2, \dots , X_n</math> identisch normalverteilt sind mit den Parametern <math>\mu</math> und <math>\sigma</math>, dann unterliegt die stetige Zufallsgröße

<math>Y_{n-1}=\frac{\bar{X}-\mu}{\displaystyle\sqrt{\frac{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}}}\sqrt{n}</math>

einer studentschen t-Verteilung mit <math>(n-1)</math> Freiheitsgraden.

Für eine steigende Anzahl an Freiheitsgraden nähert sich die Student-t-Verteilung der Normalverteilung immer näher an. Als Faustregel gilt, dass man ab ca. <math>df > 30</math> die Student-t-Verteilung bei Bedarf durch die Normalverteilung approximieren kann.

Die Student-t-Verteilung wird zur Konfidenzschätzung für den Erwartungswert einer normalverteilten Zufallsvariable bei unbekannter Varianz verwendet.

Rechnen mit der Standardnormalverteilung

Bei Aufgabenstellungen, bei denen die Wahrscheinlichkeit für <math> {\mu}-{\sigma^2}</math>-normalverteilte Zufallsvariablen durch die Standardnormalverteilung ermittelt werden soll, ist es nicht nötig, die oben angegebene Transformation jedes Mal durchzurechnen. Stattdessen wird einfach die Transformation

<math> Z = \frac {X-\mu}{\sigma}</math>

verwendet, um eine <math> \mathcal{N}(0;1) </math>-Verteilte Zufallsvariable Z zu erzeugen.

Die Wahrscheinlichkeit für das Ereignis, dass z. B. X im Intervall <math> </math> gleichverteilte Zufallszahlen <math>u_1</math> und <math>u_2</math>

  • Berechne <math>q=u_1^2+u_2^2</math>. Falls <math>q = 0</math> oder <math>q > 1</math>, gehe zurück zu Schritt 1.
  • Berechne <math>p = \sqrt {\frac{-2 \cdot \ln q}{q}}</math>.
  • <math>x_i=u_i \cdot p</math> für <math>i=1,2</math> liefert zwei voneinander unabhängige, standardnormalverteilte Zufallszahlen <math>x_1</math> und <math>x_2</math>.
  • Durch lineare Transformation lassen sich hieraus beliebige normalverteilte Zufallszahlen erzeugen: Ist die Zufallsvariable <math>x \sim \mathcal{N}(0,1)</math>-verteilt, so ist <math>a \cdot x + b</math> schließlich <math>\mathcal{N}(b,a^2)</math>-verteilt.

    Zwölferregel

    Der zentrale Grenzwertsatz besagt, dass sich unter bestimmten Voraussetzungen die Verteilung der Summe unabhängiger, identisch verteilter Zufallszahlen einer Normalverteilung nähert.

    Ein Spezialfall ist die Zwölferregel, die sich auf die Summe von zwölf Zufallszahlen aus einer Gleichverteilung auf dem Intervall [0,1] beschränkt und bereits zu passablen Verteilungen führt.

    Allerdings ist die geforderte Unabhängigkeit der zwölf Zufallsvariablen <math>X_i</math> bei den immer noch häufig verwendeten Linearen Kongruenzgeneratoren (LKG) nicht garantiert. Im Gegenteil wird vom Spektraltest für LKG meist nur die Unabhängigkeit von maximal vier bis sieben der <math>X_i</math> garantiert. Für numerische Simulationen ist die Zwölferregel daher sehr bedenklich und sollte, wenn überhaupt, dann ausschließlich mit aufwändigeren, aber besseren Pseudo-Zufallsgeneratoren wie z. B. dem Mersenne-Twister (Standard in Python, GNU R) oder WELL genutzt werden. Andere, sogar leichter zu programmierende Verfahren, sind daher i. d. R. der Zwölferregel vorzuziehen.

    Verwerfungsmethode

    Normalverteilungen lassen sich mit der Verwerfungsmethode (s. dort) simulieren.

    Inversionsmethode

    Die Normalverteilung lässt sich auch mit der Inversionsmethode berechnen. Da das Fehlerintegral leider nicht explizit mit elementaren Funktionen integrierbar ist, muss man auf Reihenentwicklungen der inversen Funktion für einen Startwert (<math>a_1 \dots a_{14}</math> weiter unten) und anschließende Korrektur mit dem Newtonverfahren zurückgreifen. Dazu werden erf(x) und erfc(x) benötigt, die ihrerseits mit Reihenentwicklungen und Kettenbruchentwicklungen berechnet werden können – insgesamt ein relativ hoher Aufwand. Die notwendigen Entwicklungen sind in der Literatur zu finden.<ref>William B. Jones, W. J. Thron; Continued Fractions: Analytic Theory and Applications; Addison Wesley, 1980.</ref>

    Entwicklung des inversen Fehlerintegrals (wegen des Pols nur als Startwert für das Newtonverfahren verwendbar):

    <math>\operatorname{erf}^{-1} \left(\frac{\sqrt\pi}2 x\right) = x\Bigl(a_1 + x^2 \bigl(a_2 + x^2 (\dots)\bigr)\Bigr)</math>

    mit den Koeffizienten

    <math>\begin{align}
    a_i &=  1,
     \tfrac 13,
     \tfrac 7{30},
     \tfrac {127}{630},
     \tfrac {4369}{22680},
     \tfrac {34807}{178200},
     \tfrac {20036983}{97297200},
     \tfrac {2280356863}{10216206000},
     \tfrac {49020204823}{198486288000},\\
    &\\
    & \tfrac {65967241200001}{237588086736000},
     \tfrac {15773461423793767}{49893498214560000},
     \tfrac {655889589032992201}{1803293578326240000},\\
    

    &\\

    & \tfrac {94020690191035873697}{222759794969712000000},
     \tfrac {655782249799531714375489}{1329207696584271504000000},\ldots
    

    \end{align}</math>

    Anwendungen außerhalb der Wahrscheinlichkeitsrechnung

    Die Normalverteilung lässt sich auch zur Beschreibung nicht direkt stochastischer Sachverhalte verwenden, etwa in der Physik für das Amplitudenprofil der Gauß-Strahlen und andere Verteilungsprofile.

    Zudem findet sie Verwendung in der Gabor-Transformation.

    Siehe auch

    Literatur

    • Stephen M. Stigler: The history of statistics: the measurement of uncertainty before 1900. Belknap Series. Harvard University Press, 1986. ISBN 9780674403413.

    Fußnoten und Einzelnachweise

    <references>

    <ref name="Götze 2002">  Wolfgang Götze,Christel Deutschmann & Heike Link: Statistik. Lehr- und Übungsbuch mit Beispielen aus der Tourismus- und Verkehrswirtschaft. Oldenburg, München 2002, ISBN 3-486-27233-0, S. 170 (eingeschränkte Vorschau in der Google-Buchsuche). </ref>

    </references>

    Weblinks

    Commons Commons: Normalverteilung – Sammlung von Bildern, Videos und Audiodateien