F-Verteilung
Die F-Verteilung oder Fisher-Verteilung, auch Fisher-Snedecor-Verteilung (nach Ronald Aylmer Fisher und George W. Snedecor), ist eine stetige Wahrscheinlichkeitsverteilung. Eine F-verteilte Zufallsvariable ergibt sich als Quotient zweier jeweils durch die zugehörige Anzahl von Freiheitsgraden geteilter Chi-Quadrat-verteilter Zufallsvariablen. Die F-Verteilung besitzt zwei unabhängige Freiheitsgrade als Parameter und bildet so eine Zwei-Parameter-Verteilungsfamilie.
Die F-Verteilung wird häufig in einem Test verwendet (F-Test), um festzustellen, ob der Unterschied zweier Stichprobenvarianzen auf statistischer Schwankung beruht oder ob er auf unterschiedliche Grundgesamtheiten hinweist. Auch im Rahmen der Varianzanalyse wird mit einer F-Statistik auf signifikante Unterschiede zwischen Grundgesamtheiten (Gruppen) getestet. <ref>P.R. Kinnear, C.D. Gray (2004): SPSS 12 MADE SIMPLE. Psychology Press. New York. S. 208–209.</ref>
Inhaltsverzeichnis
Definition
Eine stetige Zufallsvariable genügt der F-Verteilung <math>\,F(m,n)</math>, mit m Freiheitsgraden im Zähler und n Freiheitsgraden im Nenner, wenn sie die Wahrscheinlichkeitsdichte
- <math>f(x|m,n) =
\begin{cases} m^{\frac{m}{2}} n^{\frac{n}{2}} \cdot \frac{\Gamma (\frac{m}{2}+\frac{n}{2})}{\Gamma (\frac{m}{2}) \Gamma (\frac{n}{2})} \cdot \frac{x^{\frac{m}{2}-1}}{(mx+n)^\frac{m+n}{2}} & \text{wenn} \; x \geq 0 \\ 0 & \text{sonst} \\ \end{cases}</math>
besitzt. Dabei ist mit <math>\Gamma(x)</math> die Gammafunktion an der Stelle <math>x</math> bezeichnet.
Historisch bildet die nachfolgende Definition den Ursprung der F-Verteilung als die Verteilung der Größe
- <math>F_{m,n}=\frac{\chi_m^2/m}{\chi_n^2/n},</math>
wobei <math>\chi_m^2</math> und <math>\chi_n^2</math> unabhängige, χ²-verteilte Zufallsvariablen mit <math>m</math> bzw. <math>n</math> Freiheitsgraden sind.
Eigenschaften
Erwartungswert
Der Erwartungswert existiert nur für <math>n>2</math> und hat dann den Wert
- <math>\operatorname{E}(F_{m,n}) = \frac{n}{n-2}</math>.
Varianz
Die Varianz ist nur für <math>n>4</math> definiert und lautet dann
- <math>\operatorname{Var}(F_{m,n}) = \frac{2 n^2 (m+n-2)}{m (n-2)^2 (n-4)}</math>.
Verteilungsfunktion
Die Werte der Verteilung <math>P(X \leq x) = F(x|m;n)</math> werden meist numerisch ermittelt und in einer Tabelle angegeben. Eine komplette Tabellierung bezüglich aller Freiheitsgrade ist i.a. nicht notwendig, so dass die meisten Verteilungstabellen die Quantile bezüglich ausgewählter Freiheitsgrade und Wahrscheinlichkeiten angeben. Man macht sich hier auch die Beziehung zunutze:
- <math>F^{-1}(p;m;n) = \frac{1}{F^{-1}(1-p;n;m)} \;,</math>
wobei <math>F^{-1}(p;m;n)</math> das <math>p</math>-Quantil der F-Verteilung mit <math>m</math> und <math>n</math> Freiheitsgraden bedeutet.
Die F-Verteilung lässt sich geschlossen ausdrücken als
- <math>F(x|m;n)= I\left(\frac{m\cdot x}{m\cdot x+n},\frac{m}{2},\frac{n}{2}\right),</math>
wobei <math> I(z,a,b)=\frac{1}{B(a,b)}\cdot \int_0^z t^{a-1} (1-t)^{b-1}\mathrm{d}t</math> die regularisierte unvollständige Betafunktion darstellt.
Maximum
Für <math>m>2</math> nimmt <math>f</math> an der Stelle
- <math>x_{\mathrm{max}}=\frac{n(m-2)}{m(n+2)}</math>
das Maximum an.
Entropie
Die Entropie der F-Verteilung (ausgedrückt in nats) beträgt
- <math>H(X) = \ln\left(\frac nm\cdot\frac{\Gamma\left(\frac m2\right)\Gamma\left(\frac n2\right)}{\Gamma\left(\frac m2+\frac n2\right)}\right) + \left(1-\frac m2\right)\psi\left(\frac m2\right) - \left(1+\frac n2\right)\psi\left(\frac n2\right) + \frac{m+n}{2}\psi\left(\frac{m+n}{2}\right)</math>
wobei ψ(p) die Digamma-Funktion bezeichnet.
Beziehungen zu anderen Verteilungen
Das Zeichen <math>\sim</math> bedeutet im Folgenden ' ist verteilt wie '.
Beziehung zur Beta-Verteilung
Die Zufallsvariable
- <math>Y=\frac{\frac mn F_{m,n}}{1+\frac mn F_{m,n}}</math>
ist betaverteilt mit Parametern <math>m/2</math> und <math>n/2</math> <math>\left( Y \sim \operatorname{Beta}(m/2,n/2)\right).</math> Es gilt:
- <math>Y\sim \frac{\chi^2_m}{\chi^2_m+\chi^2_n}</math>
wobei <math>\chi_m^2</math> und <math>\chi_n^2</math> unabhängige Chi-Quadrat-verteilte Zufallsgrößen sind mit <math>m</math> bzw. <math>n</math> Freiheitsgraden.
Beziehung zur Chi-Quadrat-Verteilung
Aus den unabhängigen <math>\chi_m^2</math> und <math>\chi_n^2</math> Chi-Quadrat-verteilten Zufallsgrößen mit <math>m</math> bzw. <math>n</math> Freiheitsgraden lässt sich
- <math>F_{m,n}=\frac{\chi_m^2/m}{\chi_n^2/n}</math>
konstruieren. Diese Zufallsvariable ist <math>F(m,n)</math>-verteilt.
Beziehung zur nichtzentralen F-Verteilung
Für unabhängige Zufallsvariablen <math>X \sim \chi^2(\delta, m)</math> und <math>Y \sim \chi^2(n)</math> ist
- <math>Z = \frac{X/m}{Y/n}</math>
verteilt nach der nichtzentralen F-Verteilung <math>Z \sim F(\delta,m,n)</math> mit Nichtzentralitäts-Parameter <math>\delta</math>. Dabei ist <math>\chi^2(\delta,\,m)</math> eine nichtzentrale Chi-Quadrat-Verteilung mit Nichtzentralitäts-Parameter <math>\delta</math> und <math>m</math> Freiheitsgraden. Für <math>\delta=0</math> ergibt sich die zentrale F-Verteilung <math>F(m,\,n)</math>.
Dichte der nichtzentralen F-Verteilung
- <math>g(z|m,n,\delta)=f(z|m,n) \cdot e^{-\delta/2}{}_1\mathcal F_1\left(\frac{m+n}{2},\frac m2,\frac{m\cdot z \cdot\delta}{2(m\cdot z+n)}\right).</math><ref>Eric Weisstein, "Noncentral F-Distribution." From MathWorld--A Wolfram Web Resource. http://mathworld.wolfram.com/NoncentralF-Distribution.html</ref>
Die Funktion <math>{}_1\mathcal F_1(a,b,x)</math> ist eine spezielle Hypergeometrische Funktion, auch Kummersche Funktion genannt und <math>f(x|m,n)</math> repräsentiert die oben angegebene Dichte der zentralen F-Verteilung.
Erwartungswert und Varianz der nichtzentralen F-Verteilung sind gegeben durch
- <math>\frac{n(1+\delta/m)}{n-2},(n>2)</math>
und
- <math>\frac{2n^2(m(1+\delta/m)^2+(n-2)(1+2\delta/m))}{m(n-2)^2(n-4)},(n>4).</math>
Beide ergeben bei <math>\delta\to 0</math> die Formeln der zentralen F-Verteilung.
Beziehung zur Normalverteilung
Wenn die unabhängigen normalverteilten Zufallsvariablen <math>X_1, X_2, \dotsc, X_m,Y_1, Y_2, \dotsc, Y_n</math> die Parameter
- <math>\operatorname{E}(X_i)=\mu, \operatorname{Var}(X_i)=\sigma^2</math>
- <math>\operatorname{E}(Y_j)=\nu, \operatorname{Var}(Y_j)=\tau^2</math>
besitzen, sind die jeweiligen Stichprobenvarianzen <math>S_X^2</math> und <math>S_Y^2</math> unabhängig, und es gilt:
- <math>\frac{S_X^2}{\sigma^2}\sim\chi_{m-1}^2/(m-1)</math>
und
- <math>\frac{S_Y^2}{\tau^2}\sim\chi_{n-1}^2/(n-1)</math>.
Deshalb unterliegt die Zufallsvariable
- <math>F=\frac{S_X^2/\sigma^2}{S_Y^2/\tau^2}</math>
einer F-Verteilung mit <math>m-1</math> Freiheitsgraden im Zähler und <math>n-1</math> Freiheitsgraden im Nenner,
Beziehung zur Studentschen t-Verteilung
Wenn <math>X \sim t_n</math> (Studentsche t-Verteilung), dann ist <math>X^2 \sim F(1,n).</math>
Das Quadrat einer t-verteilten Zufallsvariablen mit <math>n</math> Freiheitsgraden folgt einer F-Verteilung mit <math>m=1</math> und <math>n</math> Freiheitsgraden.
Herleitung der Dichte
Die Wahrscheinlichkeitsdichte der F-Verteilung lässt sich herleiten (vgl. Herleitung der Dichte der Studentschen t-Verteilung) aus der gemeinsamen Dichte der beiden unabhängigen Zufallsvariablen <math>\chi^2_m</math> und <math>\chi^2_n</math>, die beide Chi-Quadrat-verteilt sind. <ref>Frodesen, Skjeggestad, Tofte: Probability and Statistics in Particle Physics, Universitetsforlaget, Bergen - Oslo - Tromsö S. 145f</ref>
- <math>
g_{\chi^2_m,\chi^2_n}(x,y)= \frac{x^{\frac m2-1}e^{-\frac 12x}}{2^\frac m2\Gamma(\frac m2)} \cdot \frac{y^{\frac n2-1}e^{-\frac 12y}}{2^\frac n2\Gamma(\frac n2)}. </math>
Mit der Transformation
- <math>
f=\frac{x/m}{y/n},v=y , </math>
bekommt man die gemeinsame Dichte von <math>F=\frac{\chi^2_m/m}{\chi^2_n/n}</math> und <math>\chi^2_n</math>, wobei <math>f\ge 0</math> und <math>v\ge 0</math>.
Die Jacobideterminante dieser Transformation ist:
- <math>\det\frac{\partial(x,y)}{\partial(f,v)}=\begin{vmatrix}
\frac mn v&0\\ \Diamond&1
\end{vmatrix}=\frac mn v</math>.
Der Wert <math>\Diamond</math> ist unwichtig, weil er bei der Berechnung der Determinante mit 0 multipliziert wird. Die neue Dichtefunktion schreibt sich also
- <math>
g_{F,\chi^2_n}(f,v)= \frac{1}{2^\frac m2 \Gamma(\frac m2)}\left(f v\, \frac mn\right)^{\frac{m}{2}-1}e^{-\frac 12(f v\, \frac mn)}\cdot \frac{1}{2^\frac n2 \Gamma(\frac n2)}v^{\frac{n}{2}-1}e^{-\frac 12v}\cdot\frac{m}{n}v. </math>
Gesucht ist nun die Randverteilung <math>g_{m,\,n}(f)</math> als Integral über die nicht interessierende Variable <math>v</math>:
- <math>
g_{m,n}(f)=\int\limits_{0}^\infty g_{F,\chi^2_n}(f,v)\,dv=\frac{(\frac mn)^{\frac m2}f^{\frac m2-1}}{2^\frac {m+n}{2} \Gamma(\frac m2) \Gamma(\frac n2)} \int\limits_{0}^\infty v^{\frac{m+n}{2}-1}e^{-\frac v2 (1+\frac mn f)}\,dv=m^{\frac m2} n^{\frac n2} \cdot \frac{\Gamma (\frac m2+\frac n2)}{\Gamma (\frac m2) \Gamma (\frac n2)} \cdot \frac{f^{\frac m2-1}}{(mf+n)^\frac{m+n}{2}}. </math>
Quantilfunktionen
Das <math>p</math>-Quantil der F-Verteilung <math>x_p</math> ist die Lösung der Gleichung <math>p=F(x_p|m,\,n)</math> und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier
- <math>x_p=\frac{n I^{-1}(p,\frac m2,\frac n2)}{m(1-I^{-1}(p,\frac m2,\frac n2))},</math>
mit <math>I^{-1}</math> als Inverse der regularisierten unvollständigen Betafunktion. Dieser Wert <math>x_p</math> ist in der F-Verteilungstabelle unter den Koordinaten <math>p</math>, <math>m</math> und <math>n</math> eingetragen.
Für einige Werte <math>m</math>, <math>n</math> lassen sich die Quantilsfunktionen <math>x_p(m,\,n)</math> explizit ausrechnen. Man löst das Beta Integral <math>I(\tfrac{m x}{m x+n},\tfrac m2,\tfrac n2)</math> mit <math>m,n=1,2,\dotsc,</math> wobei für ein paar Indizes invertierbare Funktionen auftreten:
- <math>
\begin{array}{c|c|c|c|c}
m \downarrow,\,n \rightarrow & 1 & 2 & 3 & 4\\
\hline
1 &\tan(\frac\pi2 p)^2 & \frac{2p^2}{1-p^2} & ? & \frac{4}{2\cos(\frac{2\arcsin(p)}{3})-1}-4\\
\hline
2 & \frac12(\frac{1}{(1-p)^2}-1) & \frac{p}{1-p} & \frac32(\frac{1}{(1-p)^{2/3}}-1) & \frac{2}{\sqrt{1-p}}-2\\
\hline
3 & ? & \frac{2p^{2/3}}{3-3p^{2/3}} & ? & ?\\ \hline
4 & \frac{1}{(4\sin(\frac{\arcsin(1-p)}{3}))^2} -\frac14 & \frac{\sqrt p}{2(1-\sqrt p)} & ? & \frac{1}{\frac12+\sin(\frac{\arcsin(1-2p)}{3})}-1\\ \end{array} </math> Aus der jeweils vollständigen Zeile und Spalte kann man sogar die allgemeinen Ausdrücke für höhere Indizes ablesen. Man findet
- <math>x_p(2,\,n) = \frac{n}{2}\left(\frac{1}{(1-p)^{2/n}}-1\right)</math> und <math>x_p(m,\,2) = \frac{2}{m}\left(\frac{p^{2/m}}{1-p^{2/m}}\right)</math>.
Literatur
- Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik, 12. Auflage, Oldenbourg 1999, S. 156 ff., ISBN 3-486-24984-3.
Weblinks
- Wikibooks Wikibooks: Nichtlineare Funktionen der Normalverteilung – Lern- und Lehrmaterialien
- Statistischer Internetrechner
- Eric W. Weisstein: F Distribution. In: MathWorld (englisch).
- Tabelle der kritischen Werte der F-Verteilung
Einzelnachweise
<references />
Diskrete univariate Verteilungen für endliche Mengen:
Benford |
Bernoulli |
beta-binomial |
binomial |
Dirac |
diskret uniform |
hypergeometrisch |
kategorial |
negativ hypergeometrisch |
Rademacher |
verallgemeinert binomial |
Zipf |
Zipf-Mandelbrot |
Zweipunkt
Diskrete univariate Verteilungen für unendliche Mengen:
Boltzmann |
Conway-Maxwell-Poisson |
discrete-Phase-Type |
erweitert negativ binomial |
Gauss-Kuzmin |
gemischt Poisson |
geometrisch |
logarithmisch |
negativ binomial |
parabolisch-fraktal |
Poisson |
Skellam |
verallgemeinert Poisson |
Yule-Simon |
Zeta
Kontinuierliche univariate Verteilungen mit kompaktem Intervall:
Beta |
Cantor |
Kumaraswamy |
raised Cosine |
Dreieck |
U-quadratisch |
stetig uniform |
Wigner-Halbkreis
Kontinuierliche univariate Verteilungen mit halboffenem Intervall:
Beta prime |
Bose-Einstein |
Burr |
Chi-Quadrat |
Coxian |
Erlang |
Exponential |
F |
Fermi-Dirac |
Folded normal |
Fréchet |
Gamma |
Gamma-Gamma |
Extremwert |
verallgemeinert invers Gauß |
halblogistisch |
halbnormal |
Hotellings T-Quadrat |
hyper-exponentiale |
hypoexponential |
invers Chi-Quadrat |
scale-invers Chi-Quadrat |
Invers Normal |
Invers Gamma |
Lévy |
log-normal |
log-logistisch |
Maxwell-Boltzmann |
Maxwell-Speed |
Nakagami |
nichtzentriert Chi-Quadrat |
Pareto |
Phase-Type |
Rayleigh |
relativistisch Breit-Wigner |
Rice |
Rosin-Rammler |
shifted Gompertz |
truncated normal |
Type-2-Gumbel |
Weibull |
Wilks’ Lambda
Kontinuierliche univariate Verteilungen mit unbeschränktem Intervall:
Cauchy |
Extremwert |
exponential Power |
Fishers z |
Fisher-Tippett (Gumbel) |
generalized hyperbolic |
Hyperbolic-secant |
Landau |
Laplace |
alpha-stabil |
logistisch |
normal (Gauß) |
normal-invers Gauß’sch |
Skew-normal |
Studentsche t |
Type-1-Gumbel |
Variance-Gamma |
Voigt
Diskrete multivariate Verteilungen:
Ewen |
multinomial |
multivariat hypergeometrisch |
Dirichlet compound multinomial
Kontinuierliche multivariate Verteilungen:
Dirichlet |
generalized Dirichlet |
multivariat normal |
multivariat Student |
normalskaliert invers Gamma |
Normal-Gamma
Multivariate Matrixverteilungen:
Invers Wishart |
Matrix-normal |
Wishart