Standardisierung (Statistik)
{{#if: behandelt die Standardisierung einer Zufallsvariablen. Zur Standardisierung einer statistischen Variablen einer Stichprobe siehe Studentisierung. Für die Methode der Systemanalyse im Falle von zeitdiskreten Signalen siehe z-Transformation.
| Vorlage:Hinweisbaustein | {{#ifeq: 0 | 0 |}}
}}
Unter Standardisierung (in einführenden Statistikkursen gelegentlich als z-Transformation bezeichnet) versteht man in der mathematischen Statistik eine Transformation einer Zufallsvariablen, so dass die resultierende standardisierte Zufallsvariable den Erwartungswert null und die Varianz eins besitzt. Die Standardabweichung entspricht der Wurzel der Varianz und ist somit auch gleich eins. Die Werte einer standardisierten Zufallsvariable werden häufig z-Werte, z-Scores oder z-Statistiken genannt.
Die Standardisierung ist eine wesentliche Voraussetzung für die Konstruktion einiger statistischer Tests.
Einsatzzweck
Standardisierung ist z. B. notwendig, um unterschiedlich verteilte Zufallsvariablen miteinander vergleichen zu können. Außerdem sind für einige statistische Verfahren, wie beispielsweise die Faktorenanalyse, standardisierte Zufallsvariablen notwendig.
{{#invoke:Vorlage:Anker|f |errCat=Wikipedia:Vorlagenfehler/Vorlage:Anker |errHide=1}} Herleitung der Standardisierungsformel
Sei <math>X</math> eine Zufallsvariable mit Erwartungswert <math>\operatorname{E}(X) = \mu</math> und positiver Varianz <math>\operatorname{Var}(X) = \sigma^2</math> (und dementsprechend Standardabweichung <math>\sigma = \sqrt{\operatorname{Var}(X)}</math>), so erhält man die zugehörige standardisierte Zufallsvariable <math>Z</math> durch Zentrierung und anschließende Division durch die Standardabweichung:<ref>Jeffrey Wooldridge: Introductory econometrics: A modern approach. 5. Auflage, South-Western Cengage Learning, Mason (Ohio) 2013, ISBN 978-1-111-53104-1, S. 736.</ref>
- <math>Z=\frac{X-\mu}{\sigma}</math>.
Für die so erhaltene Zufallsvariable <math>Z</math> gilt:<ref>Zur näheren Herleitung nachfolgender Eigenschaften vgl. Jeffrey Wooldridge: Introductory econometrics: A modern approach. 5. Auflage, Mason (Ohio) 2013, S. 736.</ref>
- <math>\operatorname{E}(Z)= \operatorname{E}\left(\frac{X-\mu}{\sigma}\right)=\frac{1}{\sigma} \left( \operatorname{E}(X) - \mu\right) = 0</math>
- <math>\operatorname{Var}(Z)= \operatorname{Var}\left(\frac{X-\mu}{\sigma}\right)=\operatorname{Var}\left(\frac{X}{\sigma}\right) =\frac{1}{\sigma^2} \operatorname{Var}(X) = 1</math>
Ist <math>X</math> normalverteilt mit Erwartungswert <math>\mu</math> und Varianz <math>\sigma^2</math>, so ist <math>Z = \frac{X - \mu}{\sigma}</math> standardnormalverteilt, d. h. <math>Z \sim \mathcal{N}(0,1)</math>.
Zusammenhang zwischen den Verteilungsfunktionen
Allgemein
Zwischen der Verteilungsfunktion <math>F_Z</math> der standardisierten Zufallsvariablen <math>Z</math> und der Verteilungsfunktion <math>F_X</math> der Zufallsvariablen <math>X</math> besteht der Zusammenhang
- <math>F_Z(t) = F_X(\mu + \sigma t)\quad\text{für alle } t \in \R,</math>
denn es gilt
- <math>F_Z(t) = P( Z \leq t) = P\left(\frac{X-\mu}{\sigma} \leq t \right) = P(X \leq \mu + \sigma t) =F_X(\mu + \sigma t)</math>.
Umgekehrt kann die Verteilungsfunktion <math>F_X</math> durch die Verteilungsfunktion <math>F_Z</math> der standardisierten Zufallsvariablen ausgedrückt werden:
- <math>F_X(t) = F_Z\left(\frac{t -\mu}{\sigma}\right)\quad\text{für alle } t \in \R,</math>
da
- <math>F_X(t) = P(X \leq t ) = P\left(\frac{X - \mu}{\sigma} \leq \frac{t - \mu}{\sigma}\right) = P\left(Z \leq \frac{t - \mu}{\sigma}\right) = F_Z\left(\frac{t - \mu}{\sigma}\right).</math>
Normalverteilungen
Gilt speziell <math>X \sim N(\mu,\sigma^2)</math>, so ist <math>Z = \frac{X - \mu}{\sigma}</math> standardnormalverteilt mit der Verteilungsfunktion <math>\Phi</math>, so dass <math>X</math> die Verteilungsfunktion
- <math>F_X(t) = \Phi\left(\frac{t -\mu}{\sigma}\right)\quad\text{für alle } t \in \R</math>
hat. Somit lassen sich alle Verteilungsfunktionen von Normalverteilungen durch die Verteilungsfunktion der Standardnormalverteilung ausdrücken. Wahrscheinlichkeitsaussagen über eine normalverteilte Zufallsvariable können auf die Verteilungsfunktion der Standardnormalverteilung zurückgeführt werden. Beispielsweise gilt
- <math>P(a < X \leq b) = F_X(b) - F_X(a) = \Phi\left(\frac{b -\mu}{\sigma}\right) - \Phi\left(\frac{a -\mu}{\sigma}\right).</math>
Für ein beliebiges Ereignis <math>B</math> gilt
- <math>P( X \in B) = \int\limits_B \mathrm{d} F_X(t) = \int\limits_B \mathrm{d} \Phi\left(\frac{t - \mu}{\sigma} \right) = \int\limits_{B_{\mu,\sigma}} \mathrm{d} \Phi(u)</math>
mit dem transformierten Integrationsbereich
- <math>B_{\mu,\sigma} = \left\{ \left. \frac{t -\mu}{\sigma} \right| t \in B \right\}.</math>
Abgrenzung zur Studentisierung
In vielen Statistikprogrammen wie SPSS und Statistica ist die Möglichkeit einer Standardisierung der Messergebnisse bereits eingebaut. Genau genommen sollte hier aber von einer Studentisierung gesprochen werden, da die genaue Verteilung der zugrundeliegenden Zufallsvariablen nicht bekannt ist und somit statt des Erwartungswerts das arithmetische Mittel und statt der Varianz die empirische Varianz verwendet werden muss. Oftmals werden allerdings die Begriffe des Studentisierens und des Standardisierens fälschlich synonym verwendet.
Literatur
- Bortz, Schuster: Statistik für Human- und Sozialwissenschaftler. 7. Auflage. Springer, 2001.
- Falk u. a.: Foundations of statistical analyses and applications with SAS. Birkhäuser, 2002.
Einzelnachweise
<references />