Punktbiseriale Korrelation

Als punktbiseriale Korrelation wird der Korrelationskoeffizient für den Zusammenhang zwischen einem intervallskalierten Merkmal <math>I</math> und einem dichotomen (bernoulliverteilten) Merkmal <math>D</math> bezeichnet. Es handelt sich nicht um eine eigenständige Maßzahl, sondern um einen Spezialfall des gewöhnlichen Korrelationskoeffizienten nach Pearson, der in diesem Fall berechnet werden kann als

<math>\rho = \frac{\overline I_{D=1} - \overline I_{D=0}}{\sqrt{\mathrm{QS}(I)}} \cdot \sqrt{n \cdot p \cdot q}</math>,

wobei <math>\mathrm{QS}</math> die Quadratsumme, <math>n</math> den Stichprobenumfang, <math>p</math> den Anteil der Untersuchungseinheiten mit der in D erfassten Eigenschaft und <math>q</math> den Anteil der Untersuchungseinheiten ohne die in D erfasste Eigenschaft bezeichnet.

Herleitung aus der Pearson-Korrelation

Der Einfachheit halber wird angenommen, dass das dichotome Merkmal <math>D</math> die Werte 0 und 1 annimmt, sodass der Mittelwert in <math>D</math> gleich <math>p</math> ist. Nach der allgemeinen Formel berechnet sich die Korrelation zwischen <math>I</math> und <math>D</math> über

<math>\rho = \frac{\sum_{i=1}^n (I_i -\bar{I})(D_i-\bar{D})}{\sqrt{\mathrm{QS}(I) \cdot \mathrm{QS}(D)}}</math>.

Man kann nun eine Fallunterscheidung treffen: <math>n \cdot p</math> Untersuchungseinheiten sind D=1 und liegen mit <math>1-p=q</math> über dem Mittelwert in D, die übrigen <math>n \cdot q</math> Untersuchungseinheiten sind D=0 und liegen mit <math>0-p=-p</math> unter dem Mittelwert in D. Damit gilt

<math>\rho = \frac{n \cdot p \cdot (\bar{I}_{D=1} - \bar{I}) \cdot q + n \cdot q \cdot (\bar{I}_{D=0} - \bar{I}) \cdot (-p)}{\sqrt{\mathrm{QS}(I) \cdot (n \cdot p \cdot q^2 + n \cdot q \cdot (-p)^2)}}</math>,

was sich über

<math>\rho = \frac{n \cdot p \cdot q \cdot (\bar{I}_{D=1} - \bar{I}_{D=0})}{\sqrt{\mathrm{QS}(I) \cdot (n \cdot p \cdot q)}}</math>

zur obigen Gleichung vereinfachen lässt.

Anwendung in gängiger Statistiksoftware

SPSS und R verwenden automatisch die punktbiseriale Rechenweise, wenn die Befehle CORRELATE bzw. cor, cor.test angefordert werden und eine der Variablen nur zwei Ausprägungen (z. B. die Werte 0 und 1) hat, die auch als berechnungsrelevant angesehen werden (−7 oder 99 z. B. können in SPSS als fehlende Werte markiert und somit ignoriert werden).

Literatur

Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage. Springer, Berlin u. a. 2005, ISBN 3-540-21271-X.
J. Cohen, P. Cohen, S. G. West, L. S. Aiken: Applied Multiple Regression / Correlation Analysis For The Behavioral Sciences. London 2003, ISBN 0-8058-2223-2.