Soorten correlaties

Een veelgebruikte maat voor het beschrijven van een associatie tussen twee variabelen is een correlatie. Een correlatie is een schatting die de sterkte van het verband weergeeft tussen twee variabelen en de kan variëreren tussen \(-1\) en \(1\) (\(\rho \in [-1, 1]\)). Wanneer een correlatie dicht bij \(0\) ligt, wijst dit om geen associatie tussen twee variabelen, terwijl een correlatie dicht bij \(\pm 1\), wijst op een sterk verband tussen twee variabelen. In dedze cursus worden twee correlaties besproken, de Pearson correlatie coëfficiënt (\(\rho\)) en de Spearman correlatie coëfficiënt (\(r_s\)), die elk een specifiek verband weergeven.

Different types of associations and their respective correlations

Figure 2.2: Different types of associations and their respective correlations

In figuur 2.2, staan een aantal correlaties weergegeven. In deze figuur worden een aantal spreidingsdiagrammen weergegeven waarbij de relatie tussen \(X\) en \(Y\) steeds verschillend is. De punten op de grafiek geven de effectieve waarden weer voor elke observatie, die men kan weergeven als punt (\(x_i\), \(y_i\)). De blauwe lijn op de grafiek geeft steeds de best passende rechte weer door de puntenwolk. Het valt op dat elke Spearman correlatie (\(r_s\)) gelijk is aan 1 of -1 en de Pearson correlatie varieert. Dit fenomeen kan je als volgt interpreteren: een Pearson correlatie het lineaire of rechtlijnige verband nagaat tussen twee variabelen, terwijl de Spearman correlatie nagaat of het om een monotone relatie gaat. Een monotone relatie is een relatie waarbij bij een toename van \(X\), ofwel \(Y\) altijd toeneemt ofwel \(Y\) altijd afneemt. De eerste 4 figuren geven een positief verband weer en ook een positieve correlatie, waarbij een toename in \(X\) samengaat met een toename in \(Y\). De laatste figuur geeft een negatieve relatie weer, waarbij een toename in \(X\) samengaat met een afname in \(Y\).

Table 2.3: Overzicht van karakteristieken en eigenschappen van correlaties.
Karakteristieken Pearson correlatie Spearman correlatie
Voorwaarde Normaal verdeling beide variabelen Geen
Soort relatie Lineaire relatie Monotone relatie
Mogelijke waarden [-1, 1] [-1, 1]
Formule Gebaseerd op de (co)variantie Gebaseerd op de rank

In tabel @ref(tab: corrtab) staan alle eigenschappen van beide correlatiecoëfficiënten vermeld. De formules voor beide correlaties worden hieronder weergegeven.

Interpretatie: Een correlatie die dichter bij \(1\) of \(-1\) ligt, geeft aan dat er een sterker lineair of monotoon verband is. De observaties liggen in dit geval meer op één lijn. Bij een correlatie \(< 0\) zal bij een toename van \(X\) de waarde van \(Y\) dalen, terwijl bij een correlatie \(> 0\) een toename van \(X\) gelijklopen met een toename \(Y\).

2.0.1 Peason correlatie (\(\rho\))

Bij de formule voor \(\rho\), vinden we in de teller kenmerken terug van de formule voor covariantie en in de noemen kenmerken voor de variantie.

\(\rho = \frac{\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum^n_{i=1}(x_i-\bar{x})^2} \sqrt{\sum^n_{i=1}(y_i-\bar{y})^2}}\)

2.0.2 Spearman correlatie (\(r_s\))

Bij de formule voor \(r_s\), vinden we in de teller de rang terug van de verschillende correlaties en in de noemen kenmerken voor de steekproefgrootte.

\(r_s = \frac{6 \sum d^2_i}{n(n^2-1)}\)