Eigenschappen van een logistisch regressiemodel

Het schatten van een binair logistische regressievergelijking gebeurt niet op basis van de SSE, SSR of SST zoals bij lineaire regressie. Er wordt gebruik gemaakt van likelihood criteria, die ook aanwezig zullen zijn in de SPSS output bij het opstellen van een regressiemodel. Om een betekenis te geven aan de \(\beta\)-coëfficiënten van een binair logistisch regressiemodel dienden we \(exp(1.5046) = 4.5\), welke we interpreteerden als een toename van de odds op slagen met 4.5 wanneer een student één uur langer gestuurd heeft. Wanneer we echter geïnteresseerd zijn in een toename per 2 uur studeren, kunnen we de \(OR\) niet zomaar vermenigvuldigen met \(2\). We moeten hiervoor de \(\beta\)-coëfficiënt vermenigvuldigen met 2 en deze omzetten naar een OR. In het voorbeeld van onze studie naar het slagen dienen we dus volgende berekening uit te voeren: \(exp(1,5046 x 2) = 20.3\). Deze kunnen we interpreteren als volgt: wanneer een student twee uur langer gestudeerd heeft, dan zal diens odds op slagen toenemen met 20.3.

We hoeven niet per se steeds de \(OR\) om te zetten naar een \(\beta\)-coëfficiënt en vice versa. We kunnen ook steeds de \(OR\) verheffen tot een bepaalde macht. In het voorbeeld van het aantal uren studeren komt dit op het volgende neer: om de interpretatie van één uur studeren te veranderen in een interpretatie voor twee uur studeren voeren we volgende bewerking uit: \(4.5^{2} = 20.3\). Inderdaad, exact wat we daarnet hebben uitgerekend.

4.0.1 Performantie van het regressiemodel

Voor elke observatie kunnen we een schatting maken van de odds en dus ook de kans. Op basis van deze kans kunnen we beslissen of we denken dat de gebeurtenis al dan niet zich voor zal doen. We beslissen dus op basis van \(P\) of \(Y = 1\) of \(Y = 0\). (vb. Wanneer \(P < 0.5\), dan is \(Y = 0\) en anders \(Y = 1\)). In onderstaande tabel kunnen jullie de kans op slagen voor elke x terugvinden gedefinieerd als y_p. Op basis van deze y_p (\(P(Y = 1)\)) beslissen we of \(Y = 1\) of \(Y = 0\), wat gedefinieerd is als y_fit.

Table 4.6: Steekproef naar studeergedrag en uitkomsten op basis van model.
x y y_p y_fit
0.50 0 0.0347103 0
0.75 0 0.0497729 0
1.00 0 0.0708920 0
1.25 0 0.1000286 0
1.50 0 0.1393445 0
1.75 0 0.1908365 0
1.75 1 0.1908365 0
2.00 0 0.2557032 0
2.25 1 0.3335302 0
2.50 0 0.4216265 0
2.75 1 0.5150109 1
3.00 0 0.6073586 1
3.25 1 0.6926173 1
3.50 0 0.7664808 1
4.00 1 0.8744475 1
4.25 1 0.9102776 1
4.50 1 0.9366237 1
4.75 1 0.9556107 1
5.00 1 0.9690971 1
5.50 1 0.9851944 1

Op basis van deze uitkomst kunnen we een 2x2 kruistabel maken, waarbij we kijken in welke mate de observaties overeenstemmen met de predicties.

Table 4.7: Geobserveerde vs voorspelde y.
0 1
0 8 2
1 2 8

Op basis van deze tabel kunnen we een inschatting maken van de accuraatheid, sensitiviteit en specificiteit. In de kolommen vind je de predicties terug en in de rijen de observaties. De accuraatheid geeft weer hoeveel van alle observaties we correct kunnen voorspellen. In deze studies komt dit neer op \(\frac{16}{20} = 80%\). De sensititiveit geeft aan hoeveel van de positieve observaties (\(Y = 1\)) we juist hebben kunnen inschatten. In dit geval is dit \(\frac{8}{10} = 80%\). De sensititiveit geeft aan hoeveel van de negatieve observaties (\(Y = 0\)) we juist hebben kunnen inschatten. In dit geval is dit \(\frac{8}{10} = 80%\).

De observaties zijn steeds de referentie. In bovenstaande tabel worden deze weergeven in de rijen (zoals in SPSS).