Inleiding logistische regressie

Binaire logistische regressie kan zowel toegepast worden in een cross-sectioneel design als prospectieve cohorte en wordt vaak gebruikt voor volgende doelstellingen:

Het voorspellen van een uitkomstmaat op basis van één of meerdere factoren.
Het beschrijven van een verband tussen de uitkomstmaat en andere factoren, waarbij rekening wordt gehouden met verstorende variabelen.

In essentie is een logistisch regressie model opgebouwd uit twee componenten:

De afhankelijke uitkomstvariabele (\(Y\)), welke een categorische variabele dient te zijn.
De onafhankelijke variabele(n) (\(X\)), welke zowel continu als categorisch van aard kunnen zijn.

In de regressievergelijking wordt \(Y\) niet rechtstreeks gemodelleerd, maar de kans op het optreden van \(Y = 1\), welke uitgedrukt wordt als \(p = P(Y=1)\).

\(logit(p) = \beta_0 + \beta_1 X_1\)

Wanneer er slechts één onafhankelijke variabele \(X_1\) spreken we van een enkelvoudig binair logistisch regressiemodel. Indien er meerdere onafhankelijke variabelen \(X_1, X_2, X_3,..., X_i\) spreken we van een meervoudig binair logistisch regressiemodel.

Een regressiemodel bestaat uit twee delen, een afhankelijk deel (de uitkomst of wat er geschat moet worden) en een onafhankelijk deel (de verklarende variabelen).

De logit-functie komt overeen met de log-odds: \(logit(p) = log(odds) = log(\frac{p}{1-p})\).