Dummy coding

Wanneer we gebruik maken van een onafhankelijke categorische \(X\) variabele die bestaat uit \(>2\) cetagoriën, moeten we dummy coding uitvoeren, aangezien we een variabele met bijvoorbeeld 5 categoriën niet kunnen weergeven aan de hand van één \(\beta\) coëfficiënt. Neem bijvoorbeeld tabel 3.7, waarbij we de variabele Rookstatus met drie categoriën gaan opdelen in \(m-1\) variabelen, waarbij \(m\) het aantal categoriëen weergeeft. Op basis van rookstatus wensen we in dit voorbeeld een inschatting te maken van het gewicht (in kg).

Hier: \(3-1 = 2\) dummy categoriën.

Table 3.7: Dummy coding
Rookstatus Actieve roker Vroegere roker
Niet roker 0 0
Vroegere roker 0 1
Actieve roker 1 0

Uit tabel 3.7 kunnen we op basis van slechts twee nieuwe variabelen de drie oorspronkelijke categoriën steeds opnieuw terughalen. Voor elk van deze nieuwe variabelen wordt er in het regressiemodel een \(\beta\) ingeschat. We krijgen hierdoor volgende regressievergelijking:

\(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2\), waarbij \(X_1\) de associatie is met Actieve roker en \(X_2\) de associatie met Vroegere roker.

  • \(Y = \beta_0 + \beta_1 (actieve \space roker) + \beta_2 (vroegere \space roker)\)
  • \(Y = 64 - 2 \times (actieve \space roker) + 0.5 \times (vroegere \space roker)\)

Voor een actieve roker komen we dan volgende schatting uit: \(\hat{Y} = 64 - 2 \times (actieve \space roker = 1) + 0.5 \times (vroegere \space roker = 0)\) ofwel \(\hat{Y} = 64 - 2 \times 1 = 62 \space kg\). Voor elk label binnen de variabele Rookstatus, kunnen we dus de inschatting van het gewicht gaan berekenen.

Exercise 3.1 Kan je zelf voor de andere categoriën deze inschatting maken? Hoe bepaal je het gewicht voor de categorie die is weggevallen?

Ook in wetenschappelijke artikels zal je binnen categorische variabelen merken dat er aan dummy coding werd gedaan. Hierbij wordt de referentiecategorie vaak gedefinieerd als \(0\).

Dummy coding in wetenschappelijk artikel

Figure 3.3: Dummy coding in wetenschappelijk artikel