E2_ML - QuickStart Exercises_Decision Tree.pdf

Definizioni

Algoritmo generale per la costruzione di un albero

Vediamo quindi un algoritmo generale per la costruzione dell’albero:

  1. si inizia con un albero vuoto
  2. scelgo un attributo opportuno per fare lo split dei dati
  3. per ogni split dell’albero:
    1. se non c’è altro da fare si fa la predizione con l’ultimo nodo foglia
    2. altrimenti si torna allo step 2 e si procede con un altro split.

Bisognerà capire:

Esempio

Untitled

Untitled

Untitled

Untitled

Posso quindi usare una funzione di costo per fissare quando una distribuzione è omogenea (come nel caso di overcast) o quando no (gli altri due casi).

Lo split, infatti, andrebbe fatto in base ai valori del target, più sono omogenei e meglio è, in quanto nel momento in cui si presenta un nuovo test per la classificazione con outlook pari a overcast saprò già cosa fare (in quanto nello storico delle esperienze ho sempre avuto yer). Le altre due situazioni sono ambigue e quindi, in quei due casi, devo procedere con la costruzione dell’albero per ottenere informazioni cercando di rimuovere l’incertezza.

Gini Index