La modellazione è il processo di gestione dei dati in strumenti di previsione/predizione.
Attività fondamentali sono: la creazione, l’adattamento e la convalida del modello.
Esistono molti modi per modellare un dataset. Quale approccio è il migliore?
La spiegazione più semplice è anche la migliore
Tradotto: tra più modelli egualmente validi, usa quello più semplice (semplificando le assunzioni e riducendo i parametri usati nel modello)
Es: Modelli di Regressione Lasso o Ridge usano fattori di penalty proporzionali ai numeri di vincoli da usare.
Altre tecniche invece (Deep Learning) usano migliaia di parametri per i loro modelli.
Il Bias è l’errore derivnate da presupposti errati nel modello. Es: renderlo lineare quando lineare non è (underfitting).
La varianza è l’errore dovuto all’eccessiva sensibilità a piccole fluttuazioni nel training set (overfitting)
Pensa in modo probabilistico: le previsioni che fanno affermazioni “binarie” sono meno significative di quelle che sono intrinsecamente probabilistiche.
Il mondo reale è un luogo incerto.
Una previsione secondo cui Trump ha solo il 28% di possibilità di vincere è più significativa di una che afferma categoricamente che perderà.
→ Specifica $\sigma$ insieme alla previsione media $\mu$. I modelli devono essere onesti su cosa sono in grado di fare e cosa no.
Modifica la tua previsione in risposta a nuove informazioni: i modelli live sono molto più interessanti di quelli dead. Un modello è live se aggiorna la previsioni in risposta a nuove informazioni. Gli scienziati dovrebbero essere aperti a cambiare opinione.
→ Costruisci un’infrastruttura che mantenga un modello live
Cerca il consenso: una buona previsione proviene da più fonti distinte e diverse di prove. Spesso terze parti producono previsioni concorrenti, che puoi monitorare e confrontare (preoccupati quando differiscono sostanzialmente dai tuoi risultati).
Alcuni metodi di apprendimento automatico mirano esplicitamente al consenso (es: Algoritmi di Boossting combinano classificatori deboli per produrne uno forte).
→ Costruisci più modelli, ciascuno cercando di prevedere la stessa cosa in modi diversi.
Google Flu Trend: modello per predire focolai di influenza basato su frequenza query termini malattia. Il modello è fallito dopo che Google ha modificato i suggerimenti di ricerca.
Usa il ragionamento baysiano: il teorema di Bayes fornisce un modo per calcolare come cambiano le probabilità in risposta a nuove prove: