La pipeline dell’analista dati

La modellazione è il processo di gestione dei dati in strumenti di previsione/predizione.

Attività fondamentali sono: la creazione, l’adattamento e la convalida del modello.

Untitled

Esistono molti modi per modellare un dataset. Quale approccio è il migliore?

Untitled

L’analista dati filosofo

La spiegazione più semplice è anche la migliore

Tradotto: tra più modelli egualmente validi, usa quello più semplice (semplificando le assunzioni e riducendo i parametri usati nel modello)

Es: Modelli di Regressione Lasso o Ridge usano fattori di penalty proporzionali ai numeri di vincoli da usare.

Altre tecniche invece (Deep Learning) usano migliaia di parametri per i loro modelli.

L’Analista “sleale” e quello “ansioso”

Il Bias è l’errore derivnate da presupposti errati nel modello. Es: renderlo lineare quando lineare non è (underfitting).

La varianza è l’errore dovuto all’eccessiva sensibilità a piccole fluttuazioni nel training set (overfitting)

I principi chiave di Nate Silver

Usa il ragionamento baysiano: il teorema di Bayes fornisce un modo per calcolare come cambiano le probabilità in risposta a nuove prove: