I data scientist usano la maggior parte del loro tempo per pulire e formattare i dati. Il rimanente tempo è speso nella disperata ricerca di dati utili per le loro analisi.
L’arte di acquisire e preparare i dati per le analisi si chiama data mungin o data wrangling.
I linguaggi più usati sono:
Gli ambienti di notebook, invece, forniscono la possibilità di combinare codice compilabile, dati, risultati, testo, immagini, grafici in un unico ambiente. In questo modo, il progetto sarà sempre:
I notebook semlpificano la gestione delle pipeline di dati, la sequenza delle fasi di elaborazione dall’inizio alla fine.
In un progetto, le analisi sono spesso da rifare da zero: un buon notebook semplifica questo processo.
La pipeline: