I data scientist usano la maggior parte del loro tempo per pulire e formattare i dati. Il rimanente tempo è speso nella disperata ricerca di dati utili per le loro analisi.

L’arte di acquisire e preparare i dati per le analisi si chiama data mungin o data wrangling.

I linguaggi più usati sono:

Gli ambienti di notebook, invece, forniscono la possibilità di combinare codice compilabile, dati, risultati, testo, immagini, grafici in un unico ambiente. In questo modo, il progetto sarà sempre:

  1. Facilmente riproducibile
  2. Modificabile
  3. Condiviso
  4. Documentato a dovere

Data pipeline

I notebook semlpificano la gestione delle pipeline di dati, la sequenza delle fasi di elaborazione dall’inizio alla fine.

In un progetto, le analisi sono spesso da rifare da zero: un buon notebook semplifica questo processo.

La pipeline:

  1. Produzione o identificazione e collezione di dati
  2. Manipolazione e processamento dei dati