Data quality

Il tema del data quality è particolarmente importante perché, dopo aver approfondito come gestire i dati e le loro architetture è bene studiare anche i dati in se.

Un esempio di scarsa data quality è quella di avere lo stesso dato con valori diversi nello stesso posto, anche semplicemente una pagina web.

I dati sono una rappresentazione della realtà e questo porta al fatto che la realtà viene da noi modellata tramite alcuni dati specifici, tramite un pezzo della realtà e tale rappresentazione potrebbe non essere a priori oggettiva, anche a causa di strutture linguistiche e/o basate sui sensi. Si definiscono quindi:

Si è capito che la qualità è un concetto complicato.

Definizione: diamo una serie di definizioni:

Le dimensioni misurabili lo sono tramite metriche, che secondo le definizioni dello standard ISO 9126-1 secondo il framework ISM3 sono un’insieme di procedure che comprende:

Si possono avere metriche diverse per la stessa dimensione.

La qualità dei dati è un concetto che può essere espresso attraverso molteplici dimensioni, ad esempio la accuratezza (magari anche solo per errori di typo nei dati), la comprensibilità, la completezza (avendo magari valori a NULL), l’inconsistenza (avendo contraddizioni nei dati) etc…

Untitled

Noi considereremo le seguenti:

Untitled