L’analisi computazionale trova facilmente modelli, correlazioni e pattern in grandi set di dati.
Ma quando un modello è veramente significativo?
Correlazioni sufficientemente forti su set di dati di grandi dimensioni possono sembrare “ovviamente” significative, ma spesso gli effetti sono più sottili.
L’esempio classico viene dalla statistica medica, nel determinare l’efficacia dei trattamenti farmacologici.
Un’azienda farmaceutica conduce un esperimento confrontando due farmaci. Il farmaco A ha curato 19 pazienti su 34. Il farmaco B ha curato 14 dei 21 pazienti. Il farmaco B è davvero migliore del farmaco A?
L’approvazione da AIFA di nuovi farmaci può aggiungere o sottrarre miliardi dal valore delle aziende farmaceutiche. Ma come possiamo essere sicuri che un nuovo farmaco sia realmente efficace?
Nella costruzione di un classificatore per distinguere tra due classi, è utile sapere se le variabili di input mostrano una reale differenza tra le classi.
Il T-test valuta se le medie della popolazione di due campioni sono diverse.
Supponiamo di misurare il QI di 20 uomini e 20 donne. Un gruppo è in media più intelligente dell’altro?
Molto probabilmente le medie del campione saranno diverse, ma questa differenza è significativa?
Diventa facile distinguere due distribuzioni
più le medie si allontanano: