Supponiamo di avere due variabili $x$ e $y$ rappresentate da un set di $n$ punti nella forma $(x_i, y_i)$ con $1\leq i \leq n$.
$x$ e $y$ sono correlati quando i valori di $x$ hanno un certo potere predittivo sul valore di $y$.
Il coefficiente di correlazione $r(X, Y)$ misura il grado in cui $Y$ è una funzione di $X$ (e viceversa).
La correlazione va da -1 (anti-correlata) a +1 (completamente correlata) fino a 0 (non correlata).
Le persone più alte hanno maggior probabilità di rimanere magre? La correlazione osservata tra altezza e BMI è $r = -0.711$, quindi l’altezza è correlata negativamente con l’indice di massa corporea (i.e., all’aumentare dell’altezza dovrebbe seguire una diminuzione della BMI).
La situazione finanziaria personale influisce sulla salute? La correlazione osservata tra il reddito familiare e la prevalenza della malattia coronarica è $r = -0.717$, quindi esiste una forte correlazione negativa (i.e., più sei ricco, minore è il rischio di avere un infarto).
Il fumo influisce sulla salute? La correlazione osservata tra la propensione di un guppo a fumare e il suo tasso di mortalità è $r = 0.716$ (i.e., non fumare!).
Esistono due statistiche per il calcolo del coefficiente di correlazione:
Entrambe lavorano sull scala: $-1\leq r\leq +1$.
Si tratta di due statistiche diverse che si applicano in contesti diversi.
$$ r = \frac{\sum^{n}{i=1}(X_i - \overline X)(Y_i - \overline Y)}{\sqrt{\sum{i=1}^n(X_i - \overline X)^2}\sqrt{\sum_{i=1}^n (Y_i - \overline Y)^2}} = \frac{Cov(X, Y)}{\sigma(X)\sigma(Y))} $$
Il numeratore è detto covarianza, e determina il segno della correlazione.
Il denominatore riflette il livello di varianza delle due variabili, e determina la $r$ nella scala -1 a +1.
Pearson funziona bene per predittori lineari nella forma $y = m * x + b$ (i.e., quanto bene i dati “fittano” una retta).