Analisi di correlazione

Supponiamo di avere due variabili $x$ e $y$ rappresentate da un set di $n$ punti nella forma $(x_i, y_i)$ con $1\leq i \leq n$.

$x$ e $y$ sono correlati quando i valori di $x$ hanno un certo potere predittivo sul valore di $y$.

Il coefficiente di correlazione $r(X, Y)$ misura il grado in cui $Y$ è una funzione di $X$ (e viceversa).

La correlazione va da -1 (anti-correlata) a +1 (completamente correlata) fino a 0 (non correlata).

Esempi

Le persone più alte hanno maggior probabilità di rimanere magre? La correlazione osservata tra altezza e BMI è $r = -0.711$, quindi l’altezza è correlata negativamente con l’indice di massa corporea (i.e., all’aumentare dell’altezza dovrebbe seguire una diminuzione della BMI).

La situazione finanziaria personale influisce sulla salute? La correlazione osservata tra il reddito familiare e la prevalenza della malattia coronarica è $r = -0.717$, quindi esiste una forte correlazione negativa (i.e., più sei ricco, minore è il rischio di avere un infarto).

Il fumo influisce sulla salute? La correlazione osservata tra la propensione di un guppo a fumare e il suo tasso di mortalità è $r = 0.716$ (i.e., non fumare!).

Il Coefficiente di correlazione

Esistono due statistiche per il calcolo del coefficiente di correlazione:

Entrambe lavorano sull scala: $-1\leq r\leq +1$.

Si tratta di due statistiche diverse che si applicano in contesti diversi.

Il Coefficiente di correlazione di Pearson

$$ r = \frac{\sum^{n}{i=1}(X_i - \overline X)(Y_i - \overline Y)}{\sqrt{\sum{i=1}^n(X_i - \overline X)^2}\sqrt{\sum_{i=1}^n (Y_i - \overline Y)^2}} = \frac{Cov(X, Y)}{\sigma(X)\sigma(Y))} $$

Il numeratore è detto covarianza, e determina il segno della correlazione.

Il denominatore riflette il livello di varianza delle due variabili, e determina la $r$ nella scala -1 a +1.

Pearson funziona bene per predittori lineari nella forma $y = m * x + b$ (i.e., quanto bene i dati “fittano” una retta).