Calcolare il coefficiente di correlazione del momento del prodotto

Forza dei

coefficienti di correlazione

|centro|600px|Correlazione positiva forte e correlazione positiva debole

Più i punti dati sono vicini alla linea di adattamento migliore su un grafico a dispersione, più forte è la correlazione. Può essere misurato numericamente da un coefficiente di correlazione. Ci sono diversi coefficienti che usiamo, ecco due esempi:

  • Coefficiente di correlazione del momento del prodotto di Pearson - misura la forza della correlazione lineare tra due variabili.
  • Coefficiente di correlazione del rango di Spearman - misura la forza della correlazione monotona tra due variabili.

Coefficiente di correlazione del momento del prodotto di Pearson, $r$

Il coefficiente di correlazione del momento del prodotto di Pearson (a volte noto come PPMCC o PCC) è una misura della relazione lineare tra due variabili che sono state misurate sull'intervallo o sul rapporto bilancia. Può essere utilizzato solo per misurare la relazione tra due variabili che sono entrambe normalmente distribuite. Di solito è indicato con $r$ e può assumere solo valori compresi tra $-1$ e $1$.

Di seguito è riportata una tabella di come interpretare il valore di $r$.

$r = 1$

Correlazione lineare positiva perfetta

$1 > r ≥ 0,8$

Correlazione lineare positiva forte

$0,8 > r ≥ 0,4$

Correlazione lineare positiva moderata

$0,4 > r > 0$

Correlazione

lineare positiva debole

$r = 0$

Nessuna correlazione

$0 > r ≥ -0.4$

Correlazione lineare negativa debole

$-0.4 > r ≥ -0.8$

Lineare negativa moderata correlazione

$-0.8 > r > -1$

Correlazione lineare negativa forte

$r = -1$

Correlazione lineare negativa perfetta

|1100 px

Come calcolare il coefficiente di correlazione di Pearson

1. Traccia il diagramma a dispersione per i tuoi dati; Devi farlo prima per rilevare eventuali valori anomali. Se non si escludono questi valori anomali nel calcolo, il coefficiente di correlazione sarà fuorviante. Essendo in grado di vedere la distribuzione dei dati, si avrà una buona idea della forza di correlazione dei dati prima di calcolare il coefficiente di correlazione.

numero arabo. Successivamente, devi verificare che i tuoi dati soddisfino tutti i criteri di calcolo. Le variabili devono essere:

  • Misurato su una scala di intervalli/rapporti (come l'altezza in pollici e il peso in chilogrammi) - questo può essere verificato Osservando le unità della variabile che stai misurando.
  • Distribuito normalmente: puoi verificarlo guardando un boxplot dei tuoi dati. Se il boxplot è approssimativamente simmetrico, è probabile che i dati vengano distribuiti normalmente.
  • Correlato linearmente - guarda un test di significatività dell'ipotesi nulla e alternativa.

3. Infine puoi calcolare il coefficiente di correlazione utilizzando la seguente formula: \[\displaystyle r = \frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum(x_i-\bar x)^2\sum(y_i-\bar y)^2}},\] dove:

  • $x_i$ e $y_i$ sono i tuoi punti dati,
  • $\bar x$ è la media dei valori di $x$ e $\bar y$ è la media dei valori di $y$,
  • $\sum$ è il segno di sommatoria, vedi notazione sigma per maggiori informazioni.

La formula può essere vista anche in altre forme come: \[\displaystyle r = \frac{Sxy}{\sqrt{Sxx \times Syy}},\] dove:

  • $Sxy = \sum(x_i-\bar x)(y_i-\bar y) = \sum(xy)-\frac{\sum{x} \sum{y}}{n}$,
  • $Sxx = \sum(x_i-\bar x)^2 = \sum(x_i-\bar x)(x_i-\bar x) = \sum(x^2)-\frac{(\sum{x})^2}{n}$,
  • $Syy = \sum(y_i-\bar y)^2 = \sum(y_i-\bar y)(y_i-\bar y) =\sum(y^2)-\frac{(\sum{y})^2}{n}$.

Trova

il coefficiente di correlazione di Pearson dei seguenti dati:

$5

Punteggio del test (su 10)

Ore di utilizzo ai videogiochi a settimana

$8$

$2$

$3$

$2$

$

$1.5$

$7$

$1$

$1$

$2.5$

$2$

$3$

$6$

$1.5$

$7$

$2$

$4$

$2$

$9$

$1.5$

Soluzione

|250px

1. Per prima cosa disegna il grafico a dispersione. Come si può vedere dal grafico a dispersione, le variabili sono correlate negativamente. Puoi anche vedere che ci sono

|250px

|250px

2. Successivamente dobbiamo verificare che i nostri dati soddisfino i criteri di calcolo:

  • Misurati su una scala di intervalli/rapporti - le variabili sono misurate su una scala di intervalli in quanto sono misurate in numeri interi e ore.
  • Normalmente distribuiti - i boxplot indicano che le due variabili sono entrambe distribuite normalmente.
  • Correlato linearmente - il diagramma a dispersione mostra che queste sono correlate linearmente, Ma questo potrebbe anche essere verificato utilizzando un test di significatività.

3. Infine possiamo calcolare il coefficiente di correlazione utilizzando la seguente formula:

\[r = \frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum(x_i-\bar x)^2\sum(y_i-\bar y)^2} ~}.\]

Etichetta le tue variabili $x$ e $y$ poiché è più facile lavorare con le lettere rispetto ai nomi delle variabili. In questo esempio, indica "punteggio del test (su 10)" di $x$ e "ore di utilizzo di videogiochi a settimana" di $y$.

Inizia trovando la media di $x$ e $y$;

\begin{align} \bar{x}&=\frac{\sum{x} }{n}=\frac{8+3+5+7+1+2+6+7+4+9}{10}=\frac{52}{10}=5.2\\ \bar{y}&=\frac{\sum{x} }{n}=\frac{2+2+1.5+1+2.5+3+1.5+2+2+1.5}{10}=\frac{19}{10}=1.9 \end{align}

Il modo più semplice per calcolare questo è creare una tabella con tutte le informazioni che bisogno di mettere nella formula.

$ 3 $

$x_i$

$y_i$

$x_i-\bar x$

$y_i-\bar y$

$(x_i-\bar x)(y_i-\bar y)$

$(x_i-\bar x)^2$

$(y_i-\bar y)^2$

$8$

$2$

$8-5.2=2.8$

$2-1.9=0.1$

$2.8\times 0.1=0.28$

$2.8^2=7.84$

$0.1^2=0.01$

$3$

$2$

$3-5.2=-2.2$

$2-1.9=0.1$

$-2.2\times 0.1=-0.22$

$-2.2^2=4.84$

$0.1^2=0.01$

$5$

1.5$

$5-5.2=-0.2$

$1.5-1.9=-0.4$

$-0.2\times-0.4=0.08$

$-0.2^2=0.04$

$-0.4^2=0.16$

$7$

$1$

$7-5.2=1.8$

$1-1.9=-0.9$

$1.8\volte-0.9=-1.62$

$1.8^2=3.24$

$-0.9^2=0.81$

$1$

$2.5$

$1-5.2=-4.2$

$2.5-1.9=0.6$

$-4.2\volte 0.6=-2.52$

$-4.2^2=17.64$

$0.6^2=0.36$

$2$ $

$

$2-5.2=-3.2$

$3-1.9=1.1$

$-3.2\volte 1.1=-3.52$

$-3.2^2=10.24$

$1.1^2=1.21$

$6$

$1.5$

$6-5.2=0.8$

$1.5-1.9=-0.4$

$0.8\times-0.4=-0.32$

$0.8^2=0.64$

$-0.4^2=0.16$

$7$

$2$

$7-5.2=1.8$

$2-1.9=0.1$

$1.8\volte 0.8=0.18$

$1.8^2=3.24$

$0.1^2=0.01$

$4$

$2$

4-5.2=-1.2$

$2-1.9=0.1$

$-1.2\volte 0.1=-0.12$

$-1.2^2=1.44$

$0.1^2=0.01$

$9$

$1.5$

$9-5.2=3.8$

$1.5-1.9=-0.4$

$3.8\times-0.4=-1.52$

$3.8^2=14.44$

$-0.4^2=0.16$

$\sum{x}=52$

$\sum{y} = 19$

$\sum{(x_i-\bar x)(y_i-\bar y)}=-9.3$

$\sum{(x_i-\bar x)^2}=63.6$

$\sum{(y_i-\bar y)^2}=2.9$

Ora possiamo mettere tutti i nostri numeri nella nostra formula per trovare $r$;

\begin{align} \displaystyle r &= \frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum(x_i-\bar x)^2\sum(y_i-\bar y)^2}~}\\ &=\frac{-9.3}{\sqrt{63.6\times2.9}~}\\ & =-0.68478681816...\\ &=-0.685\ \text{(3.d.p.)} \end{align}

Possiamo dedurre che esiste una moderata correlazione lineare negativa tra i punteggi dei test (su 10) e le ore di utilizzo dei videogiochi a settimana.

Questo non significa necessariamente che più ore di gioco ai videogiochi ridurranno i punteggi dei test, questo dimostra semplicemente che esiste una correlazione tra loro.

Esempio video

Alissa Grant-Walker presenta un video sulla ricerca del coefficiente di correlazione del momento del prodotto di Pearson.

Coefficiente di correlazione del rango di Spearman, ρ

Il coefficiente di Spearman (solitamente indicato con $ρ$ o $r_s$) viene utilizzato per misurare la correlazione monotona tra due variabili. Una funzione monotona è una funzione di una variabile che è completamente crescente o decrescente.

La

tecnica del coefficiente di correlazione di Spearman viene applicata quando i dati non soddisfano i requisiti per il coefficiente di Pearson, ad esempio quando i dati sono asimmetrici o non lineari. Il coefficiente di correlazione di Spearman può essere applicato solo se i dati sono su una scala di intervallo, rapporto o ordinale (ad esempio se sono classificati al 1°, 2°, 3° posto). Può assumere valori compresi tra $-1$ e $1$.

Di seguito è riportata una tabella di come interpretare $\rho$.

monotona positiva debole

$ρ = 1$

Correlazione monotona positiva perfetta

$1 > ρ ≥ 0.8$

Correlazione monotona positiva forte

$0.8 > ρ ≥ 0.4$

Correlazione monotona positiva moderata

$0.4 > ρ > 0$

Correlazione

$ρ = 0$

Nessuna correlazione

$0 > ρ ≥ -0.4$

Correlazione monotona negativa debole

$-0.4 > ρ ≥ -0.8$

Correlazione monotona negativa moderata

$-0.8 > ρ > -1$

Correlazione monotona negativa forte

$ρ = -1$

Correlazione monotona negativa perfetta

|1100px

Come calcolare il coefficiente di correlazione di Spearman

1. Verifica che i dati siano su una scala di intervalli, rapporti o ordinali. Disegna un grafico a dispersione per verificare se i tuoi dati sono monotoni.

numero arabo. Classifica i dati: prima scrivi tutti i dati in ordine crescente, quindi assegna il rango 1 al valore più basso e 2 al secondo più basso. Continua a farlo fino a quando tutti i tuoi dati non sono classificati, se hai valori uguali fai la media dei ranghi. Per Ad esempio, se hai i valori $3,6,8,6,2,4,9$, dovresti scrivere i numeri in ordine crescente: $2,3,4,6,6,8,9$. I loro ranghi sarebbero rispettivamente $ 1,2,3,4.5,4.5,6,7$.

3. Calcola la differenza tra il rango di $x$ e il rango di $y$.

4. Calcola $\rho$ usando la formula: \[ρ=1-\frac{6\sum{d^2}}{n(n^2-1)}\]

dove:

  • $d$ è la differenza tra i valori di rango $x$ e rango $y$,
  • $n$ è il numero di coppie di dati nel set di dati (il numero di valori $x$ o $y$),
  • $\sum$ è il segno di sommatoria, vedi notazione sigma per maggiori informazioni.

Esempio funzionante 2

Esempio funzionato

Trova il coefficiente di correlazione dei ranghi di Spearmans per i seguenti dati:

$

Dati $x$

Dati $y

$7$

$50$

$3$

$19$

$20$

$80$

$9$

$55$

$11$

$66$

$14$

$72$

$1$

$4$

$4$ $

36$

$12$

$70$

$3$

$35$

Soluzione

|250px

1. I dati sono su una scala di intervalli. Questo è il grafico a dispersione unito dei dati. Poiché la linea che unisce i dati è sempre crescente, i dati aumentano in modo monotono e questo significa che è possibile utilizzare il coefficiente di correlazione dei ranghi di Spearman.

numero arabo. Classifica i dati $x$ e $y$ e inserisci i risultati in una tabella. Inizia mettendo i dati $x$ e i dati $y$ in ordine crescente.

dati $x$:

\[7,7,3,20,9,11,14,1,4,12,3.\]

Dati $x$ in ordine crescente: \[1,3,3,4,7,9,11,12,14,20,\]

Classifica $x$: \[1,2.5,2.5,4,5,6,7,8,9,10,\]

Dati $y$: \[50,19,80,55,66,72,4,36,70,35,\]

Dati $y$ in ordine crescente: \[4,19,35,36,50,55,66,70,72,80,\]

Classifica $y$: \[1,2,3,4,5,6,7,8,9,10.\]

9 $1

Dati $x$

Dati $y

$ Classifica $x$

Classifica $y$

$7$

$50$

$5$

$5$

$3$

$19$

$2.5$

$2

$ $20$

$80$

$10$

$10$ $

$

$55$

$6$

$6$

$11$

$66$

$7$

$7$

$14$

$72$

$9$

$9$

$1$

$4$

$1$

$

$4$

$36$

$4

$ $4$

$12$

$70$

$8$

$8$

$3$

$35$

$2.5$

$3$

3. Trova la differenza tra $x$ e $y$ ed etichettala $d$. Calcola $d^2$ e $\sum{d^2}$.

0$ $9 0$ 0$ $1 0$ $0$ 3

Dati $x$

Dati $y$

Classifica $x$

Classifica $y$

$d$

$d^2$

$7$

$50$

$5$

$5$

$0$

$0$

$3$

$19$

$2.5$

$2$

$0.5$ $0.25

$

$20$

$80$

$10$

$10$

$0$

$

$

$55$

$6$

$6$

$0$

$0$

$11$

$66$

$7$

$7$

$0$

$

$14$

$72$

$9$

$9$

$0$

$

$

$4$

$1$

$1$

$0$

$0$

$4$

$36$

$4

$ $4$

$0$

$0$

$12$

$70$

$8$

$8$

$

$

$

$35$

$2.5$

$3$

0.5$

$0.25$

$\sum{d^2}=0.5$

4. Applica la formula: \[ρ=1-\frac{6\sum{d^2} }{n(n^2-1)}=1-\frac{6\times{0.5} }{10(10^2-1)}=1-\frac{3}{990}=1-0.00303=0.997\ \text{(3.d.p.)}\]

Possiamo dedurre da ciò che esiste una correlazione monotona positiva molto forte tra i dati $x$ e i dati $y$.

Esempio video

Questo è un esempio funzionante di calcolo del coefficiente di correlazione di Spearman prodotto da Alissa Grant-Walker.

Cartella di lavoro

Questa cartella di lavoro prodotta da HELM è un buon aiuto per la revisione, contenente punti chiave per la revisione e molti esempi pratici.

Mettiti alla

prova: test Numbas sulle misure di correlazione

Risorse esterne

Vedi anche