SlideShare a Scribd company logo
1 of 55
Download to read offline
Statistica e probabilità in chimica: le regole del gioco
Ordine Interprovinciale dei Chimici della Liguria, 1 dicembre 2017
Il contenuto della presentazione può non riflettere necessariamente
la posizione ufficiale di ARPAL
Valor medio = 508
Deviazione standard = 291
238 1000 219 663 560 928 737 31 305
373 321 483 479 39 762 40 778 645
398 480 424 977 146 766 975 465 277
174 380 47 606 262 243 795 928 400
834 788 856 539 517 873 52 419 444
267 753 367 247 971 853 818 146 191
662 332 816 507 158 861 337 79 436
613 561 80 175 806 26 363 969 129
931 834 113 249 458 893 374 766 849
31 365 795 162 975 197 317 768 252
935 197 781 617 845 548 645 794 572
448 595 84 289 82 497 705 859 928
96 695 702 637 107 630 67 58 117
404 87 866 534 361 924 824 603 292
41 616 67 835 510 467 585 373 591
25 528 119 604 520 651 855 39 619
301 329 904 483 170 587 924 562 242
202 372 192 355 875 816 728 848 286
296 241 543 190 21 103 517 730 339
91 11 785 550 884 709 516 711 870
13 931 329 660 460 383 578 802 15
28 977 220 907 825 852 723 806 790
718 710 612 987 997 557 524 691 626
848 346 466 763 434 160 250 877 609
Range = 989
L’introduzione delle statistiche permette una
compattazione delle informazioni passando dagli
n valori numerici x1, x2,…,xn a pochissimi valori
numerici
Statistica: la scienza che si occupa dell’organizzazione e della sintesi di informazioni numeriche o
non numeriche. La statistica permette anche di analizzare dati con il fine di poter effettuare
generalizzazioni e decisioni su un determinato soggetto. Si ha cioè la statistica descrittiva e la
statistica inferenziale.
Statistiche: fatti o dati, sia numerici sia non numerici, organizzati e sintetizzati in modo tale da
fornire informazioni accessibili e utili su un particolare soggetto.
La statistica descrittiva consiste nell’utilizzo di metodi che consentono l’organizzazione e la sintesi
delle informazioni. La statistica inferenziale, invece, comprende i metodi che consentono di trarre
conclusioni su una popolazione e di misurarne l’affidabilità basate su informazioni ottenute da un
campione della popolazione stessa.
Popolazione: l’insieme di tutti gli oggetti presi in considerazione in uno studio statistico.
Campione: parte della popolazione da cui è ottenuta l’informazione.
Una statistica è una quantità numerica il cui valore è determinato dai dati.
F = fenomeno di interesse
P = popolazione (insieme delle rappresentazioni delle possibili manifestazioni del fenomeno)
R = Insieme caratteristico (raccolta di tutti gli indici caratteristici di compattazione dei dati)
gi = gruppo di operazioni logiche o algebriche di qualunque natura che consentano la
compattazione dell’informazione
Statistica Descrittiva
Misure di tendenza centrale
Misure o statistiche che indicano dove risiede il centro e/o il valore più tipico di un insieme di dati
sono chiamati misure di tendenza centrale o più semplicemente misure del centro. Le tre più
importanti misure di tendenza centrale sono la media, la mediana, la moda.
La media aritmetica
la statistica più comunemente utilizzata per la misura del centro è la media aritmetica
comunemente chiamata media. La media di un insieme di dati è semplicemente la somma dei
valori misurati diviso per il numero delle misure
𝑥 =
𝑖=1
𝑛
𝑥𝑖
𝑛
Se il campione su cui si effettuano le misure è rappresentativo della popolazione di interesse, la
media del campione ( 𝑥) è la migliore stima della media della popolazione (µ). Questo concetto verrà
approfondito nel lavoro riguardante la statistica inferenziale.
n è la dimensione del campione o
il numero di osservazioni
Mediana
La mediana è un ulteriore statistica utilizzata per la misura del centro. Essenzialmente la mediana è
quel numero quasi sempre appartenente all’insieme di dati e che li divide in due metà
numericamente uguali. Il valore mediano è l'unità che occupa la posizione centrale nella
distribuzione ordinata dei valori.
Dato un insieme di N valori posti in ordine crescente o decrescente la mediana è quel valore che
divide l'insieme in due parti lasciando la metà degli elementi da un lato e l'altra metà dall'altro lato.
Se N è dispari la mediana è l’elemento di posizione:
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 =
𝑁
2
+ 1
Se N è pari la mediana è la semisomma o media dei due valori centrali:
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 =
𝑁
2 +
𝑁
2 + 1
2
Moda
La moda è l’elemento dell’insieme di dati che compare un maggior numero di volte (maggiore
frequenza)
La media è maggiormente influenzata dai dati agli estremi di una distribuzione rispetto alla
mediana, pertanto nelle misure ottenute sperimentalmente è sempre bene valutare la
presenza o meno di “outliers”. La mediana invece è una misura di tendenza centrale resistente
in quanto non influenzabile da poche osservazioni estreme.
Misure di variazione
Per comprendere in maniera più dettagliata le caratteristiche di un insieme di dati, oltre alle
statistiche di tendenza centrale è necessario acquisire ulteriori informazioni. Due o più insieme di
numeri possono possedere una stessa misura descrittiva del centro (media, moda, mediana) ma
essere insiemi profondamente differenti sotto altri punti di vista. Una fondamentale informazione
che dobbiamo poter estrarre da un insieme di dati è la loro variazione o dispersione. Le statistiche
descrittive che ci consentono di fare questo si chiamano misure di variazione o misure di
dispersione.
Il range.
Una statistica che ci consente di valutare la dispersione dei dati del nostro campione è il Range,
esso esprime la differenza tra il valore più alto e il valore più basso degli elementi del nostro
campione.
Varianza
La varianza è la media delle deviazioni quadratiche dei singoli valori rispetto ad
un valore medio. Se il valore medio in questione è la media µ della popolazione
si parla di varianza della popolazione 𝜎2, se il valore medio è invece del
campione ( 𝑥) si parla di varianza del campione s2.
Varianza della popolazione
Varianza del campione
 
n
xx
n
i
i

 1
2
2

 
1
1
2
2




n
xx
s
n
i
i
La deviazione standard
La deviazione standard tiene in considerazione tutte le osservazioni effettuate. E’ la
misura di variazione preferita quando per la misura della tendenza centrale viene
utilizzata la media.
Deviazione standard della popolazione
Deviazione standard del campione
 
n
x
n
i
i

 1
2


 
1
1
2




n
xx
s
n
i
i
Sostanzialmente sia la varianza sia la deviazione standard misurano una variazione, indicando quanto i dati,
sono distanti (deviati) in media dal valore medio. Per ottenere questo è necessario che le distanze (scarti) dal
valore vero siano elevate al quadrato, altrimenti la media delle semplici deviazioni risulterebbe nulla. Maggiore
è la varianza o la deviazione standard, maggiore è la dispersione dei dati misurati.
Supponiamo di misurare la concentrazione di pirene in 5 aliquote dello stesso campione di terreno
trovando i seguenti valori: 72 mg/kg; 73 mg/kg; 76 mg/kg; 76 mg/kg e 78 mg/kg.
𝑥 =
𝑖=1
𝑛
𝑥𝑖
𝑛
=
72 + 73 + 76 + 76 + +78
5
= 75 𝑚 𝑔 𝑘 𝑔La media dei valori è:
Concentrazione Deviazione dalla media
(scarto)
Deviazione quadratica dalla
media
72 -3 9
73 -2 4
76 1 1
76 1 1
78 3 9
Somma 0 24
xxi   2
xxi 
 
1
1
2
2




n
xx
s
n
i
i
 
1
1
2




n
xx
s
n
i
i
Probabilità
Se un esperimento ha N possibili risultati tutti egualmente possibili, allora un evento che si manifesta in f
modi ha la probabilità f/N di manifestarsi:
Probablità di un evento =
𝑓
𝑁
Evento = specifico risultato che può o non può verificarsi in seguito ad un esperimento
f = numero di modi in cui un evento può verificarsi (sottoinsieme di tutte le possibilità)
N = numero totale di possibili risultati. I risultati devono essere tutti ugualmente possibili
In queste condizioni le probabilità sono essenzialmente delle percentuali (frequenze relative)
Definizione classica
se abbiamo un mazzo da quaranta carte abbiamo una probabilità di 1/10 (4/40) di estrarre un re
(variabile casuale). i possibili modi in cui l’evento (re) può manifestarsi sono re di cuori, di picche,
fiori e denari. Il numero totale dei possibili risultati è il numero di tutte le carte (40) ed ogni carta ha
la stessa probabilità di essere estratta.
Definizione frequentista
La probabilità di un evento ripetibile A è data dal rapporto fra nA, il numero di volte in cui A
si è verificato, ed n, il numero delle prove, quando il numero delle
prove tende ad infinito
supposto che tutte le prove siano effettuate nelle stesse condizioni.
𝑃 𝐴 = lim
𝑛→∞
𝑛 𝐴
𝑛
La probabilità, secondo questa definizione, può essere quindi intesa come una sorta di idealizzazione della
frequenza relativa introdotta nel contesto della statistica descrittiva. Taluni autori ritengono, infatti, che
probabilità e frequenza relativa non siano altro che l'aspetto teorico e quello empirico di uno stesso
concetto ed interpretano la frequenza relativa di un evento come misura approssimata (per n finito) della
probabilità.
𝑥 = 𝑖=1
𝑛 𝑥 𝑖
𝑛
=
72+73+73+73+76+76+78
7
=
72
7
+
73+73+73
7
+
76+76
7
+
78
7
=
1
7
72 +
3
7
73 +
2
7
76 +
1
7
78
Probablità di un evento (P) =
𝑓
𝑁
𝑥 =
𝑖=1
𝑛
𝑥𝑖
𝑛
=
𝑖=1
𝑛
𝑓𝑖
𝑛
𝑥𝑖 =
𝑖=1
𝑛
𝑃𝑖 𝑥𝑖
Gaussiana
Una funzione (curva) di densità rappresenta la distribuzione di una variabile continua
La percentuale di tutte le possibili osservazioni della variabile di interesse che giacciono all’interno di uno
specifico range equivale alla corrispondente area sotto la curva di densità, espressa come percentuale
Sappiamo dall’evidenza sperimentale che i dati prodotti dalla ripetizione di misurazioni chimiche si dispongono in
maniera simmetrica intorno ad un valore centrale secondo quel modello statistico chiamato distribuzione
gaussiana o normale. Se il modello matematico è specificato in tutte le sue parti, forma funzionale nota (di tipo
gaussiano) con il valore dei parametri caratteristici noti (valore centrale  e ampiezza della distribuzione ), allora
la distribuzione dei valori della nostra quantità di interesse è completamente determinata.
x [c]

-3 -2 - +3+2+
68.26%
95,44%
99,74%
𝒛 =
𝒙 − 𝝁
𝝈
Distribuzione Normale Standard
variabile standardizzata normalmente distribuita
Area sottesa alla curva
(probabilità)
Z score
Area azzurra:
Area a sinistra di z
Area azzurra:
1-(Area a sinistra di z)
Area azzurra:
(Area a sinistra di z2)-(Area a sinistra di z1)
La notazione Za
0.05
0.95
0.05
0.95
Limite di Legge
Z=-1.645
Risultato conforme
Risultato NON conforme
Z=-1.645
Campioni casuali
si deve sottolineare che la statistica (inferenziale/induttiva) tratta in modo quasi esclusivo dei campioni
casuali (campioni probabilistici), cioè, dei sottoinsiemi (campioni) della Popolazione cui si perviene
attraverso l’applicazione di un qualche meccanismo di selezione avente natura probabilistica. Non
costituisce, quindi, parte integrante della statistica induttiva l’analisi dei campioni non probabilistici;
rientrano in quest’ultima categoria i cosiddetti campioni ragionati e quelli per i quali non è noto il
meccanismo generatore.
In questa sede si tratterà esclusivamente del campionamento casuale semplice; cioè, dei
campioni cui si perviene procedendo all’estrazione (con o senza ripetizione) di n (dimensione
del campione) elementi che hanno la stessa probabilità di essere inclusi nel campione.
Campioni casuali
E’ campionamento ragionato quello che individua le unità campionarie, cioè le unità statistiche portatrici delle
informazioni (manifestazioni del fenomeno d’interesse), attraverso l’applicazione di procedure basate
sull’impiego ragionato dell’informazione disponibile al momento in cui si procede all’individuazione delle unità
che andranno a costituire il campione. In proposito si deve, comunque, sottolineare che le informazioni
disponibili costituiscono spesso la base di schemi di campionamento probabilistico più o meno complessi
(campionamento stratificato, campionamento a grappolo, campionamento a più stadi, campionamento
stratificato a più stadi, ecc.), ma in tali circostanze le informazioni disponibili vengono utilizzate solo per
incrementare l’efficienza del campione, cioè l’efficienza del processo di induzione dal campione alla popolazione,
e non per individuare le singole unità che andranno a costituire il campione.
Nell’ambito del campionamento semplice si ipotizzerà sempre
l’esistenza di un modello probabilistico capace di rappresentare
adeguatamente il fenomeno che interessa analizzare. In altre parole,
si assumerà che la popolazione P sia rappresentata da una variabile
casuale semplice o multipla con una propria funzione di
distribuzione non completamente nota.
in questo contesto le variabili casuali associate a
ciascuna unità campionaria risultano indipendenti e
identicamente distribuite (i.i.d.).
Definizione 1 Se X1, X2,...,Xn costituiscono un insieme di variabili casuali
indipendenti e identicamente distribuite (i.i.d.), la loro funzione di massa o
di densità di probabilità congiunta soddisfa l'uguaglianza
𝑓 𝑥1, 𝑥1 … 𝑥 𝑛; 𝜃1, 𝜃1, … 𝜃 𝑛 = 𝑓 𝑥; 𝜃 =
= 𝑓 𝑥1; 𝜃 × 𝑓 𝑥2; 𝜃 × ⋯ 𝑓 𝑥𝑖; 𝜃 × ⋯ 𝑓 𝑥 𝑛; 𝜃
=
𝑖=1
𝑛
𝑓 𝑥𝑖; 𝜃
allora si dice che l’insieme di variabili casuali i.i.d. X1, X2,...,Xn = costituisce
un campione casuale semplice di n osservazioni indipendenti relativo alla
variabile casuale X che ha funzione di massa o di densità di probabilità
equivalente a quella (comune) di ciascuna componente Xi del campione.
Avendo supposto l'indipendenza tra le osservazioni
campionarie, si avrà, come sottolineato, l'uguaglianza
(equivalenza) tra la distribuzione della variabile casuale
X relativa alla popolazione e la variabile Xi (tale deve
essere intesa a priori, cioè prima dell'effettiva
estrazione del campione) relativa all'i-esimo elemento
campionario (per i = 1, 2 ...,n).
campionamento casuale semplice: campioni cui si
perviene procedendo all’estrazione di n elementi che
hanno la stessa probabilità di essere inclusi nel
campione.
Nella formula sopra riportata con 𝑓 𝑥𝑖; 𝜃 , per i = 1, 2,..,n, si è indicata la
funzione di massa, o di densità di probabilità, dell'i-esimo elemento
costituente il campione.
La distribuzione campionaria della media
Prerequisiti: campionamento, statistica descrittiva, probabilità e distribuzione normale.
Uniamo ora i diversi argomenti per arrivare alla statistica inferenziale
Errore di campionamento e distribuzione campionaria: Introdurremo i concetti di errore di campionamento e di
distribuzione campionaria. Verrà descritto il ruolo essenziale che questi concetti hanno negli studi inferenziali.
La distribuzione campionaria di una statistica ( 𝑥 , s) è la distribuzione di tutte le possibili osservazioni delle
statistiche per campioni di data dimensione estratti da una popolazione.
Parametro e Statistica
Parametro: una misura descittiva per una popolazione , 
Statistica: una misura descrittiva per un campione 𝑥 , s. E’una quantità numerica il cui valore è determinato
dai dati
La distribuzione campionaria della media
Nelle discussioni relative a La media e la deviazione standard della media e La distribuzione campionaria della
media verrà fornita la teoria necessaria per l’applicazione della distribuzione campionaria della media. In
particolare presenteremo le formule per la media e la deviazione standard della media campionaria. illustreremo
come, sotto certe condizioni generali, la distribuzione campionaria della media è una distribuzione normale o
almeno la approssima. Applicheremo questi concetti per illustrare procedure importanti della statistica
inferenziale: utilizzare la media , 𝑥, di un campione estratto da una popolazione per trarre conclusion sulla media,
μ, dell’intera popolazione.
Ci concentreremo ora sulla distribuzione campionaria della media .
L’errore di campionamento e la distribuzione campionaria
L’utilizzo di un campione al fine di acquisire informazioni sulla intera popolazione è spesso preferibile (se non
indispensabile) al condurre un censimento.
Comunque, dato che un campione fornisce dati solo relativamente ad una porzione dell’intera popolazione,
non possiamo aspettarci che il campione produca informazioni perfettamente accurate sulla popolazione.
Pertanto dobbiamo anticipare che una certa quantità di errore – chiamato errore di campionamento – risulterà
semplicemente dal fatto che noi stiamo campionando.
La distribuzione campionaria della media
DEFINIZIONE
Errore di campionamento
L’errore di campionamento è l’errore che si ha nell’utilizzare un campione per stimare una caratteristica della popolazione.
Esempio: distribuzione campionaria della media
Peso dei primi cinque uomini di mischia degli All Blacks. Supponiamo che la popolazione di interesse
consista dei primi cinque uomini di mischia degli All Blacks che hanno disputato la finale del
campionato del mondo nel 2015. supponiamo inoltre che la variabile di interesse sia il loro peso in Kg.
giocatore Joseph Moody
(A)
Dane Coles
(B)
Owen Franks
(C)
Brodie Retallick
(D)
Samuel Whitelock
(E)
Altezza, peso 1.88m, 118kg 1.84m, 109kg 1.83m, 119kg 2.04m, 120kg 2.02m, 115kg
Campione
(dim 1)
peso
medio
Campione
(dim 2)
peso
medio
Campione
(dim 3)
peso
medio
Campione
(dim 4)
peso
medio popolazione
peso
medio
A 118 A,B 114 A,B,C 115 A,B,C,D 117 A,B,C,D,E, 116.2
B 109 A,C 119 A,B,D 116 A,B,C,E 115
C 119 A,D 119 A,B,E 114 A,B,D,E 116
D 120 A,E 117 A,C,D 119 A,C,D,E 118
E 115 B,C 114 A,C,E 117 B,C,D,E 116
B,D 115 A,D,E 118
B,E 112 B,C,D 116
C,D 120 B,C,E 114
C,E 117 B,D,E 115
D,E 118 C,D,E 118
calcoliamo il peso medio della popolazione e dei relativi campioni
giocatore (A) (B) (C) (D) (E)
peso 118kg 109kg 119kg 120kg 115kg
𝜇 =
𝑥 𝑖
𝑁
=
118+109+119+120+115
6
= 116.2
𝑥 = 1
𝑥 = 2
𝑥 = 3
𝑥 = 4
𝑥 = 5

108 109 110 111 112 113 114 115 116 117 118 119 120 121
Dimensioni del campione e Errore di Campionamento

dimensioni
campione
N. possibili
campioni
N. entro
1Kg di 
% entro
1Kg di 
N. entro
0.5Kg di 
% entro
0.5Kg di 
1 5 1 20 0 0
2 10 3 30 0 0
3 10 5 50 2 20
4 5 4 80 2 40
5 1 1 100 1 100
Le possibili medie dei campioni si ragguppano tanto più
vicino al valore medio della popolazione quanto più la
dimensione dei campioni aumenta.
In pratica le popolazioni con cui ci troviamo a lavorare sono di grandi dimensioni e i dati relativi ad essa
sono sconosciuti…
Fortunatamente possiamo utilizzare delle relazioni matematiche per approssimare la distribuzione
campionaria della media
Dimensioni del campione ed errore di campionamento.
Maggiori sono le dimensioni del campione e più piccolo tende ad essere l’errore di campionamento nella
stima della media della popolazione, , basata sulla media del campione 𝑥
La distribuzione campionaria della media è la distribuzione di tutte le possibili
medie di campioni di dimensione fissata
La distribuzione di una statistica di un campione (cioè tutte le possibili osservazioni della statistica per un campione di dimensioni
date) è chiamata distribuzione campionaria della statistica. Prendiamo in considerazione la distribuzione campionaria della media,
cioè della statistica 𝑥.
In statisica sono sinonimi:
• distribuzione campionaria della media
• distribuzione della variabile 𝑥
• distribuzione di tutte le possibili medie di campioni di dimensione fissata
Una statistica è una quantità numerica il cui valore è determinato dai dati
Definizione distribuzione campionaria della media
Per una variabile x e un campione di dimensione data, la distribuzione della variabile 𝑥 è chiamata distribuzione
campionaria della media
x= [IPA]; dimensione campione = 3 repliche indipendenti di 10 gr; 𝑥 = [IPA] media di 3 repliche indipendenti di 10 gr
Campione
(dim 1) peso medio
Campione
(dim 2) peso medio
Campione
(dim 3) peso medio
Campione
(dim 4) peso medio popolazione
peso
medio
A 118 A,B 114 A,B,C 115 A,B,C,D 117 A,B,C,D,E, 116.2
B 109 A,C 119 A,B,D 116 A,B,C,E 115
C 119 A,D 119 A,B,E 114 A,B,D,E 116
D 120 A,E 117 A,C,D 119 A,C,D,E 118
E 115 B,C 114 A,C,E 117 B,C,D,E 116
B,D 115 A,D,E 118
B,E 112 B,C,D 116
C,D 120 B,C,E 114
C,E 117 B,D,E 115
D,E 118 C,D,E 118
media 116.2 media 116.2 media 116.2 media 116.2
La media delle medie dei campioni
C’è una semplice relazione tra la media della variabile 𝑥 e la media della variabile in studio : esse sono uguali
𝜇 𝑥 = μ
Per campioni di qualsiasi dimensione, la media di tutte le possibili medie eguaglia la media della
popolazione. Questa eguaglianza è verificata indipendentemente dalla dimensione del campione.
La media e la deviazione standard della media
Per campioni di dimensione n, la media della variabile 𝑥 eguaglia la media della variabile
in considerazione.
𝜇 𝑥 = μ
La deviazione standard della media campionaria

Campione
(dim 1)
peso
medio
Campione
(dim 2)
peso
medio
Campione
(dim 3)
peso
medio
Campione
(dim 4)
peso
medio
A 118 A,B 114 A,B,C 115 A,B,C,D 117
B 109 A,C 119 A,B,D 116 A,B,C,E 115
C 119 A,D 119 A,B,E 114 A,B,D,E 116
D 120 A,E 117 A,C,D 119 A,C,D,E 118
E 115 B,C 114 A,C,E 117 B,C,D,E 116
B,D 115 A,D,E 118
B,E 112 B,C,D 116
C,D 120 B,C,E 114
C,E 117 B,D,E 115
D,E 118 C,D,E 118
media 116.2 media 116.2 media 116.2 media 116.2
devstd 4.4 devstd 2.6 devstd 1.7 devstd 1.1
Quando il campionamento è eseguito senza
sostituzione/rimpiazzo da una popolazione
finita, la formula è:
Quando il campionamento è eseguito con sostituzione/rimpiazzo
da una popolazione finita o quando è eseguito da una
popolazione infinita, la formula è:
𝜎 𝑥 =
𝜎
𝑛
𝑁 − 𝑛
𝑁 − 1
𝜎 𝑥 =
𝜎
𝑛
Quando la dimensione del campione è piccola relativamente alla
dimensione della popolazione, c’è una piccola differenza tra il
campionare con o senza sostituzione (n ≤ 0.05 N)
La deviazione standard della media campionaria
Vediamo ora la deviazione standard della variabile 𝑥 e determiniamo che relazione ha con la deviazione standard della variabile in considerazione
Dove n è la dimensione del campione
e N la dimensione della popolazione
Campione
(dim 1)
peso
medio
Campione
(dim 2)
peso
medio
Campione
(dim 3)
peso
medio
Campione
(dim 4)
peso
medio
A 118 A,B 114 A,B,C 115 A,B,C,D 117
B 109 A,C 119 A,B,D 116 A,B,C,E 115
C 119 A,D 119 A,B,E 114 A,B,D,E 116
D 120 A,E 117 A,C,D 119 A,C,D,E 118
E 115 B,C 114 A,C,E 117 B,C,D,E 116
B,D 115 A,D,E 118
B,E 112 B,C,D 116
C,D 120 B,C,E 114
C,E 117 B,D,E 115
D,E 118 C,D,E 118
media 116.2 media 116.2 media 116.2 media 116.2
devstd 4.4 devstd 2.6 devstd 1.7 devstd 1.1
La media e la deviazione standard della media
Abbiamo discusso la distribuzione campionaria della media – cioè la distribuzione di tutte le possibili medie per
campioni di dimensione specificata, o equivalentemente la distibuzione della variabile 𝑥. Utilizziamo questa
distribuzione per trarre delle deduzioni (inferenze) sulla popolazione basate sulla media campionaria.
𝜇 𝑥 = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑖 𝑥
𝜎 𝑥 = 𝑑𝑒𝑣𝑖𝑎𝑧𝑖𝑜𝑛𝑒 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑖 𝑥
Generalmente la distribuzione campionaria della media è sconosciuta. Possiamo comunque spesso approssimare la
distribuzione campionaria con una distribuzione gaussiana, cioè sotto certe condizioni la variabile 𝑥 è
approssimativamente normalmente distribuita.
Una variabile è normalmente distribuita se la sua distribuzione ha la forma di una curva normale e la sua
distribuzione normale è determinata dalla media e dalla deviazione standard.
Determiniamo la media e la std dev della media campionaria.
La deviazione standard della media
Per campioni di dimensione n, la deviazione standard della variabile 𝑥 eguaglia la
deviazione standard della variabile in considerazione diviso per la radice quadrata della
dimensione del campione (n. di misure)
𝜎 𝑥 =
𝜎
𝑛
Abbiamo visto come i valori delle medie si addensano tanto più attorno alla media della popolazione
quanto più la dimensione del campione aumenta.
• Maggiore è la dimensione del campione, minore è la sua deviazione standard
• Più piccola è la deviazione standard di 𝑥, più i possibili valori di 𝑥 (le possibili medie) si raggruppano
attorno al valore medio di 𝑥
• La media di tutti i 𝑥 eguaglia la media della popolazione
Dimensioni del campione ed errore di campionamento.
Maggiori sono le dimensioni del campione e più piccolo tende ad essere l’errore di campionamento nella stima della
media della popolazione, , basata sulla media del campione 𝑥, pertanto
𝜎 𝑥 =
𝜎
𝑛
viene chiamata errore di campionamento della media
In generale la deviazione standard di una statistica utilizzata per la stima di un parametro è chiamata errore standard
della statistica
La distribuzione campionaria della media.
La distribuzione campionaria della media per variabili
normalmente distribuite
Se la variabile in considerazione è normalmente distribuita, lo è anche la
variabile 𝑥 indipendentemente dalla sua dimensione
La distribuzione campionaria della media per variabili
NON normalmente distribuite
Per campioni di dimensione relativamente grande, la variabile 𝑥è distribuita
approssimativamente in modo normale indipendentemente dalla
distribuzione della variabile in considerazione. L’approssimazione alla
normale migliore all’aumentare della dimensione del campione
Un campione di dimensione n ≥ 30 ha una distribuzione normale indipendentemente dalla distribuzione di partenza.
Riassumiamo:
La distribuzione campionaria della media.

𝝁 𝒙 = μ
𝝈 𝒙 =
𝝈
𝒏
;
Se la variabile in considerazione è normalmente distribuita, lo è anche la variabile 𝑥
indipendentemente dalla sua dimensione; se 𝑥 è di dimensione relativamente grande, la essa è
distribuita approssimativamente in modo normale indipendentemente dalla distribuzione della
variabile in considerazione x.
popolazione
campione
campionamento
inferenza
Intervallo di confidenza per la media di una popolazione
Iniziamo ora lo studio della satistica inferenziale esaminando i metodi per stimare la media della popolazione
La statistica utilizzata per stimare la media della poplazione, μ, è la media campionaria 𝒙.
A causa dell’errore di campionamento non possiamo aspettarci che 𝒙 eguagli μ esattamente.
Pertanto è fondamentale ottenere informazioni riguardo all’accuratezza della stima, questo ci porterà alla
discussione su uno dei punti fondamentali della statistica inferenziale: l’intervallo di confidenza.
Un approccio intuitivo all’Intervallo di confidenza
La stima della media della popolazione
Un classico problema in statistica è ottenere informazioni relative alla media, μ, di una popolazione.
Se la popolazione è grande, e/o le nostre misure sono affette da variazioni casuali intrinseche al processo di
misurazione stesso, non è possibile determinare esattamente il valore medio, , della popolazione ma solo
ottenerne informazioni sufficientemente accurate mediante lo studio di un suo campione
In breve, una stima puntuale è
la nostra migliore valutazione
basata sui dati del campione
per il valore del parametro.
Stima Puntuale
La stima puntuale di un parametro è il valore della statistica utilizzata per stimare il parametro stesso.
Un modo per stimare la media della poplazione, μ, senza misurare tutti gli elementi della stessa è la stima
della media campionaria 𝑥,.
Campione
peso
medio Campione
peso
medio Campione
peso
medio Campione
peso
medio Campione
peso
medio
A 118 A,B 114 A,B,C 115 A,B,C,D 117 A,B,C,D,E, 116
B 109 A,C 119 A,B,D 116 A,B,C,E 115
C 119 A,D 119 A,B,E 114 A,B,D,E 116
D 120 A,E 117 A,C,D 119 A,C,D,E 118
E 115 B,C 114 A,C,E 117 B,C,D,E 116
B,D 115 A,D,E 118
B,E 112 B,C,D 116
C,D 120 B,C,E 114
C,E 117 B,D,E 115
D,E 118 C,D,E 118
media 116.2 media 116.2 media 116.2 media 116.2
Tramite i dati del campione B,C
otteniamo che la stima del peso
medio di tutti i giocatori è 114 Kg.
Una stima di questo tipo è
chiamata stima puntuale per μ
poiché essa è un singolo numero
o punto.
Abbiamo visto che la media delle medie dei campioni eguaglia la media della popolazione (𝜇 𝑥 = μ).
In altre parole, in media, la media dei campioni eguaglia la media della popolazione. Per questo motivo la media del
campione è chiamata unbiased estimator della media della popolazione.
In generale, una statistica viene definita unbiased estimator del parametro se la media di tutti i suoi possibili valori
eguaglia il parametro. Quindi, per questo, si hanno buone probabilità che la nostra stima puntuale sia vicina al valore
del parametro.
Stima dell’intervallo di confidenza
La media del campione generalmente non è uguale alla media della popolazione a causa dell’errore di
campionamento. Pertanto è auspicabile accomapagnare qualsiasi stima puntuale di μ con delle informazioni
indicanti l’accuratezza della stima stessa. Questa informazione è chiamata intervallo di confidenza stimato per μ.
Campione
peso
medio Campione
peso
medio Campione
peso
medio Campione
peso
medio Campione
peso
medio
A 118 A,B 114 A,B,C 115 A,B,C,D 117 A,B,C,D,E, 116
B 109 A,C 119 A,B,D 116 A,B,C,E 115
C 119 A,D 119 A,B,E 114 A,B,D,E 116
D 120 A,E 117 A,C,D 119 A,C,D,E 118
E 115 B,C 114 A,C,E 117 B,C,D,E 116
B,D 115 A,D,E 118
B,E 112 B,C,D 116
C,D 120 B,C,E 114
C,E 117 B,D,E 115
D,E 118 C,D,E 118
media 116.2 media 116.2 media 116.2 media 116.2
Introduzione all’intevallo di confidenza ( noto)
Consideriamo nuovamente il problema della stima del peso medio della popolazione, μ, (tutti i
giocatori di rugby partecipanti alla RWC2015) utilizzando i pesi dei 32 giocatori degli all blacks
riportati in tabella. Assumiamo che la deviazione standard della popolazione sia 20 Kg
118 109 119 120
115 113 108 110
111 106 116 137
113 93 122 120
108 108 112 90
98 85 92 94
90 99 108 95
108 90 108 107
Dato che n = 32, σ = 20 si ha:
• 𝜇 𝑥 = μ (che non conosciamo)
• 𝜎 𝑥 =
𝜎
𝑛
=
20
32
= 5,7
• 𝑥 è distribuita normalmente
In altre parole, il campione di dimensione 32, 𝑥, è distribuito normalmente
con media μ e deviazione standard 5,7 kg
Dalla teoria delle probabilità sappiamo che per una variabile normalmente distribuita, il 95.44% di tutte
le possibili osservazioni giacciono all’inteno di 2 deviazioni standard da ciascun “lato” della media.
Di conseguenza il 95.44% di tutti i campioni formati da 32 giocatori hanno un peso medio compreso
tra 2 x 5,7 = 11,4 Kg di μ. Equivalentemente, il 95.44% di tutti i campioni formati da 32 giocatori hanno
la proprietà che l’intervallo da 𝑥 − 11,4 a 𝑥 + 11,4 contiene μ
𝑥 = 107 Kg
Introduzione all’intervallo di confidenza ( noto)
• 𝜇 𝑥 = μ (che non conosciamo)
• 𝜎 𝑥 =
𝜎
𝑛
=
12
32
= 5,7 kg
• 𝑥 è distribuita normalmente
• 𝑥 = 107 Kg
il campione di dimensione 32, 𝑥, è distribuito normalmente con media μ e
deviazione standard 5,7 kg
Dalla teoria delle probabilità sappiamo che per una
variabile normalmente distribuita, il 95.44% di tutte le
possibili osservazioni giacciono all’inteno di 2
deviazioni standard da ciascun “lato” della media.
Di conseguenza il 95.44% di tutti i campioni formati
da 32 giocatori hanno un peso medio compreso tra 2
x 5,7 = 11,4 Kg di μ. Equivalentemente, il 95.44% di
tutti i campioni formati da 32 giocatori hanno la
proprietà che l’intervallo da 𝑥 − 11,4 a 𝑥 + 11,4
contiene μ
Possiamo essere
confidenti al
95.44% che  sia qui
95,6 118.4
𝒙
• 𝜇 𝑥 = μ (che non conosciamo)
• 𝜎𝑥 =
𝜎
𝑛
=
12
32
= 5,7 kg
• 𝑥 è distribuita normalmente
• 𝑥 = 107 Kg
𝑥−2𝜎 𝑥 𝑥+2𝜎 𝑥
Distribuzione di
tutti i giocatori
Distribuzione dei
campioni formati
da 32 giocatori
cisacuno
𝒙
• 𝜇 𝑥 = μ (che non conosciamo)
• 𝜎𝑥 =
𝜎
𝑛
=
12
32
= 5,7 kg
• 𝑥 è distribuita normalmente
• 𝑥 = 107 Kg
Distribuzione di
tutti i giocatori
Distribuzione dei
campioni formati
da 32 giocatori
cisacuno
Dato che stiamo considerando un campione
casuale semplice, ogni possibile campione di
dimensione 32 ha la stessa probabilità di
essere ottenuto.
Si ha come conseguenza che il 95.44% di tutti
i campioni estratti ha la proprietà che
l’intervallo 𝑥 − 2 ÷ 𝑥 + 2 contiene μ
Abbiamo quindi la probabilità del 95,44% che il campione ottenuto
ha questa proprietà. Di conseguenza siamo quindi confidenti al
95,44% che il campione formato da 32 giocatori di rugby ha la
proprietà che l’intervallo l’intervallo 𝑥 − 2 ÷ 𝑥 + 2 contiene μ
Nota: anche se uno o più di uno degli intervalli di confidenza al 95,44% possono contenere o meno il
parametro ricercato, possiamo essere confidenti al 95,44 % che l’intevallo ottenuto lo contiene.
𝒛 =
𝒙 − 𝝁
𝝈
𝑃(−2 ≤ 𝑍 ≤ 2) ≈ 0,95
𝑃(−2 ≤
𝒙 − 𝝁
𝝈
≤ 2) ≈ 0,95
𝑃(−2𝝈 ≤ 𝒙 − 𝝁 ≤ 2𝝈) ≈ 0,95
𝑃(𝒙 − 2𝝈 ≤ 𝝁 ≤ 𝒙 + 2𝝈) ≈ 0,95
𝑠𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥 é normalmente distribuita,
z (variabile standardizzata) è normalmente
distribuita
𝑷(𝝁 − 𝟐𝝈 ≤ 𝒙 ≤ 𝝁 + 𝟐𝝈) ≈ 𝟎, 𝟗𝟓
𝑧 =
𝑥 − 𝜇
𝜎
𝑃(−2 ≤ 𝑍 ≤ 2) ≈ 0,95
𝑃(−2 ≤
𝑥 − 𝜇
𝜎
≤ 2) ≈ 0,95
𝑃(−2𝜎 ≤ 𝑥 − 𝜇 ≤ 2𝜎) ≈ 0,95
𝑃(𝑥 − 2𝜎 ≤ 𝜇 ≤ 𝑥 + 2𝜎) ≈ 0,95
𝑃(−2 ≤
𝑥 − 𝜇
𝜎 𝑛
≤ 2) ≈ 0,95
𝑃(−2 ≤
𝑥 − 𝜇
𝜎 𝑛
≤ 2) ≈ 0,95
𝑃(𝜇 − 2𝜎 ≤ 𝑥 ≤ 𝜇 + 2𝜎) ≈ 0,95
𝑃(−2
𝜎
𝑛
≤ 𝑥 − 𝜇 ≤ 2
𝜎
𝑛
) ≈ 0,95
𝑃(𝜇 − 2
𝜎
𝑛
≤ 𝑥 ≤ 𝜇 + 2
𝜎
𝑛
) ≈ 0,95
𝑃( 𝑥 − 2
𝜎
𝑛
≤ 𝜇 ≤ 𝑥 + 2
𝜎
𝑛
) ≈ 0,95
𝑠𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥 é normalmente distribuita 𝑠𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥 é normalmente distribuita
Intervallo di confidenza per  con  noto
( 𝑥 è una stima puntuale)
𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒
𝑥−𝜇
𝜎 𝑛
é normalmente distribuita
Stima dell’intervallo di confidenza
Intervallo di confidenza: un intervallo di numero ottenuti da una stima puntuale del parametro.
Livello di confidenza: la confidenza che abbiamo del fatto che il parametro giace nell’intervallo di
confidenza (la confidenza che l’intervallo contenga il parametro).
Stima dell’intervallo di confidenza: il livello di confidenza e l’intervallo di confidenza
𝑃( 𝑥 − 2
𝜎
𝑛
≤ 𝜇 ≤ 𝑥 + 2
𝜎
𝑛
) ≈ 0,95
l’intervallo di confidenza è definito in forma generale dai due estremi
𝑥 − 𝑧
𝜎
𝑛
e 𝑥 + 𝑧
𝜎
𝑛
Dove z è definito dal livello di confidenza richiesto
𝑠𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥 é normalmente distribuita,
𝑙𝑎 𝑣𝑒𝑟𝑠𝑖𝑜𝑛𝑒 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑖𝑧𝑧𝑎𝑡𝑎 𝑑𝑖 𝑥 , 𝑧 =
𝑥−𝜇
𝜎 𝑛
, è normalmente distribuita
Intervallo di confidenza per  con  non noto
Se la deviazione standard della popolazione, , è incognita non possiamo basare la nostra stima dell’intervallo di
confidenza sulla versione standardizzata di 𝑥 . È necessario stimare  mediante la deviazione standard del
campione, s, ottenendo
𝑥−𝜇
𝑠 𝑛
= t
Chiamata versione studentizzata di 𝑥 . Questa variabile t NON ha una distribuzione normale ma ha una
distribuzione di Student (t-distribution) con n-1 gradi di libertà
Esiste una distribuzione di Student (t-distribution) diversa per ogni numero di gradi di libertà
𝑥 − 𝑡
𝑠
𝑛
e 𝑥 + 𝑡
𝑠
𝑛
Intervallo di confidenza per  con  non noto
l’intervallo di confidenza è definito in forma generale dai due estremi
Dove t è definito sia dal livello di confidenza richiesto sia dal numero di gradi di libertà
0.05
0.95
0.95
Limite di Legge
Z=-1.645
1.645
Limite di Legge
0.05
t = ?
t

More Related Content

Similar to Statistica e probabilità in chimica: le regole del gioco

Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statisticaVispo Srl
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilitàVispo Srl
 
teoria sulla statistica
teoria sulla statisticateoria sulla statistica
teoria sulla statisticagiammisarti
 
Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1ESmargiassi
 
Metodo dei minimi quadrati
Metodo dei minimi quadratiMetodo dei minimi quadrati
Metodo dei minimi quadratiLuigi Pasini
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarieVispo Srl
 
Gli indici di posizione
Gli indici di posizioneGli indici di posizione
Gli indici di posizioneVispo Srl
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misureDario
 
3 b-statistics statistics
3 b-statistics statistics3 b-statistics statistics
3 b-statistics statisticsRiccardo Rigon
 
8.7 il teorema del limite centrale e la legge dei grandi numeri
8.7   il teorema del limite centrale e la legge dei grandi numeri8.7   il teorema del limite centrale e la legge dei grandi numeri
8.7 il teorema del limite centrale e la legge dei grandi numeriRiccardo Rigon
 
02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenzaAngelo Barbato
 
Indici di mutua variabilità
Indici di mutua variabilitàIndici di mutua variabilità
Indici di mutua variabilitàLucia Schirru
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativagiosiele
 
Le distribuzioni di probabilità
Le distribuzioni di probabilitàLe distribuzioni di probabilità
Le distribuzioni di probabilitàVispo Srl
 

Similar to Statistica e probabilità in chimica: le regole del gioco (20)

Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statistica
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilità
 
Statistica
StatisticaStatistica
Statistica
 
teoria sulla statistica
teoria sulla statisticateoria sulla statistica
teoria sulla statistica
 
Statistica sociale
Statistica socialeStatistica sociale
Statistica sociale
 
Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1
 
Metodo dei minimi quadrati
Metodo dei minimi quadratiMetodo dei minimi quadrati
Metodo dei minimi quadrati
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarie
 
Gli indici di posizione
Gli indici di posizioneGli indici di posizione
Gli indici di posizione
 
Cenni di statistica descrittiva univariata
Cenni di statistica descrittiva univariataCenni di statistica descrittiva univariata
Cenni di statistica descrittiva univariata
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misure
 
3 b-statistics statistics
3 b-statistics statistics3 b-statistics statistics
3 b-statistics statistics
 
3 c-form andshape
3 c-form andshape3 c-form andshape
3 c-form andshape
 
8.7 il teorema del limite centrale e la legge dei grandi numeri
8.7   il teorema del limite centrale e la legge dei grandi numeri8.7   il teorema del limite centrale e la legge dei grandi numeri
8.7 il teorema del limite centrale e la legge dei grandi numeri
 
Lastatistica
LastatisticaLastatistica
Lastatistica
 
02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza
 
Indici di mutua variabilità
Indici di mutua variabilitàIndici di mutua variabilità
Indici di mutua variabilità
 
Il modello Logistico
Il modello LogisticoIl modello Logistico
Il modello Logistico
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativa
 
Le distribuzioni di probabilità
Le distribuzioni di probabilitàLe distribuzioni di probabilità
Le distribuzioni di probabilità
 

More from Riccardo Narizzano

Introduzione alla chimica forense: mito e realtà
Introduzione alla chimica forense: mito e realtàIntroduzione alla chimica forense: mito e realtà
Introduzione alla chimica forense: mito e realtàRiccardo Narizzano
 
Controllo dell’incertezza dichiarata mediante l’utilizzo di pt
Controllo dell’incertezza dichiarata mediante l’utilizzo di ptControllo dell’incertezza dichiarata mediante l’utilizzo di pt
Controllo dell’incertezza dichiarata mediante l’utilizzo di ptRiccardo Narizzano
 
LdR e LdQ dei metodi analitici
LdR e LdQ dei metodi analiticiLdR e LdQ dei metodi analitici
LdR e LdQ dei metodi analiticiRiccardo Narizzano
 
Introduzione ai differenti approcci alla stima dell'incertezza di misura Nari...
Introduzione ai differenti approcci alla stima dell'incertezza di misura Nari...Introduzione ai differenti approcci alla stima dell'incertezza di misura Nari...
Introduzione ai differenti approcci alla stima dell'incertezza di misura Nari...Riccardo Narizzano
 
L'impatto sull'ambiente delle nostre abitudini quotidiane: gli Inquinanti Eme...
L'impatto sull'ambiente delle nostre abitudini quotidiane: gli Inquinanti Eme...L'impatto sull'ambiente delle nostre abitudini quotidiane: gli Inquinanti Eme...
L'impatto sull'ambiente delle nostre abitudini quotidiane: gli Inquinanti Eme...Riccardo Narizzano
 

More from Riccardo Narizzano (7)

Introduzione alla chimica forense: mito e realtà
Introduzione alla chimica forense: mito e realtàIntroduzione alla chimica forense: mito e realtà
Introduzione alla chimica forense: mito e realtà
 
Spettroscopia UV-vis
Spettroscopia UV-visSpettroscopia UV-vis
Spettroscopia UV-vis
 
Principi di spettroscopia
Principi di spettroscopiaPrincipi di spettroscopia
Principi di spettroscopia
 
Controllo dell’incertezza dichiarata mediante l’utilizzo di pt
Controllo dell’incertezza dichiarata mediante l’utilizzo di ptControllo dell’incertezza dichiarata mediante l’utilizzo di pt
Controllo dell’incertezza dichiarata mediante l’utilizzo di pt
 
LdR e LdQ dei metodi analitici
LdR e LdQ dei metodi analiticiLdR e LdQ dei metodi analitici
LdR e LdQ dei metodi analitici
 
Introduzione ai differenti approcci alla stima dell'incertezza di misura Nari...
Introduzione ai differenti approcci alla stima dell'incertezza di misura Nari...Introduzione ai differenti approcci alla stima dell'incertezza di misura Nari...
Introduzione ai differenti approcci alla stima dell'incertezza di misura Nari...
 
L'impatto sull'ambiente delle nostre abitudini quotidiane: gli Inquinanti Eme...
L'impatto sull'ambiente delle nostre abitudini quotidiane: gli Inquinanti Eme...L'impatto sull'ambiente delle nostre abitudini quotidiane: gli Inquinanti Eme...
L'impatto sull'ambiente delle nostre abitudini quotidiane: gli Inquinanti Eme...
 

Statistica e probabilità in chimica: le regole del gioco

  • 1. Statistica e probabilità in chimica: le regole del gioco Ordine Interprovinciale dei Chimici della Liguria, 1 dicembre 2017
  • 2. Il contenuto della presentazione può non riflettere necessariamente la posizione ufficiale di ARPAL
  • 3.
  • 4. Valor medio = 508 Deviazione standard = 291 238 1000 219 663 560 928 737 31 305 373 321 483 479 39 762 40 778 645 398 480 424 977 146 766 975 465 277 174 380 47 606 262 243 795 928 400 834 788 856 539 517 873 52 419 444 267 753 367 247 971 853 818 146 191 662 332 816 507 158 861 337 79 436 613 561 80 175 806 26 363 969 129 931 834 113 249 458 893 374 766 849 31 365 795 162 975 197 317 768 252 935 197 781 617 845 548 645 794 572 448 595 84 289 82 497 705 859 928 96 695 702 637 107 630 67 58 117 404 87 866 534 361 924 824 603 292 41 616 67 835 510 467 585 373 591 25 528 119 604 520 651 855 39 619 301 329 904 483 170 587 924 562 242 202 372 192 355 875 816 728 848 286 296 241 543 190 21 103 517 730 339 91 11 785 550 884 709 516 711 870 13 931 329 660 460 383 578 802 15 28 977 220 907 825 852 723 806 790 718 710 612 987 997 557 524 691 626 848 346 466 763 434 160 250 877 609 Range = 989 L’introduzione delle statistiche permette una compattazione delle informazioni passando dagli n valori numerici x1, x2,…,xn a pochissimi valori numerici
  • 5. Statistica: la scienza che si occupa dell’organizzazione e della sintesi di informazioni numeriche o non numeriche. La statistica permette anche di analizzare dati con il fine di poter effettuare generalizzazioni e decisioni su un determinato soggetto. Si ha cioè la statistica descrittiva e la statistica inferenziale. Statistiche: fatti o dati, sia numerici sia non numerici, organizzati e sintetizzati in modo tale da fornire informazioni accessibili e utili su un particolare soggetto. La statistica descrittiva consiste nell’utilizzo di metodi che consentono l’organizzazione e la sintesi delle informazioni. La statistica inferenziale, invece, comprende i metodi che consentono di trarre conclusioni su una popolazione e di misurarne l’affidabilità basate su informazioni ottenute da un campione della popolazione stessa. Popolazione: l’insieme di tutti gli oggetti presi in considerazione in uno studio statistico. Campione: parte della popolazione da cui è ottenuta l’informazione. Una statistica è una quantità numerica il cui valore è determinato dai dati.
  • 6. F = fenomeno di interesse P = popolazione (insieme delle rappresentazioni delle possibili manifestazioni del fenomeno) R = Insieme caratteristico (raccolta di tutti gli indici caratteristici di compattazione dei dati) gi = gruppo di operazioni logiche o algebriche di qualunque natura che consentano la compattazione dell’informazione Statistica Descrittiva
  • 7. Misure di tendenza centrale Misure o statistiche che indicano dove risiede il centro e/o il valore più tipico di un insieme di dati sono chiamati misure di tendenza centrale o più semplicemente misure del centro. Le tre più importanti misure di tendenza centrale sono la media, la mediana, la moda. La media aritmetica la statistica più comunemente utilizzata per la misura del centro è la media aritmetica comunemente chiamata media. La media di un insieme di dati è semplicemente la somma dei valori misurati diviso per il numero delle misure 𝑥 = 𝑖=1 𝑛 𝑥𝑖 𝑛 Se il campione su cui si effettuano le misure è rappresentativo della popolazione di interesse, la media del campione ( 𝑥) è la migliore stima della media della popolazione (µ). Questo concetto verrà approfondito nel lavoro riguardante la statistica inferenziale. n è la dimensione del campione o il numero di osservazioni
  • 8. Mediana La mediana è un ulteriore statistica utilizzata per la misura del centro. Essenzialmente la mediana è quel numero quasi sempre appartenente all’insieme di dati e che li divide in due metà numericamente uguali. Il valore mediano è l'unità che occupa la posizione centrale nella distribuzione ordinata dei valori. Dato un insieme di N valori posti in ordine crescente o decrescente la mediana è quel valore che divide l'insieme in due parti lasciando la metà degli elementi da un lato e l'altra metà dall'altro lato. Se N è dispari la mediana è l’elemento di posizione: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑁 2 + 1 Se N è pari la mediana è la semisomma o media dei due valori centrali: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑁 2 + 𝑁 2 + 1 2
  • 9. Moda La moda è l’elemento dell’insieme di dati che compare un maggior numero di volte (maggiore frequenza) La media è maggiormente influenzata dai dati agli estremi di una distribuzione rispetto alla mediana, pertanto nelle misure ottenute sperimentalmente è sempre bene valutare la presenza o meno di “outliers”. La mediana invece è una misura di tendenza centrale resistente in quanto non influenzabile da poche osservazioni estreme.
  • 10. Misure di variazione Per comprendere in maniera più dettagliata le caratteristiche di un insieme di dati, oltre alle statistiche di tendenza centrale è necessario acquisire ulteriori informazioni. Due o più insieme di numeri possono possedere una stessa misura descrittiva del centro (media, moda, mediana) ma essere insiemi profondamente differenti sotto altri punti di vista. Una fondamentale informazione che dobbiamo poter estrarre da un insieme di dati è la loro variazione o dispersione. Le statistiche descrittive che ci consentono di fare questo si chiamano misure di variazione o misure di dispersione. Il range. Una statistica che ci consente di valutare la dispersione dei dati del nostro campione è il Range, esso esprime la differenza tra il valore più alto e il valore più basso degli elementi del nostro campione.
  • 11. Varianza La varianza è la media delle deviazioni quadratiche dei singoli valori rispetto ad un valore medio. Se il valore medio in questione è la media µ della popolazione si parla di varianza della popolazione 𝜎2, se il valore medio è invece del campione ( 𝑥) si parla di varianza del campione s2. Varianza della popolazione Varianza del campione   n xx n i i   1 2 2    1 1 2 2     n xx s n i i
  • 12. La deviazione standard La deviazione standard tiene in considerazione tutte le osservazioni effettuate. E’ la misura di variazione preferita quando per la misura della tendenza centrale viene utilizzata la media. Deviazione standard della popolazione Deviazione standard del campione   n x n i i   1 2     1 1 2     n xx s n i i
  • 13. Sostanzialmente sia la varianza sia la deviazione standard misurano una variazione, indicando quanto i dati, sono distanti (deviati) in media dal valore medio. Per ottenere questo è necessario che le distanze (scarti) dal valore vero siano elevate al quadrato, altrimenti la media delle semplici deviazioni risulterebbe nulla. Maggiore è la varianza o la deviazione standard, maggiore è la dispersione dei dati misurati. Supponiamo di misurare la concentrazione di pirene in 5 aliquote dello stesso campione di terreno trovando i seguenti valori: 72 mg/kg; 73 mg/kg; 76 mg/kg; 76 mg/kg e 78 mg/kg. 𝑥 = 𝑖=1 𝑛 𝑥𝑖 𝑛 = 72 + 73 + 76 + 76 + +78 5 = 75 𝑚 𝑔 𝑘 𝑔La media dei valori è: Concentrazione Deviazione dalla media (scarto) Deviazione quadratica dalla media 72 -3 9 73 -2 4 76 1 1 76 1 1 78 3 9 Somma 0 24 xxi   2 xxi    1 1 2 2     n xx s n i i   1 1 2     n xx s n i i
  • 14. Probabilità Se un esperimento ha N possibili risultati tutti egualmente possibili, allora un evento che si manifesta in f modi ha la probabilità f/N di manifestarsi: Probablità di un evento = 𝑓 𝑁 Evento = specifico risultato che può o non può verificarsi in seguito ad un esperimento f = numero di modi in cui un evento può verificarsi (sottoinsieme di tutte le possibilità) N = numero totale di possibili risultati. I risultati devono essere tutti ugualmente possibili In queste condizioni le probabilità sono essenzialmente delle percentuali (frequenze relative) Definizione classica se abbiamo un mazzo da quaranta carte abbiamo una probabilità di 1/10 (4/40) di estrarre un re (variabile casuale). i possibili modi in cui l’evento (re) può manifestarsi sono re di cuori, di picche, fiori e denari. Il numero totale dei possibili risultati è il numero di tutte le carte (40) ed ogni carta ha la stessa probabilità di essere estratta.
  • 15. Definizione frequentista La probabilità di un evento ripetibile A è data dal rapporto fra nA, il numero di volte in cui A si è verificato, ed n, il numero delle prove, quando il numero delle prove tende ad infinito supposto che tutte le prove siano effettuate nelle stesse condizioni. 𝑃 𝐴 = lim 𝑛→∞ 𝑛 𝐴 𝑛 La probabilità, secondo questa definizione, può essere quindi intesa come una sorta di idealizzazione della frequenza relativa introdotta nel contesto della statistica descrittiva. Taluni autori ritengono, infatti, che probabilità e frequenza relativa non siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed interpretano la frequenza relativa di un evento come misura approssimata (per n finito) della probabilità.
  • 16. 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 = 72+73+73+73+76+76+78 7 = 72 7 + 73+73+73 7 + 76+76 7 + 78 7 = 1 7 72 + 3 7 73 + 2 7 76 + 1 7 78 Probablità di un evento (P) = 𝑓 𝑁 𝑥 = 𝑖=1 𝑛 𝑥𝑖 𝑛 = 𝑖=1 𝑛 𝑓𝑖 𝑛 𝑥𝑖 = 𝑖=1 𝑛 𝑃𝑖 𝑥𝑖
  • 17. Gaussiana Una funzione (curva) di densità rappresenta la distribuzione di una variabile continua La percentuale di tutte le possibili osservazioni della variabile di interesse che giacciono all’interno di uno specifico range equivale alla corrispondente area sotto la curva di densità, espressa come percentuale
  • 18. Sappiamo dall’evidenza sperimentale che i dati prodotti dalla ripetizione di misurazioni chimiche si dispongono in maniera simmetrica intorno ad un valore centrale secondo quel modello statistico chiamato distribuzione gaussiana o normale. Se il modello matematico è specificato in tutte le sue parti, forma funzionale nota (di tipo gaussiano) con il valore dei parametri caratteristici noti (valore centrale  e ampiezza della distribuzione ), allora la distribuzione dei valori della nostra quantità di interesse è completamente determinata. x [c]  -3 -2 - +3+2+ 68.26% 95,44% 99,74%
  • 19.
  • 20. 𝒛 = 𝒙 − 𝝁 𝝈 Distribuzione Normale Standard variabile standardizzata normalmente distribuita
  • 21. Area sottesa alla curva (probabilità) Z score Area azzurra: Area a sinistra di z Area azzurra: 1-(Area a sinistra di z) Area azzurra: (Area a sinistra di z2)-(Area a sinistra di z1)
  • 23. 0.05 0.95 0.05 0.95 Limite di Legge Z=-1.645 Risultato conforme Risultato NON conforme Z=-1.645
  • 24. Campioni casuali si deve sottolineare che la statistica (inferenziale/induttiva) tratta in modo quasi esclusivo dei campioni casuali (campioni probabilistici), cioè, dei sottoinsiemi (campioni) della Popolazione cui si perviene attraverso l’applicazione di un qualche meccanismo di selezione avente natura probabilistica. Non costituisce, quindi, parte integrante della statistica induttiva l’analisi dei campioni non probabilistici; rientrano in quest’ultima categoria i cosiddetti campioni ragionati e quelli per i quali non è noto il meccanismo generatore. In questa sede si tratterà esclusivamente del campionamento casuale semplice; cioè, dei campioni cui si perviene procedendo all’estrazione (con o senza ripetizione) di n (dimensione del campione) elementi che hanno la stessa probabilità di essere inclusi nel campione.
  • 25. Campioni casuali E’ campionamento ragionato quello che individua le unità campionarie, cioè le unità statistiche portatrici delle informazioni (manifestazioni del fenomeno d’interesse), attraverso l’applicazione di procedure basate sull’impiego ragionato dell’informazione disponibile al momento in cui si procede all’individuazione delle unità che andranno a costituire il campione. In proposito si deve, comunque, sottolineare che le informazioni disponibili costituiscono spesso la base di schemi di campionamento probabilistico più o meno complessi (campionamento stratificato, campionamento a grappolo, campionamento a più stadi, campionamento stratificato a più stadi, ecc.), ma in tali circostanze le informazioni disponibili vengono utilizzate solo per incrementare l’efficienza del campione, cioè l’efficienza del processo di induzione dal campione alla popolazione, e non per individuare le singole unità che andranno a costituire il campione.
  • 26. Nell’ambito del campionamento semplice si ipotizzerà sempre l’esistenza di un modello probabilistico capace di rappresentare adeguatamente il fenomeno che interessa analizzare. In altre parole, si assumerà che la popolazione P sia rappresentata da una variabile casuale semplice o multipla con una propria funzione di distribuzione non completamente nota. in questo contesto le variabili casuali associate a ciascuna unità campionaria risultano indipendenti e identicamente distribuite (i.i.d.). Definizione 1 Se X1, X2,...,Xn costituiscono un insieme di variabili casuali indipendenti e identicamente distribuite (i.i.d.), la loro funzione di massa o di densità di probabilità congiunta soddisfa l'uguaglianza 𝑓 𝑥1, 𝑥1 … 𝑥 𝑛; 𝜃1, 𝜃1, … 𝜃 𝑛 = 𝑓 𝑥; 𝜃 = = 𝑓 𝑥1; 𝜃 × 𝑓 𝑥2; 𝜃 × ⋯ 𝑓 𝑥𝑖; 𝜃 × ⋯ 𝑓 𝑥 𝑛; 𝜃 = 𝑖=1 𝑛 𝑓 𝑥𝑖; 𝜃 allora si dice che l’insieme di variabili casuali i.i.d. X1, X2,...,Xn = costituisce un campione casuale semplice di n osservazioni indipendenti relativo alla variabile casuale X che ha funzione di massa o di densità di probabilità equivalente a quella (comune) di ciascuna componente Xi del campione. Avendo supposto l'indipendenza tra le osservazioni campionarie, si avrà, come sottolineato, l'uguaglianza (equivalenza) tra la distribuzione della variabile casuale X relativa alla popolazione e la variabile Xi (tale deve essere intesa a priori, cioè prima dell'effettiva estrazione del campione) relativa all'i-esimo elemento campionario (per i = 1, 2 ...,n). campionamento casuale semplice: campioni cui si perviene procedendo all’estrazione di n elementi che hanno la stessa probabilità di essere inclusi nel campione. Nella formula sopra riportata con 𝑓 𝑥𝑖; 𝜃 , per i = 1, 2,..,n, si è indicata la funzione di massa, o di densità di probabilità, dell'i-esimo elemento costituente il campione.
  • 27. La distribuzione campionaria della media Prerequisiti: campionamento, statistica descrittiva, probabilità e distribuzione normale. Uniamo ora i diversi argomenti per arrivare alla statistica inferenziale Errore di campionamento e distribuzione campionaria: Introdurremo i concetti di errore di campionamento e di distribuzione campionaria. Verrà descritto il ruolo essenziale che questi concetti hanno negli studi inferenziali. La distribuzione campionaria di una statistica ( 𝑥 , s) è la distribuzione di tutte le possibili osservazioni delle statistiche per campioni di data dimensione estratti da una popolazione. Parametro e Statistica Parametro: una misura descittiva per una popolazione ,  Statistica: una misura descrittiva per un campione 𝑥 , s. E’una quantità numerica il cui valore è determinato dai dati
  • 28. La distribuzione campionaria della media Nelle discussioni relative a La media e la deviazione standard della media e La distribuzione campionaria della media verrà fornita la teoria necessaria per l’applicazione della distribuzione campionaria della media. In particolare presenteremo le formule per la media e la deviazione standard della media campionaria. illustreremo come, sotto certe condizioni generali, la distribuzione campionaria della media è una distribuzione normale o almeno la approssima. Applicheremo questi concetti per illustrare procedure importanti della statistica inferenziale: utilizzare la media , 𝑥, di un campione estratto da una popolazione per trarre conclusion sulla media, μ, dell’intera popolazione. Ci concentreremo ora sulla distribuzione campionaria della media .
  • 29. L’errore di campionamento e la distribuzione campionaria L’utilizzo di un campione al fine di acquisire informazioni sulla intera popolazione è spesso preferibile (se non indispensabile) al condurre un censimento. Comunque, dato che un campione fornisce dati solo relativamente ad una porzione dell’intera popolazione, non possiamo aspettarci che il campione produca informazioni perfettamente accurate sulla popolazione. Pertanto dobbiamo anticipare che una certa quantità di errore – chiamato errore di campionamento – risulterà semplicemente dal fatto che noi stiamo campionando. La distribuzione campionaria della media DEFINIZIONE Errore di campionamento L’errore di campionamento è l’errore che si ha nell’utilizzare un campione per stimare una caratteristica della popolazione.
  • 30. Esempio: distribuzione campionaria della media Peso dei primi cinque uomini di mischia degli All Blacks. Supponiamo che la popolazione di interesse consista dei primi cinque uomini di mischia degli All Blacks che hanno disputato la finale del campionato del mondo nel 2015. supponiamo inoltre che la variabile di interesse sia il loro peso in Kg. giocatore Joseph Moody (A) Dane Coles (B) Owen Franks (C) Brodie Retallick (D) Samuel Whitelock (E) Altezza, peso 1.88m, 118kg 1.84m, 109kg 1.83m, 119kg 2.04m, 120kg 2.02m, 115kg
  • 31. Campione (dim 1) peso medio Campione (dim 2) peso medio Campione (dim 3) peso medio Campione (dim 4) peso medio popolazione peso medio A 118 A,B 114 A,B,C 115 A,B,C,D 117 A,B,C,D,E, 116.2 B 109 A,C 119 A,B,D 116 A,B,C,E 115 C 119 A,D 119 A,B,E 114 A,B,D,E 116 D 120 A,E 117 A,C,D 119 A,C,D,E 118 E 115 B,C 114 A,C,E 117 B,C,D,E 116 B,D 115 A,D,E 118 B,E 112 B,C,D 116 C,D 120 B,C,E 114 C,E 117 B,D,E 115 D,E 118 C,D,E 118 calcoliamo il peso medio della popolazione e dei relativi campioni giocatore (A) (B) (C) (D) (E) peso 118kg 109kg 119kg 120kg 115kg 𝜇 = 𝑥 𝑖 𝑁 = 118+109+119+120+115 6 = 116.2 𝑥 = 1 𝑥 = 2 𝑥 = 3 𝑥 = 4 𝑥 = 5  108 109 110 111 112 113 114 115 116 117 118 119 120 121
  • 32. Dimensioni del campione e Errore di Campionamento  dimensioni campione N. possibili campioni N. entro 1Kg di  % entro 1Kg di  N. entro 0.5Kg di  % entro 0.5Kg di  1 5 1 20 0 0 2 10 3 30 0 0 3 10 5 50 2 20 4 5 4 80 2 40 5 1 1 100 1 100 Le possibili medie dei campioni si ragguppano tanto più vicino al valore medio della popolazione quanto più la dimensione dei campioni aumenta. In pratica le popolazioni con cui ci troviamo a lavorare sono di grandi dimensioni e i dati relativi ad essa sono sconosciuti… Fortunatamente possiamo utilizzare delle relazioni matematiche per approssimare la distribuzione campionaria della media Dimensioni del campione ed errore di campionamento. Maggiori sono le dimensioni del campione e più piccolo tende ad essere l’errore di campionamento nella stima della media della popolazione, , basata sulla media del campione 𝑥
  • 33. La distribuzione campionaria della media è la distribuzione di tutte le possibili medie di campioni di dimensione fissata La distribuzione di una statistica di un campione (cioè tutte le possibili osservazioni della statistica per un campione di dimensioni date) è chiamata distribuzione campionaria della statistica. Prendiamo in considerazione la distribuzione campionaria della media, cioè della statistica 𝑥. In statisica sono sinonimi: • distribuzione campionaria della media • distribuzione della variabile 𝑥 • distribuzione di tutte le possibili medie di campioni di dimensione fissata Una statistica è una quantità numerica il cui valore è determinato dai dati Definizione distribuzione campionaria della media Per una variabile x e un campione di dimensione data, la distribuzione della variabile 𝑥 è chiamata distribuzione campionaria della media x= [IPA]; dimensione campione = 3 repliche indipendenti di 10 gr; 𝑥 = [IPA] media di 3 repliche indipendenti di 10 gr
  • 34. Campione (dim 1) peso medio Campione (dim 2) peso medio Campione (dim 3) peso medio Campione (dim 4) peso medio popolazione peso medio A 118 A,B 114 A,B,C 115 A,B,C,D 117 A,B,C,D,E, 116.2 B 109 A,C 119 A,B,D 116 A,B,C,E 115 C 119 A,D 119 A,B,E 114 A,B,D,E 116 D 120 A,E 117 A,C,D 119 A,C,D,E 118 E 115 B,C 114 A,C,E 117 B,C,D,E 116 B,D 115 A,D,E 118 B,E 112 B,C,D 116 C,D 120 B,C,E 114 C,E 117 B,D,E 115 D,E 118 C,D,E 118 media 116.2 media 116.2 media 116.2 media 116.2 La media delle medie dei campioni C’è una semplice relazione tra la media della variabile 𝑥 e la media della variabile in studio : esse sono uguali 𝜇 𝑥 = μ Per campioni di qualsiasi dimensione, la media di tutte le possibili medie eguaglia la media della popolazione. Questa eguaglianza è verificata indipendentemente dalla dimensione del campione. La media e la deviazione standard della media
  • 35. Per campioni di dimensione n, la media della variabile 𝑥 eguaglia la media della variabile in considerazione. 𝜇 𝑥 = μ La deviazione standard della media campionaria  Campione (dim 1) peso medio Campione (dim 2) peso medio Campione (dim 3) peso medio Campione (dim 4) peso medio A 118 A,B 114 A,B,C 115 A,B,C,D 117 B 109 A,C 119 A,B,D 116 A,B,C,E 115 C 119 A,D 119 A,B,E 114 A,B,D,E 116 D 120 A,E 117 A,C,D 119 A,C,D,E 118 E 115 B,C 114 A,C,E 117 B,C,D,E 116 B,D 115 A,D,E 118 B,E 112 B,C,D 116 C,D 120 B,C,E 114 C,E 117 B,D,E 115 D,E 118 C,D,E 118 media 116.2 media 116.2 media 116.2 media 116.2 devstd 4.4 devstd 2.6 devstd 1.7 devstd 1.1
  • 36. Quando il campionamento è eseguito senza sostituzione/rimpiazzo da una popolazione finita, la formula è: Quando il campionamento è eseguito con sostituzione/rimpiazzo da una popolazione finita o quando è eseguito da una popolazione infinita, la formula è: 𝜎 𝑥 = 𝜎 𝑛 𝑁 − 𝑛 𝑁 − 1 𝜎 𝑥 = 𝜎 𝑛 Quando la dimensione del campione è piccola relativamente alla dimensione della popolazione, c’è una piccola differenza tra il campionare con o senza sostituzione (n ≤ 0.05 N) La deviazione standard della media campionaria Vediamo ora la deviazione standard della variabile 𝑥 e determiniamo che relazione ha con la deviazione standard della variabile in considerazione Dove n è la dimensione del campione e N la dimensione della popolazione Campione (dim 1) peso medio Campione (dim 2) peso medio Campione (dim 3) peso medio Campione (dim 4) peso medio A 118 A,B 114 A,B,C 115 A,B,C,D 117 B 109 A,C 119 A,B,D 116 A,B,C,E 115 C 119 A,D 119 A,B,E 114 A,B,D,E 116 D 120 A,E 117 A,C,D 119 A,C,D,E 118 E 115 B,C 114 A,C,E 117 B,C,D,E 116 B,D 115 A,D,E 118 B,E 112 B,C,D 116 C,D 120 B,C,E 114 C,E 117 B,D,E 115 D,E 118 C,D,E 118 media 116.2 media 116.2 media 116.2 media 116.2 devstd 4.4 devstd 2.6 devstd 1.7 devstd 1.1
  • 37. La media e la deviazione standard della media Abbiamo discusso la distribuzione campionaria della media – cioè la distribuzione di tutte le possibili medie per campioni di dimensione specificata, o equivalentemente la distibuzione della variabile 𝑥. Utilizziamo questa distribuzione per trarre delle deduzioni (inferenze) sulla popolazione basate sulla media campionaria. 𝜇 𝑥 = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑖 𝑥 𝜎 𝑥 = 𝑑𝑒𝑣𝑖𝑎𝑧𝑖𝑜𝑛𝑒 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑖 𝑥 Generalmente la distribuzione campionaria della media è sconosciuta. Possiamo comunque spesso approssimare la distribuzione campionaria con una distribuzione gaussiana, cioè sotto certe condizioni la variabile 𝑥 è approssimativamente normalmente distribuita. Una variabile è normalmente distribuita se la sua distribuzione ha la forma di una curva normale e la sua distribuzione normale è determinata dalla media e dalla deviazione standard. Determiniamo la media e la std dev della media campionaria.
  • 38. La deviazione standard della media Per campioni di dimensione n, la deviazione standard della variabile 𝑥 eguaglia la deviazione standard della variabile in considerazione diviso per la radice quadrata della dimensione del campione (n. di misure) 𝜎 𝑥 = 𝜎 𝑛 Abbiamo visto come i valori delle medie si addensano tanto più attorno alla media della popolazione quanto più la dimensione del campione aumenta. • Maggiore è la dimensione del campione, minore è la sua deviazione standard • Più piccola è la deviazione standard di 𝑥, più i possibili valori di 𝑥 (le possibili medie) si raggruppano attorno al valore medio di 𝑥 • La media di tutti i 𝑥 eguaglia la media della popolazione Dimensioni del campione ed errore di campionamento. Maggiori sono le dimensioni del campione e più piccolo tende ad essere l’errore di campionamento nella stima della media della popolazione, , basata sulla media del campione 𝑥, pertanto 𝜎 𝑥 = 𝜎 𝑛 viene chiamata errore di campionamento della media In generale la deviazione standard di una statistica utilizzata per la stima di un parametro è chiamata errore standard della statistica
  • 39. La distribuzione campionaria della media. La distribuzione campionaria della media per variabili normalmente distribuite Se la variabile in considerazione è normalmente distribuita, lo è anche la variabile 𝑥 indipendentemente dalla sua dimensione La distribuzione campionaria della media per variabili NON normalmente distribuite Per campioni di dimensione relativamente grande, la variabile 𝑥è distribuita approssimativamente in modo normale indipendentemente dalla distribuzione della variabile in considerazione. L’approssimazione alla normale migliore all’aumentare della dimensione del campione Un campione di dimensione n ≥ 30 ha una distribuzione normale indipendentemente dalla distribuzione di partenza.
  • 40. Riassumiamo: La distribuzione campionaria della media.  𝝁 𝒙 = μ 𝝈 𝒙 = 𝝈 𝒏 ; Se la variabile in considerazione è normalmente distribuita, lo è anche la variabile 𝑥 indipendentemente dalla sua dimensione; se 𝑥 è di dimensione relativamente grande, la essa è distribuita approssimativamente in modo normale indipendentemente dalla distribuzione della variabile in considerazione x.
  • 42. Intervallo di confidenza per la media di una popolazione Iniziamo ora lo studio della satistica inferenziale esaminando i metodi per stimare la media della popolazione La statistica utilizzata per stimare la media della poplazione, μ, è la media campionaria 𝒙. A causa dell’errore di campionamento non possiamo aspettarci che 𝒙 eguagli μ esattamente. Pertanto è fondamentale ottenere informazioni riguardo all’accuratezza della stima, questo ci porterà alla discussione su uno dei punti fondamentali della statistica inferenziale: l’intervallo di confidenza. Un approccio intuitivo all’Intervallo di confidenza
  • 43. La stima della media della popolazione Un classico problema in statistica è ottenere informazioni relative alla media, μ, di una popolazione. Se la popolazione è grande, e/o le nostre misure sono affette da variazioni casuali intrinseche al processo di misurazione stesso, non è possibile determinare esattamente il valore medio, , della popolazione ma solo ottenerne informazioni sufficientemente accurate mediante lo studio di un suo campione In breve, una stima puntuale è la nostra migliore valutazione basata sui dati del campione per il valore del parametro. Stima Puntuale La stima puntuale di un parametro è il valore della statistica utilizzata per stimare il parametro stesso. Un modo per stimare la media della poplazione, μ, senza misurare tutti gli elementi della stessa è la stima della media campionaria 𝑥,. Campione peso medio Campione peso medio Campione peso medio Campione peso medio Campione peso medio A 118 A,B 114 A,B,C 115 A,B,C,D 117 A,B,C,D,E, 116 B 109 A,C 119 A,B,D 116 A,B,C,E 115 C 119 A,D 119 A,B,E 114 A,B,D,E 116 D 120 A,E 117 A,C,D 119 A,C,D,E 118 E 115 B,C 114 A,C,E 117 B,C,D,E 116 B,D 115 A,D,E 118 B,E 112 B,C,D 116 C,D 120 B,C,E 114 C,E 117 B,D,E 115 D,E 118 C,D,E 118 media 116.2 media 116.2 media 116.2 media 116.2 Tramite i dati del campione B,C otteniamo che la stima del peso medio di tutti i giocatori è 114 Kg. Una stima di questo tipo è chiamata stima puntuale per μ poiché essa è un singolo numero o punto.
  • 44. Abbiamo visto che la media delle medie dei campioni eguaglia la media della popolazione (𝜇 𝑥 = μ). In altre parole, in media, la media dei campioni eguaglia la media della popolazione. Per questo motivo la media del campione è chiamata unbiased estimator della media della popolazione. In generale, una statistica viene definita unbiased estimator del parametro se la media di tutti i suoi possibili valori eguaglia il parametro. Quindi, per questo, si hanno buone probabilità che la nostra stima puntuale sia vicina al valore del parametro. Stima dell’intervallo di confidenza La media del campione generalmente non è uguale alla media della popolazione a causa dell’errore di campionamento. Pertanto è auspicabile accomapagnare qualsiasi stima puntuale di μ con delle informazioni indicanti l’accuratezza della stima stessa. Questa informazione è chiamata intervallo di confidenza stimato per μ. Campione peso medio Campione peso medio Campione peso medio Campione peso medio Campione peso medio A 118 A,B 114 A,B,C 115 A,B,C,D 117 A,B,C,D,E, 116 B 109 A,C 119 A,B,D 116 A,B,C,E 115 C 119 A,D 119 A,B,E 114 A,B,D,E 116 D 120 A,E 117 A,C,D 119 A,C,D,E 118 E 115 B,C 114 A,C,E 117 B,C,D,E 116 B,D 115 A,D,E 118 B,E 112 B,C,D 116 C,D 120 B,C,E 114 C,E 117 B,D,E 115 D,E 118 C,D,E 118 media 116.2 media 116.2 media 116.2 media 116.2
  • 45. Introduzione all’intevallo di confidenza ( noto) Consideriamo nuovamente il problema della stima del peso medio della popolazione, μ, (tutti i giocatori di rugby partecipanti alla RWC2015) utilizzando i pesi dei 32 giocatori degli all blacks riportati in tabella. Assumiamo che la deviazione standard della popolazione sia 20 Kg 118 109 119 120 115 113 108 110 111 106 116 137 113 93 122 120 108 108 112 90 98 85 92 94 90 99 108 95 108 90 108 107 Dato che n = 32, σ = 20 si ha: • 𝜇 𝑥 = μ (che non conosciamo) • 𝜎 𝑥 = 𝜎 𝑛 = 20 32 = 5,7 • 𝑥 è distribuita normalmente In altre parole, il campione di dimensione 32, 𝑥, è distribuito normalmente con media μ e deviazione standard 5,7 kg Dalla teoria delle probabilità sappiamo che per una variabile normalmente distribuita, il 95.44% di tutte le possibili osservazioni giacciono all’inteno di 2 deviazioni standard da ciascun “lato” della media. Di conseguenza il 95.44% di tutti i campioni formati da 32 giocatori hanno un peso medio compreso tra 2 x 5,7 = 11,4 Kg di μ. Equivalentemente, il 95.44% di tutti i campioni formati da 32 giocatori hanno la proprietà che l’intervallo da 𝑥 − 11,4 a 𝑥 + 11,4 contiene μ 𝑥 = 107 Kg
  • 46. Introduzione all’intervallo di confidenza ( noto) • 𝜇 𝑥 = μ (che non conosciamo) • 𝜎 𝑥 = 𝜎 𝑛 = 12 32 = 5,7 kg • 𝑥 è distribuita normalmente • 𝑥 = 107 Kg il campione di dimensione 32, 𝑥, è distribuito normalmente con media μ e deviazione standard 5,7 kg Dalla teoria delle probabilità sappiamo che per una variabile normalmente distribuita, il 95.44% di tutte le possibili osservazioni giacciono all’inteno di 2 deviazioni standard da ciascun “lato” della media. Di conseguenza il 95.44% di tutti i campioni formati da 32 giocatori hanno un peso medio compreso tra 2 x 5,7 = 11,4 Kg di μ. Equivalentemente, il 95.44% di tutti i campioni formati da 32 giocatori hanno la proprietà che l’intervallo da 𝑥 − 11,4 a 𝑥 + 11,4 contiene μ
  • 47. Possiamo essere confidenti al 95.44% che  sia qui 95,6 118.4 𝒙 • 𝜇 𝑥 = μ (che non conosciamo) • 𝜎𝑥 = 𝜎 𝑛 = 12 32 = 5,7 kg • 𝑥 è distribuita normalmente • 𝑥 = 107 Kg 𝑥−2𝜎 𝑥 𝑥+2𝜎 𝑥 Distribuzione di tutti i giocatori Distribuzione dei campioni formati da 32 giocatori cisacuno
  • 48. 𝒙 • 𝜇 𝑥 = μ (che non conosciamo) • 𝜎𝑥 = 𝜎 𝑛 = 12 32 = 5,7 kg • 𝑥 è distribuita normalmente • 𝑥 = 107 Kg Distribuzione di tutti i giocatori Distribuzione dei campioni formati da 32 giocatori cisacuno Dato che stiamo considerando un campione casuale semplice, ogni possibile campione di dimensione 32 ha la stessa probabilità di essere ottenuto. Si ha come conseguenza che il 95.44% di tutti i campioni estratti ha la proprietà che l’intervallo 𝑥 − 2 ÷ 𝑥 + 2 contiene μ Abbiamo quindi la probabilità del 95,44% che il campione ottenuto ha questa proprietà. Di conseguenza siamo quindi confidenti al 95,44% che il campione formato da 32 giocatori di rugby ha la proprietà che l’intervallo l’intervallo 𝑥 − 2 ÷ 𝑥 + 2 contiene μ
  • 49. Nota: anche se uno o più di uno degli intervalli di confidenza al 95,44% possono contenere o meno il parametro ricercato, possiamo essere confidenti al 95,44 % che l’intevallo ottenuto lo contiene.
  • 50. 𝒛 = 𝒙 − 𝝁 𝝈 𝑃(−2 ≤ 𝑍 ≤ 2) ≈ 0,95 𝑃(−2 ≤ 𝒙 − 𝝁 𝝈 ≤ 2) ≈ 0,95 𝑃(−2𝝈 ≤ 𝒙 − 𝝁 ≤ 2𝝈) ≈ 0,95 𝑃(𝒙 − 2𝝈 ≤ 𝝁 ≤ 𝒙 + 2𝝈) ≈ 0,95 𝑠𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥 é normalmente distribuita, z (variabile standardizzata) è normalmente distribuita 𝑷(𝝁 − 𝟐𝝈 ≤ 𝒙 ≤ 𝝁 + 𝟐𝝈) ≈ 𝟎, 𝟗𝟓
  • 51. 𝑧 = 𝑥 − 𝜇 𝜎 𝑃(−2 ≤ 𝑍 ≤ 2) ≈ 0,95 𝑃(−2 ≤ 𝑥 − 𝜇 𝜎 ≤ 2) ≈ 0,95 𝑃(−2𝜎 ≤ 𝑥 − 𝜇 ≤ 2𝜎) ≈ 0,95 𝑃(𝑥 − 2𝜎 ≤ 𝜇 ≤ 𝑥 + 2𝜎) ≈ 0,95 𝑃(−2 ≤ 𝑥 − 𝜇 𝜎 𝑛 ≤ 2) ≈ 0,95 𝑃(−2 ≤ 𝑥 − 𝜇 𝜎 𝑛 ≤ 2) ≈ 0,95 𝑃(𝜇 − 2𝜎 ≤ 𝑥 ≤ 𝜇 + 2𝜎) ≈ 0,95 𝑃(−2 𝜎 𝑛 ≤ 𝑥 − 𝜇 ≤ 2 𝜎 𝑛 ) ≈ 0,95 𝑃(𝜇 − 2 𝜎 𝑛 ≤ 𝑥 ≤ 𝜇 + 2 𝜎 𝑛 ) ≈ 0,95 𝑃( 𝑥 − 2 𝜎 𝑛 ≤ 𝜇 ≤ 𝑥 + 2 𝜎 𝑛 ) ≈ 0,95 𝑠𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥 é normalmente distribuita 𝑠𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥 é normalmente distribuita Intervallo di confidenza per  con  noto ( 𝑥 è una stima puntuale) 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥−𝜇 𝜎 𝑛 é normalmente distribuita
  • 52. Stima dell’intervallo di confidenza Intervallo di confidenza: un intervallo di numero ottenuti da una stima puntuale del parametro. Livello di confidenza: la confidenza che abbiamo del fatto che il parametro giace nell’intervallo di confidenza (la confidenza che l’intervallo contenga il parametro). Stima dell’intervallo di confidenza: il livello di confidenza e l’intervallo di confidenza 𝑃( 𝑥 − 2 𝜎 𝑛 ≤ 𝜇 ≤ 𝑥 + 2 𝜎 𝑛 ) ≈ 0,95 l’intervallo di confidenza è definito in forma generale dai due estremi 𝑥 − 𝑧 𝜎 𝑛 e 𝑥 + 𝑧 𝜎 𝑛 Dove z è definito dal livello di confidenza richiesto
  • 53. 𝑠𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑥 é normalmente distribuita, 𝑙𝑎 𝑣𝑒𝑟𝑠𝑖𝑜𝑛𝑒 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑖𝑧𝑧𝑎𝑡𝑎 𝑑𝑖 𝑥 , 𝑧 = 𝑥−𝜇 𝜎 𝑛 , è normalmente distribuita Intervallo di confidenza per  con  non noto Se la deviazione standard della popolazione, , è incognita non possiamo basare la nostra stima dell’intervallo di confidenza sulla versione standardizzata di 𝑥 . È necessario stimare  mediante la deviazione standard del campione, s, ottenendo 𝑥−𝜇 𝑠 𝑛 = t Chiamata versione studentizzata di 𝑥 . Questa variabile t NON ha una distribuzione normale ma ha una distribuzione di Student (t-distribution) con n-1 gradi di libertà Esiste una distribuzione di Student (t-distribution) diversa per ogni numero di gradi di libertà
  • 54. 𝑥 − 𝑡 𝑠 𝑛 e 𝑥 + 𝑡 𝑠 𝑛 Intervallo di confidenza per  con  non noto l’intervallo di confidenza è definito in forma generale dai due estremi Dove t è definito sia dal livello di confidenza richiesto sia dal numero di gradi di libertà