QUALITA’ E TRATTAMENTO DEL DATO ANALITICO

 

INDICE

1.         LA QUALITA’ DEL DATO ANALITICO

1.1.      L’accuratezza

1.2.      La precisione

1.3.      La rappresentatività

1.4.      Le caratteristiche di un metodo di analisi

1.4.1.   La sensibilità

1.4.2.   Il limite di rivelabilità

1.4.3.   L’intervallo dinamico

1.4.4.   La selettività e specificità

1.4.5    La robustezza

1.5       L’errore

1.5.1.   L’errore sistematico

1.5.2.   L’errore casuale

 

2.         L’ESPRESSIONE DEI RISULTATI

2.1.      La distribuzione normale

2.2.      L’espressione dei risultati in un caso reale

2.3.      Altre grandezze statistiche

2.3.1.   La mediana

2.3.2.   La media ponderata

2.3.3.   La deviazione standard relativa (RSD) o coefficiente di variazione (CV).

2.3.4.   La deviazione standard della media

2.3.5.   L’intervallo di confidenza

2.4.      Test statistici

2.4.1.   Lo scarto di un risultato

2.4.1.1. Il test di Grubbs

2.4.1.2. Il test di Dixon

2.4.2.   Il confronto di un valore medio con un valore vero

2.4.2.1. Il test unilaterale

2.4.3.   Il confronto tra risultati

2.4.3.1. Il test t generale

2.4.4.   Il confronto tra varianze (test F di Fischer-Snedecor)

2.4.5.   La distribuzione dei dati

2.4.5.1. Il test di Shapiro-Wilk

2.4.6.   L’analisi della varianza

2.4.6.1. L’analisi della varianza ad una via

2.4.6.2. L’analisi della varianza a due vie

2.4.6.3. L’analisi multivia

2.4.6.4. L’analisi della varianza multidimensionale (MANOVA)

2.5.      Cifre significative ed arrotondamento

2.5.1.   Lo zero come cifra significativa

2.5.2.   Le cifre significative nei calcoli

 

3.         OTTENERE DATI DI QUALITA’

3.1.      Introduzione

3.2.      Operare in laboratorio

3.2.1.   Introduzione

3.2.2.   La conservazione del campione

3.2.3.   I contenitori

3.2.3.1. I materiali dei contenitori

3.2.3.2. La vetreria volumetrica

3.2.3.3. La vetreria standardizzata

3.2.3.4. Il lavaggio dei contenitori

3.2.4.   I reagenti

3.2.4.1. L’acqua

3.2.4.2. I prodotti chimici

3.2.4.3. La manipolazione dei reagenti

3.2.4.4. La preparazione e diluizione delle soluzioni

3.2.4.5. La stabilità dei reagenti e dei campioni

3.2.5.   L’etichettatura

3.2.6.   La filtrazione

3.2.7.   I metodi classici di analisi

3.2.8.   L’ambiente di laboratorio

3.2.9.   La sicurezza

3.3.      La strumentazione

3.3.1.   Indicazioni generali di utilizzo

3.3.2.   La calibrazione

3.3.2.1. La calibrazione esterna

3.3.2.2. La calibrazione interna: il metodo delle aggiunte standard

3.3.2.3. La calibrazione interna: il metodo dello standard interno

3.3.3.   La strumentazione: le singole apparecchiature

3.3.3.1. La bilancia

3.3.3.2. Le micropipette

3.3.3.3. La stufa, la muffola, la centrifuga

3.3.3.4. Il potenziometro e pHmetro

3.3.3.5. Lo spettrofotometro UV-visibile

3.3.3.6. Lo spettrometro di assorbimento atomico a fiamma e fornetto

3.3.3.7. Lo spettrometro di assorbimento atomico con generazione di idruri ed a vapori freddi

3.3.3.8. Lo spettrometro di emissione atomica a plasma ICP (ICP-AES) e lo spettrometro ICP-MS

3.3.3.9. Il gascromatografo

3.3.3.10. Il gascromatografo accoppiato a spettrometro di massa

3.3.3.11. Il cromatografo liquido e il cromatografo ionico

3.3.3.12. Lo spettrometro IR

3.4.      L’esecuzione dell’analisi

3.4.1.   Prima di iniziare un’analisi

3.4.2    Durante l’analisi

3.4.3.   Dopo l’analisi

3.4.4.   La registrazione dei metodi e dei dati

3.4.5.   L’esposizione dei risultati

3.5.      Il controllo di qualità

3.5.1.   Il controllo di qualità del dato analitico

3.5.1.1. La calibrazione con standard

3.5.1.2. Il recupero di quantità note di analita

3.5.1.3. L’analisi di bianchi

3.5.1.4. L’analisi di standard

3.5.1.5. Analisi replicate

3.5.1.6. Le carte di controllo

3.5.1.7. I campioni “ciechi”

3.5.1.8. Uso di un metodo alternativo

3.5.2.   Il controllo di qualità interno del laboratorio

3.5.3.   Il controllo di qualità esterno

3.6.      La validazione di un metodo analitico

3.6.1.   La procedura di validazione

3.6.2.   Il test interlaboratorio

3.6.2.1. Esempio di test interlaboratorio

 

4.         BIBLIOGRAFIA


 

1.         LA QUALITA’ DEL DATO ANALITICO

La qualità di un dato analitico è dettata principalmente dalla sua accuratezza, precisione e rappresentatività. Come vedremo nei prossimi capitoli, per ottenere dati di buona qualità, e quindi validi e significativi, è necessario utilizzare metodi analitici affidabili, eseguire oculatamente le operazioni necessarie per l’analisi ed affiancarle a tecniche di controllo di qualità

La figura 1 rappresenta graficamente i due concetti di accuratezza e precisione, che vengono di seguito definiti.

Figura 1   -         Rappresentazione dei concetti di accuratezza e precisione.

 

1.1.      L’accuratezza

Nella letteratura chimica il termine “accuratezza” è inteso con due accezioni diverse.

Secondo la prima accezione, l’accuratezza rappresenta la differenza (errore o scarto) tra il valore della media dei risultati e il valore vero o ritenuto tale della quantità misurata. L’accuratezza è una misura dell’errore sistematico di una misura ed è legata a due fattori: il metodo di analisi e le modalità di utilizzo del metodo stesso nel laboratorio.

L’accuratezza di un metodo di analisi può essere valutata con prove interlaboratorio e quella delle sue modalità di utilizzo con tecniche di controllo di qualità.

 

Secondo altri autori, soprattutto americani, l’accuratezza è la vicinanza tra il valore osservato ed il valore vero, o comunque accettato come tale, e deriva dalla combinazione di una componente casuale (errori casuali, che determinano precisione) e di una componente sistematica (errori sistematici, in inglese bias).

 

1.2.      La precisione

La precisione è connessa all’errore indeterminato e rappresenta la vicinanza o dispersione dei risultati ottenuti per uno stesso campione.

La precisione è rappresentata dalla deviazione standard dei risultati o dalla stima della medesima.

Essa è valutata attraverso l’esecuzione di analisi replicate.

Si distingue inoltre tra:

- ripetibilità: grado di accordo tra le misure nella stessa matrice ottenute con lo stesso metodo dallo stesso analista nello stesso laboratorio in un tempo ragionevolmente breve;

- riproducibilità: grado di accordo tra misure della stessa grandezza nella stessa matrice, ottenute con lo stesso metodo in laboratori diversi.

 

1.3.      La rappresentatività

Un metodo di analisi può esser molto accurato, ma i risultati non sono utilizzabili se non riflettono la composizione del campione o se il campione non rappresenta la popolazione (ad esempio la zona di suolo) da cui è stato prelevato.

Spesso il campionamento è lo stadio più critico nell’intero processo analitico ed è lo stadio che limita l’accuratezza dell’analisi. Questo è particolarmente vero quando il campione da analizzare sia un sistema di grandi dimensioni e non omogeneo, come ad esempio un lago, un suolo, un pezzo di tessuto animale.

Il prodotto finale dello stadio di campionamento è costituito da pochi grammi o chilogrammi e può costituire una parte rispetto a 107 o 108 del materiale di partenza. Comunque il campione deve avere, nei limiti del possibile, una composizione identica alla composizione media della massa totale.

Esistono in letteratura numerose procedure da seguire, spesso basate su considerazioni statistiche, per stabilire il numero, la dimensione e l’ubicazione dei punti di prelievo dei campioni, a seconda della natura del materiale da analizzare. In generale si può affermare che la rappresentatività del risultato analitico aumenta all’aumentare del numero di campioni prelevati ed analizzati, in particolare se tali campioni derivano da punti diversi del materiale di partenza. Per quanto riguarda i suoli contaminati, l’allegato 2 del D.M. 471/99 indica le procedure di riferimento per il prelievo e l’analisi dei campioni. Anche i capitoli introduttivi ai metodi EPA contengono indicazioni sulle corrette procedure di campionamento.

 

1.4.      Le caratteristiche di un metodo di analisi

Un metodo di analisi affidabile deve in primo luogo fornire risultati accurati e precisi. L’affidabilità e le caratteristiche del metodo sono inoltre definite attraverso i seguenti parametri:

- la sensibilità

- il limite di rivelabilità

- l’intervallo dinamico (lineare)

- la specificità e la selettività

- la robustezza.

 

1.4.1.   La sensibilità

La sensibilità di un metodo è data dal rapporto

 

 

Dove Dy è la variazione della risposta per una variazione di concentrazione DC. Essa rappresenta quindi il segnale misurato per una concentrazione unitaria.

La sensibilità corrisponde alla pendenza della curva di calibrazione (vedi figura 2).

 

Figura 2   -       Pendenza della curva di calibrazione e sensibilità.

 

1.4.2.   Il limite di rivelabilità

Il concetto di limite di rivelabilità non è ancora stato definito in modo univoco.

L’IRSA (Istituto di Ricerca sulle Acque) nel manuale di “Metodi analitici per le acque” propone la seguente definizione: il limite di rivelabilità di un metodo di analisi è il valore minimo delle grandezze da misurare (quantità o concentrazione) che dà luogo ad un risultato che ha una certa probabilità (generalmente il 95%) di essere valutato statisticamente maggiore del risultato che si sarebbe ottenuto se in quello stesso campione la grandezza avesse avuto valore zero (bianco, fondo).

Il limite di rivelabilità di un metodo secondo la precedente definizione si calcola con la formula

LR = tsO + tsL = t(sO + sL)

dove t è il coefficiente di Student per un livello di probabilità del 95% (riportato in tabella 1), sO e sL sono le stime delle deviazioni standard del risultato per un livello della grandezza pari a zero e a LR rispettivamente. Poiché solitamente sO = sL la formula si semplifica in

LR = 2tsO

L’IRSA indica anche una seconda formula per il calcolo del limite di rivelabilità:

LR  = xb + 3sb

Dove xb è il valore medio del bianco e sb è la stima della deviazione standard della sua misura.

 

L’EPA (Environmental Protection Agency) definisce il “limite di rivelabilità del metodo” (MDL) come la minima concentrazione di sostanza che può essere misurata e riportata con livello di confidenza del 99% che la concentrazione di analita sia maggiore di zero.

Si calcola moltiplicando il coefficiente t (unilaterale, livello di confidenza del 99%) per la deviazione standard ottenuta da un minimo di tre analisi sulla matrice di interesse addizionata di una quantità di analita a concentrazione 3-5 volte superiore al limite di rivelabilità stimato. Per stimare il limite di rivelabilità, si considera la concentrazione corrispondente ad un rapporto segnale-rumore pari a 2,5 – 5 oppure alla regione della curva di calibrazione in cui c’è una variazione significativa di sensibilità (cioè un’interruzione nella pendenza della curva).

 

L’American Public Health Association (APHA), l’American Water Works Association (AWWA) e la Water Environment Federation (WEF), negli “Standard Methods for the Examination of Waters and Wastewaters” distinguono varie tipologie di limite di rivelabilità:

- limite di rivelabilità strumentale (IDL): la concentrazione di analita che produce un segnale maggiore di 3 volte la deviazione standard del rumore medio o quella di uno standard che produce un segnale pari a 5 volte il rapporto segnale-rumore. Uno strumento produce un segnale (rumore) anche in assenza di campione o quando si analizza un bianco. Poiché ogni programma di controllo di qualità richiede frequenti analisi del bianco, il suo valore medio e la sua deviazione standard diventano ben note;

- limite inferiore di rivelabilità (LLD o LOD): la concentrazione del costituente in acqua pura che per il 99% delle misure dia un segnale rivelabile. Si determina con misure ripetute di un campione a concentrazione molto bassa, non maggiore di 5 volte l’IDL. Il LLD è pari a 2 ´ 1,645 ´ s, dove s è la deviazione standard di tale campione;

- limite di rivelabilità del metodo (MDL): la concentrazione di costituente che, trattata secondo l’intero metodo di analisi, produce un segnale con il 99% di probabilità di essere diverso dal bianco. Per determinare l’MDL si aggiunge il costituente all’acqua, od alla matrice di interesse, a concentrazione vicina all’MDL stimato. Per sette repliche di questo campione, l’MDL è pari a 3,14 ´ s, dove s è la deviazione standard delle sette repliche (il valore 3,14 corrisponde al coefficiente t per 7-1 = 6 gradi di libertà). L’MDL può variare a seconda della matrice in gioco. Esso differisce dall’LLD perché i campioni sono sottoposti all’intero procedimento analitico;

- limite di quantificazione (LOQ): la concentrazione di costituente che produce un segnale sufficientemente maggiore del bianco in modo da poter essere rilevato da un buon laboratorio in condizioni di routine. Tipicamente è la concentrazione che produce un segnale 10 ´ s volte superiore al segnale del bianco in acqua;

- limite pratico di quantificazione (PQL): il più basso livello ottenibile in più laboratori in condizioni di routine. Il PQL è significativo perché laboratori diversi produrranno MDL diversi anche usando la stessa procedura. Mentre l’LOQ è utile all’interno di un laboratorio, il PQL rappresenta un limite pratico e ottenibile di routine in laboratori diversi con una certezza relativamente elevata che ogni valore riportato sia affidabile. Il PQL è circa pari a 5 volte l’MDL.

La relazione tra i vari limiti di rivelabilità è approssimativamente IDL:LLD:MDL:LOQ:PQL = 1:2:4:10:20.

 

Infine, la IUPAC (International Union of Pure and Applied Chemistry) definisce il limite di rivelabilità come la quantità di analita che produce un segnale uguale a tre volte la deviazione standard del fondo sB, considerando una distribuzione normale e un livello di confidenza del 99.87%. Una concentrazione di analita inferiore a 3 ´ sB non può essere rilevata. Se la sua concentrazione è compresa tra 3 ´ sB e 10 ´ sB è possibile solo una rivelazione qualitativa. Una concentrazione superiore a 10 ´ sB può essere determinata quantitativamente. Il segnale del fondo viene misurato per una soluzione di bianco.

 

Vista la varietà (e spesso l’ambiguità) delle definizioni e dei metodi di calcolo, è importante, quando si riporta un limite di rivelabilità, indicare in che modo è stato calcolato.

La conoscenza del limite di rivelabilità di un metodo è utile sia per conoscere le potenzialità del metodo stesso, sia per esprimere un risultato di analisi non significativamente diverso da zero. In questo caso il risultato non viene riportato come zero ma viene indicato come inferiore al limite di rivelabilità.

 

 

Tabella 1 – Valori del coefficiente t di Student per diversi gradi di libertà f e probabilità P

f

P = 0,90

P = 0,95

P = 0,975

P = 0,99

P = 0,995

P = 0,995

1

3,078

6,314

12,706

31,821

63,657

636,619

2

1,886

2,920

4,303

6,965

9,925

31,598

3

1,638

2,353

3,182

4,541

5,841

12,924

4

1,533

2,132

2,776

3,747

4,604

8,610

5

1,476

2,015

2,571

3,365

4,032

6,869

6

1,440

1,943

2,447

3,143

3,707

5,959

7

1,415

1,895

2,365

2,998

3,499

5,408

8

1,397

1,860

2,306

2,896

3,355

5,041

9

1,383

1,833

2,262

2,821

3,250

4,781

10

1,372

1,812

2,228

2,764

3,169

4,587

11

1,363

1,796

2,201

2,718

3,106

4,437

12

1,356

1,782

2,179

2,681

3,055

4,318

13

1,350

1,771

2,160

2,650

3,012

4,221

14

1,345

1,761

2,145

2,624

2,977

4,140

15

1,341

1,753

2,131

2,602

2,947

4,073

16

1,337

1,746

2,120

2,583

2,921

4,015

17

1,333

1,740

2,110

2,567

2,898

3,965

18

1,330

1,734

2,101

2,552

2,878

3,922

19

1,328

1,729

2,093

2,539

2,861

3,883

20

1,325

1,725

2,086

2,528

2,845

3,850

21

1,323

1,721

2,080

2,518

2,831

3,819

22

1,321

1,717

2,074

2,508

2,819

3,792

23

1,319

1,714

2,069

2,500

2,807

3,767

24

1,318

1,711

2,064

2,492

2,797

3,745

25

1,316

1,708

2,060

2,485

2,787

3,725

26

1,315

1,706

2,056

2,479

2,779

3,707

27

1,314

1,703

2,052

2,473

2,771

3,690

28

1,313

1,701

2,048

2,467

2,763

3,674

29

1,311

1,699

2,045

2,462

2,756

3,659

30

1,310

1,697

2,042

2,457

2,750

3,646

40

1,303

1,684

2,021

2,423

2,704

3,551

60

1,296

1,671

2,000

2,390

2,660

3,460

120

1,289

1,658

1,980

2,358

2,617

3,373

¥

1,282

1,645

1,960

2,326

2,576

3,291

 

 

 

1.4.3.   L’intervallo dinamico

L’intervallo dinamico è l’intervallo di validità della dipendenza funzionale del segnale dalla concentrazione. Nella maggior parte dei casi si opera in condizioni di dipendenza lineare del segnale dalla concentrazione, e si parla quindi di intervallo dinamico lineare, che rappresenta l’intervallo di concentrazione entro il quale il segnale aumenta linearmente all’aumentare della concentrazione stessa. Si definisce inoltre un intervallo analitico o di lavoro, che rappresenta l’intervallo tra la concentrazione minima e massima nel quale si possono effettuare misure accurate.

 

1.4.4.   La selettività e specificità

La selettività di un metodo di analisi indica in che misura la determinazione di un elemento è affetta da interferenze da parte di altri analiti o componenti della matrice.

Un metodo completamente selettivo è in grado di determinare l’analita senza interferenze e viene detto specifico.

Un esempio di segnale non selettivo è la sovrapposizione dei picchi di due o più analiti, ad esempio in un cromatogramma o in uno spettro ottico.

 

1.4.5.   La robustezza

Un metodo viene definito robusto se la qualità dei risultati è indipendente da piccole variazioni nell’esecuzione della procedura.

A titolo di esempio, un metodo robusto è insensibile ad una aumento della temperatura di riscaldamento da 95 a 100°C, oppure ad un aumento di concentrazione di acido da 1,0 a 1,1 M, o infine ad una diminuzione di pH da 5,0 a 4,7.

 

1.5.      L’errore

I risultati di qualunque analisi sono affetti da errore. Gli errori si possono suddividere in due categorie principali: errori sistematici ed errori casuali. Gli errori sistematici determinano l’accuratezza del risultato, mentre gli errori casuali determinano al sua precisione.

 

1.5.1.   L’errore sistematico

L’errore sistematico (in inglese bias) o determinato è di entità costante, o variabile con una legge ben definita, ed ha cause ben definite ed individuabili. Ogni errore altera la grandezza misurata sempre nella stessa direzione (è cioè sempre positivo o negativo). Gli errori sistematici possono essere distinti in:

- errori dovuti al metodo. Dipendono dalle caratteristiche del metodo di analisi, e possono essere ad esempio dovuti a parziale solubilizzazione di un precipitato od alla presenza di reazioni collaterali;

- errori dovuti alle apparecchiature. Le apparecchiature possono essere non calibrate correttamente o non funzionare in modo adeguato: ad esempio una micropipetta non eroga volumi corretti;

- errori dovuti ai reagenti. Ad esempio un reagente può essere contaminato, oppure una soluzione standard può avere concentrazione inferiore a quella attesa a causa di perdite dell’analita per volatilizzazione o adsorbimento sulle pareti del contenitore;

- errori dovuti ai contenitori. I contenitori possono trattenere, rilasciare o far diffondere la specie di interesse;

- errori operativi. L’operatore può commettere errori durante l’esecuzione dell’analisi. Tali errori possono essere dovuti a negligenza (ad esempio scarsa accuratezza nel misurare pesi o volumi, mancato rispetto dei tempi di reazione) od incompetenza (ad esempio errata lettura di una buretta).Ci sono anche errori psicologici. Ad esempio per una determinazione in doppio, quando il risultato è compreso tra due successive tacche di una buretta o di uno strumento analogico, si tenderà a scegliere quello più in accordo con quanto determinato nella prima analisi. Pertanto va sempre conservata molta oggettività nella valutazione dei dati sperimentali.

 

Gli errori sistematici possono essere minimizzati con la scelta di metodi di analisi validi, con la manutenzione delle apparecchiature, con l’utilizzo di reagenti di buona qualità e con la competenza dell’analista.

 

1.5.2.   L’errore casuale

Gli errori casuali o indeterminati sono errori accidentali che possono portare a risultati sia in eccesso sia in difetto. Questi errori sono inevitabili: infatti ripetendo più volte la stessa analisi sullo stesso campione con lo stesso metodo, i risultati ottenuti saranno diversi e mostreranno fluttuazioni intorno al valore medio. Le cause di errori casuali sono dovute a tutti i fattori, noti ed ignoti, che influenzano la grandezza misurata e subiscono fluttuazioni nel corso del tempo. Si possono ad esempio avere fluttuazioni nell’alimentazione elettrica o nella temperatura. Tali fluttuazioni causano deviazioni positive o negative della grandezza misurata rispetto al valore medio. Nel caso più sfavorevole può accadere che in una singola misura tutti i fattori esercitino un’influenza nella stessa direzione, producendo un forte scostamento dal valore medio. Però è molto più probabile che gli effetti siano di segno in parte positivo e in parte negativo e quindi diano luogo ad una parziale cancellazione. Quindi gli errori indeterminati di piccola entità sono più probabili degli errori grandi.

Inoltre gli errori casuali, proprio perchè sono sia positivi sia negativi, tendono a compensarsi all’aumentare del numero di repliche.

 

Gli errori casuali non possono essere evitati, ma possono essere ridotti standardizzando le procedure di analisi ed operando con grande cura ed attenzione.

Tali errori possono essere trattati come dovuti a fluttuazioni statistiche.

 

2.         L’ESPRESSIONE DEI RISULTATI

2.1.      La distribuzione normale

Se si ripetono più misure sullo stesso campione nelle stesse condizioni, i risultati non saranno coincidenti, ma distribuiti casualmente intorno ad un valore medio a causa della presenza di errori sperimentali.

Se si effettuasse un numero infinito di misure, i valori sarebbero solitamente distribuiti secondo una distribuzione normale o gaussiana.

Ad esempio, si supponga di avere 16 valori di assorbanza di una soluzione (tabella 2), di dividerli in classi (risultati compresi in un intervallo prefissato detto ampiezza) e di calcolare la frequenza, cioè il numero di misure in ciascuna classe (tabella 3).

 

Tabella 2   –     Misure di assorbanza di una soluzione: 16 repliche

Misura

Valore

Misura

Valore

1

0,234

9

0,246

2

0,226

10

0,234

3

0,242

11

0,238

4

0,242

12

0,244

5

0,252

13

0,237

6

0,238

14

0,239

7

0,239

15

0,236

8

0,241

16

0,243

 

 

Tabella 3   –     Distribuzione di frequenza delle misure riportate in tabella 2

Classe

Frequenza

0,226-0,229

1

0,230-0,233

0

0,234-0,236

3

0,237-0,240

5

0,241-0,243

4

0,244-0,246

2

0,247-0,250

0

0,251-0,253

1

 

 

Si riporti in un istogramma la frequenza di ciascuna classe in funzione dell’ampiezza di classe (figura 3, parte A) . Se il numero di repliche fosse aumentato all’infinito e contemporaneamente l’ampiezza di classe fosse ridotta, si otterrebbe una curva a forma di campana. La curva è chiamata distribuzione gaussiana o normale (figura 3, parte B). L’insieme di tutte le misure è chiamato popolazione.

Figura 3   -    Variazione della frequenza di una misurazione replicata in funzione del numero di repliche. La porzione A si riferisce ai dati riportati in tabella 3, mentre la gaussiana B si riferisce ad un numero infinito di repliche.

 

Il massimo della curva rappresenta la media

 

dove xi sono le singole misure e n è il loro numero

 

In assenza di errori sistematici, µ rappresenta il valore vero della grandezza misurata.

Gli altri valori saranno distribuiti uniformemente intorno alla media: intuitivamente, infatti, ci sono molte cause che spingono in un senso o nell’altro il risultato sperimentale, per cui errori positivi o negativi sono ugualmente probabili. Inoltre gli scarti più grandi in valore assoluto si presentano con minor frequenza di quelli più piccoli: come indicato al punto 1.5.2, errori indeterminati di piccola entità sono più probabili degli errori grandi.

L’ampiezza della distribuzione normale, cioè la dispersione dei valori intorno alla media, è espressa mediante la deviazione standard

 

 

Un altro parametro che esprime la dispersione dei valori è la varianza, pari a s2.

In particolare, il 68,27% delle misure è compreso nell’intervallo µ ± s, il 95,45% nell’intervallo µ ± 2s, ed il 99.70% nell’intervallo µ ± 3s.

La distribuzione gaussiana è espressa matematicamente dalla funzione:

 

Esistono altri modelli di distribuzione di dati (ad esempio log-normale, di Poisson), che non verranno trattati in questa sede. Infatti nel caso in cui i dati della grandezza misurata diano luogo a valori di una serie continua, come avviene nella gran parte delle applicazioni della chimica analitica, si assume solitamente che essi seguano una distribuzione normale. Un esempio di grandezza che dà valori discontinui è il conteggio della radioattività, in cui lo strumento di misure fornisce un numero di impulsi, ossia solo numeri interi.

 

2.2.      L’espressione dei risultati in un caso reale

Un analista non dispone di un numero infinito di misure e quindi non è possibile determinare il valore effettivo dei parametri statistici µ e s.

Si immagina che i risultati dell’analisi rappresentino un campione statistico di una popolazione infinita di dati, le cui deviazioni dal valore medio sono regolate dalle leggi della statistica.

Si calcolano una stima della media e della deviazione standard. I valori veri dei due parametri sono espressi con lettere greche (µ e s), mentre le loro stime sono indicate con lettere dell’alfabeto moderno (`x e s).

Il risultato dell’analisi verrà quindi espresso attraverso:

la stima della media

 

 

e la stima della deviazione standard

 

La stima della varianza avrà dunque valore s2.

Il valore medio che si ottiene è affetto da un’incertezza tanto maggiore quanto minore è il numero dei risultati.

 

2.3.      Altre grandezze statistiche

La (stima della) media e la (stima della) deviazione standard sono le due grandezze fondamentali per esprimere il risultato di un’analisi. Tuttavia sui dati si possono effettuare altre semplici, ma utili, elaborazioni statistiche.

 

2.3.1.   La mediana

La mediana è il valore della variabile statistica tale che il numero delle osservazioni che presentano un valore inferiore sia uguale al numero di quelle che presentano un valore superiore.

Per il calcolo della mediana i risultati dell’analisi vanno disposti in ordine crescente. Per un numero dispari di valori la mediana è corrisponde al valore in posizione centrale, cioè quello in posizione (n+1)/2, dove n è il numero dei valori. Per un numero pari di valori la mediana viene calcolata dalla media aritmetica dei due valori centrali, nelle posizioni n/2 e n/2 +1.

La mediana dà un’indicazione della posizione in cui si collocano i valori. Rispetto alla media, è meno sensibile alla presenza di un valore molto più piccolo o molto più grande degli altri. Per questo motivo è un parametro utile nelle analisi di tipo ambientale, nelle quali la presenza di un campione molto più (o meno) contaminato degli altri può influenzare fortemente il valore medio e le deduzioni che da esso si traggono.

 

2.3.2.   La media ponderata

Talvolta a ciascuno dei valori da mediare viene assegnato un peso (w) che indica l’importanza da attribuire a ciascun valore nel calcolo della media.

La media ponderata è

 

 

Dove wi è il peso assegnato al valore xi.

La media ponderata non viene utilizzata per l’elaborazione di risultati di un’analisi chimica, ma può essere utile in altre applicazioni, ad esempio negli studi di analisi di rischio.

 

2.3.3.   La deviazione standard relativa (RSD) o coefficiente di variazione (CV)

La deviazione standard relativa si esprime di solito in percentuale:

 

Questo parametro è utile per confrontare direttamente la precisione di risultati di entità diversa. Ad esempio una concentrazione di 15 ± 1 ha una RSD del 6,7%, molto maggiore di una concentrazione 350 ±1 (RSD 0.3%).

 

2.3.4.   La deviazione standard della media

E’ rappresentata da

 

Mentre la deviazione standard rappresenta l’incertezza relativa ad ogni singola determinazione, la deviazione della media esprime l’incertezza relativa alla medie aritmetica delle diverse determinazioni sperimentali.

 

2.3.5.   L’intervallo di confidenza

L’intervallo di confidenza è l’intervallo intorno alla media entro il quale si deve trovare, con un certo grado di probabilità, il valore vero della grandezza misurata. Si valuta come

 

dove t è una variabile tabulata (tabella 1), detta coefficiente di Student, il cui valore dipende dal numero di gradi di libertà e dal livello di confidenza.

I gradi di libertà sono la differenza tra il numero di misure e il numero di vincoli a cui è sottoposto un parametro statistico. In chimica analitica l’unico vincolo è che la somma algebrica degli scarti dalla media sia uguale a zero. Pertanto i gradi di liberà sono n-1.

Il livello di confidenza esprime la probabilità che una certa affermazione sia vera. Ad esempio, in questo caso, per un livello di confidenza del 95% si ha il 95% di probabilità che il valore vero della grandezza sia compreso tra         e                     

Il livello di confidenza si indica spesso con P, che può essere espresso in valore assoluto od in percentuale. La probabilità totale è uguale a 1 (100%).Una grandezza complementare a P è il rischio a, pari a 1-P. Per P = 0,95 a vale 0.05.

Il valore di t da considerare nel calcolo corrisponde a n-1 gradi di libertà e a/2 (infatti il rischio è diviso in due parti, cioè per P = 95% esiste il 2,5% di rischio che il valore vero sia inferiore all’intervallo e il 2,5% di rischio che sia superiore).

 

2.4.    Test Statistici

In molti casi è necessario trarre conclusioni statisticamente significative sui risultati di un’analisi e sul confronto di più dati analitici.

A questo scopo sono stati sviluppati test statistici che forniscono risposte a quesiti sull’accuratezza e riproducibilità dei risultati. I quesiti più comuni sono i seguenti:

- in una serie di misure sullo stesso campione, è lecito escludere dal calcolo della media e della deviazione standard un dato che si discosta dagli altri?

- nell’analisi di un campione a concentrazione nota, lo scarto rispetto al valore teorico può essere attribuito a fluttuazioni statistiche oppure alla presenza di errori determinati?

- i risultati dell’analisi di due campioni differiscono solo per la presenza di errori indeterminati, cioè si può affermare che i due campioni hanno la medesima concentrazione di analita, oppure le differenze sono indice di una diversa composizione dei campioni stessi?

In generale per rispondere a queste domande si definisce un’ipotesi e si valuta la sua significatività con un test. L’operazione si svolge in 5 stadi:

- definizione dell’ipotesi nulla e dell’ipotesi alternativa. L’ipotesi nulla prevede che le differenze riscontrate tra i valori che si confrontano non siano significative, cioè siano dovute solamente a fluttuazioni statistiche. Se si rifiuta l’ipotesi nulla, si dovrà accettare l’ipotesi alternativa;

- scelta del test da adottare;

- decisione del livello di significatività, cioè della probabilità che l’ipotesi nulla sia falsa. A questo scopo si sceglie un livello di rischio a, di solito pari a 0,05 o 0,01 (cioè 5% o 1%). Ricordiamo che a è complementare a P, cioè a = 1 - P;

- esecuzione dei calcoli previsti nel test;

- decisione se accettare o meno la validità dell’ipotesi nulla, in genere confrontando il valore ottenuto nel test con un valore tabulato.

I test descritti di seguito sono validi per una distribuzione normale dei dati. Si riportano infine due test per valutare se i valori sperimentali seguano effettivamente questa distribuzione.

 

2.4.1.   Lo scarto di un risultato

E’ possibile che in una serie di misure uno o più risultati siano molto più alti o molto più bassi dal resto dei dati.

Per valutare se il risultato sia aberrante, e vada quindi scartato, o debba essere incluso nel calcolo della media, si possono eseguire i due test seguenti.

 

2.4.1.1. Il test di Grubbs

L’ipotesi nulla è: il valore sospetto non è da escludere dalle elaborazioni dei dati.

Se l’ipotesi nulla verrà scartata, si dovrà accettare l’ipotesi alternativa, secondo la quale il valore sospetto è da escludere.

Si definisce un livello di significatività a (di solito del 5% o dell’1%).

Si calcola la grandezza T

 

dove x* è il valore sospetto.

La media e la deviazione standard sono calcolate considerando tutti i valori.

Si confronta il valore di T calcolato con il valore tabulato (per n dati e per 1-a). I valori di T sono riportati in tabella 4.

Se T calcolato è minore di T tabulato, l’ipotesi nulla deve essere accettata. In caso contrario, si accetta l’ipotesi alternativa, cioè si può affermare (con una certa probabilità determinata da a) che x* è un dato anomalo e deve essere scartato.

Ovviamente i risultati da confrontare devono provenire da un medesimo campione, o da campioni analoghi: in caso contrario, soprattutto negli studi ambientali, concentrazioni molto alte o molto basse di contaminante possono indicare la presenza di aree contaminate o incontaminate, quindi non possono essere scartati arbitrariamente.

 

Esempio

La determinazione della concentrazione di zinco in un suolo ha fornito i seguenti risultati (mg/kg):

280   277   270   285   330   276   291

Ipotesi nulla: il valore 330 non è un dato anomalo e non va escluso dalle elaborazioni.

Livello di significatività: 1%.

Media di tutti i valori: 287        Deviazione standard di tutti i valori: 20

Calcolo di T:

 

Valore di T tabulato per n=7 e 1-a=0,99: 2,10

Il valore calcolato è maggiore del valore tabulato: pertanto si accetta l’ipotesi alternativa e il valore 330 viene considerato anomalo.

 

Tabella 4 –    Valori di T per il test di Grubbs

(n= numero di misure)

n

T (0,95)

T (0,99)

3

1,15

1,16

4

1,46

1,49

5

1,67

1,75

6

1,82

1,94

7

1,94

2,10

8

2,03

2,22

9

2,11

2,32

10

2,18

2,41

12

2,29

2,55

15

2,41

2,71

20

2,56

2,88

30

2,75

3,10

40

2,87

3,24

50

2,96

3,34

 

 

2.4.1.2. Il test di Dixon

L’ipotesi nulla è: il dato sospetto non è da escludere dalle elaborazioni dei dati.

Se l’ipotesi nulla verrà scartata, si dovrà accettare l’ipotesi alternativa, secondo la quale il valore sospetto è da escludere.

Si definisce un livello di significatività a (di solito del 5% o dell’1%).

Si riportano i dati in ordine crescente. Se il valore sospetto più basso è x1 e quello più alto è xn, si calcolano i valori di Q come

 e

 

Si confronta il valore di Q con il valore tabulato (per n dati e per 1-a). I valori di Q sono riportati in tabella 5.

Se Q calcolato è minore di Q tabulato (per n dati e 1-a), l’ipotesi nulla deve essere accettata. In caso contrario, si accetta l’ipotesi alternativa, cioè si può affermare (con una certa probabilità determinata da a) che il valore sospetto è un dato anomalo e deve essere scartato.

Anche per questo test, come indicato nel test di Grubbs, i risultati da confrontare devono provenire da un medesimo campione, o da campioni analoghi.

 

Esempio

Si considerano gli stessi dati dell’esempio precedente (test di Grubbs) che vengono scritti in ordine crescente:

270   276   277   280   285   291   330

Ipotesi nulla: il valore 330 non è un dato anomalo e non va escluso dalle elaborazioni.

Livello di significatività: 1%.

Calcolo di Q:

 

Valore di Q tabulato per n=7 e 1-a=0,99: 0,64

Il valore calcolato è maggiore del valore tabulato: pertanto si accetta l’ipotesi alternativa e il valore 330 viene considerato anomalo.

 

 

 

Tabella 5 –       Valori di Q per il test di Dixon

(n= numero di misure)

n

Q (0.95)

Q (0.99)

3

0.941

0.988

4

0.765

0.889

5

0.642

0.780

6

0.560

0.698

7

0.507

0.637

8

0.468

0.590

9

0.437

0.555

10

0.412

0.527

11

0.392

0.502

12

0.376

0.482

13

0.361

0.465

14

0.349

0.450

15

0.338

0.438

20

0.300

0.391

25

0.277

0.362

30

0.260

0.341

 

2.4.2.   Il confronto di un valore medio con un valore vero

Per valutare se il valore medio ottenuto da un’analisi di un campione a concentrazione nota differisce dal valore atteso solo a causa di fluttuazioni statistiche, o se invece esistono errori sistematici, si può applicare il test t.

L’ipotesi nulla è: la differenza tra i due valori non è significativa, cioè è dovuta solo a fluttuazioni statistiche. Quindi µ = `x.

Se l’ipotesi nulla verrà scartata, si dovrà accettare l’ipotesi alternativa, secondo la quale µ ¹ `x.

Si definisce un livello di significatività a (di solito del 5% o dell’1%).

Si calcola la grandezza t:

 

Si confronta il valore di t calcolato con il valore tabulato (per 1- a/2 e n-1 gradi di libertà). I valori di t sono riportati in tabella 1.

Se t calcolato è minore di t tabulato l’ipotesi nulla deve essere accettata. In caso contrario, si accetta l’ipotesi alternativa, cioè si può affermare (con una certa probabilità determinata da a) che il valore medio è diverso dal valore atteso.

In questo caso si applica un test bilaterale, cioè non si ipotizza a priori se `x. è maggiore o minore di µ. E’ importante rilevare come le tabelle numeriche che riportano i valori di t possono riferirsi a livelli di confidenza bilaterali o unilaterali. La tabella 1 è di tipo unilaterale, e per questo motivo il test sopra descritto prescrive di riferirsi, per un livello di significatività a, ad un valore di t corrispondente a 1- a/2. Se si utilizza un testo che riporta tabelle con livelli di confidenza bilaterali, il valore da cercare corrisponde a 1- a. Si può riconoscere il tipo di tabella, se non è indicato nel testo, ricordando che i valori indicati in tabella 1 per P = 0,95 e P = 0,975 sono invece riferiti a P = 0,90 e 0,95 per una tabella bilaterale.

 

Esempio

La concentrazione di cadmio indicata per un campione di suolo certificato è 2,0 mg/kg. Il campione viene analizzato; si effettuano 3 determinazioni e si ottiene un valore medio di 1,7 mg/kg, con una deviazione standard di 0,2

Ipotesi nulla: il valore di 1,7 non differisce significativamente dal valore certificato di 2,0.

Livello di significatività: 5%.

Calcolo di t

 

Valore di t tabulato per 1-a/2 = 0,975 e 2 gradi di libertà: 4,303

Il valore calcolato è minore del valore tabulato: pertanto si accetta l’ipotesi nulla e si considera che la differenza tra la concentrazione misurata e quella certificata non siano significative.

 

2.4.2.1. Il test unilaterale

In certi casi è più conveniente effettuare un test unilaterale, ad esempio per valutare se un valore medio supera un determinato valore limite. In questo caso l’ipotesi nulla è `x £ µ e l’ipotesi alternativa è `x ³ µ. Il valore tabulato di t viene preso (in una tabella di tipo unilaterale come la tabella 1) in corrispondenza di 1-a e n-1 gradi di libertà.

 

2.4.3.   Il confronto tra risultati

Può essere interessante stabilire se i risultati dell’analisi di due campioni di suolo differiscano solo per la dispersione delle misure, e quindi possano essere considerati “uguali”, oppure se i due campioni sono effettivamente diversi.

Per confrontare due valori medi si utilizza il cosiddetto test t esteso.

L’ipotesi nulla è: la differenza tra i due valori non è significativa , cioè è dovuta solo a fluttuazioni statistiche. Quindi `x1 =`x2.

Se l’ipotesi nulla verrà scartata, si dovrà accettare l’ipotesi alternativa, secondo la quale `x1 ¹ `x2

Si definisce un livello di significatività a (di solito del 5% o dell’1%).

Si calcola la grandezza t (t di Student):

 

Dove n1, n2 = numero di determinazioni per le medie `x1 e`x2 e sd  = deviazione standard pesata:

 

Si confronta il valore di t calcolato con il valore tabulato per (n1 + n2 –2) gradi di libertà e 1-a/2.

I valori di t sono riportati in tabella 1.

Se t calcolato è minore di t tabulato l’ipotesi nulla deve essere accettata. Si ha quindi una certa probabilità (definita dal livello di significatività) che `x1 = `x2. In caso contrario, si accetta l’ipotesi alternativa, cioè si può affermare (con una certa probabilità determinata da a) che le due medie sono diverse.

Questo test è applicabile solo quando si può assumere che s1 e s2 sono uguali per un certo livello di confidenza. L’uguaglianza delle varianze viene esaminata con il test F (v. 2.4.4).

 

Esempio

Viene determinato il contenuto di benzo(a)pirene in due campioni di suolo. Si ottengono i seguenti risultati:

campione 1: 0,685 ± 0,033 mg/kg       numero di misure n1 = 5

campione 2: 0,712 ± 0,028 mg/kg       numero di misure n2 = 6

Ipotesi nulla: le concentrazioni di benzo(a)pirene nei due campioni non differiscono significativamente.

Livello di significatività: 5%.

Calcolo di sd :

 

Calcolo di t:

 

Valore di t tabulato per 5 + 6 –2 = 9 gradi di libertà e 1-a/2 = 0,975: 2,262

Il valore calcolato è minore del valore tabulato: pertanto si accetta l’ipotesi nulla e si considera che la differenza di concentrazione tra i due campioni non è significativa. Questo non implica che i due campioni siano uguali: potrebbero avere diversa composizione ma soltanto uguale contenuto di benzo(a)pirene.

 

2.4.3.1. Il test t generale

Nel caso in cui la differenza tra le varianze non sia trascurabile, si applica il test t generale, che prevede la formula:

 

 

Il numero di gradi di libertà è calcolato come :

 

 

2.4.4.   Il confronto tra varianze (test F di Fischer-Snedecor)

Il test F permette di stabilire se le varianze di due campioni differiscono solo per fluttuazioni statistiche o se invece sono significativamente diverse.

L’ipotesi nulla è: la differenza tra i due valori non è significativa , cioè è dovuta solo a fluttuazioni statistiche. Quindi s12 = s22.

Se l’ipotesi nulla verrà scartata, si dovrà accettare l’ipotesi alternativa, secondo la quale s12 ¹ s22.

Si definisce un livello di significatività a (di solito del 5% o dell’1%).

Si calcola la grandezza F:

 

 

con s12 > s22.

Si confronta il valore di F calcolato con il valore tabulato (per a, f1 = n1-1, f2 = n2-1). I valori di F sono riportati in tabella 6.


 

Tabella 6 –    Valori F di Snedecor, rispettivamente per una probabilità di P = 0,99, 0,975 e 0,95, in funzione dei gradi di libertà n1 e n2.

 

P = 0,99

 

n2

n1

 

 

 

 

 

 

 

 

 

 

1

2

3

5

8

12

20

40

120

¥

 

 

 

 

 

 

 

 

 

 

1

4052

4999,5

5403

5764

5982

6106

6209

6287

6339

6366

2

98,50

99,00

99,17

99,30

99,37

99,42

99,45

99,47

99,49

99,50

3

34,12

30,82

29,46

28,24

27,49

27,05

26,69

26,41

20,22

26,13

4

21,20

18,00

16,69

15,52

14,80

14,37

14,02

13,75

13,56

13,46

5

16,26

13,27

12,06

10,97

10,29

9,89

9,55

9,29

9,11

9,02

6

13,75

10,92

9,78

8,75

8,10

7,72

7,40

7,14

6,97

6,88

7

12,25

9,55

8,45

7,46

6,84

6,47

6,10

5,91

5,74

5,65

8

11,26

8,65

7,59

6,63

6,03

5,67

5,36

5,12

4,95

4,86

9

10,56

8,02

6,99

6,06

5,47

5,11

4,81

4,57

4,40

4,31

10

10,04

7,56

6,55

5,64

5,06

4,71

4,41

4,17

4,00

3,91

11

9,65

7,21

6,22

5,32

4,74

4,40

4,10

3,86

3,69

3,60

12

9,33

6,93

5,95

5,06

4,50

4,10

3,86

3,62

3,45

3,36

13

9,07

6,70

5,74

4,86

4,30

3,96

3,66

3,43

3,25

3,17

14

8,86

6,51

5,56

4,69

4,14

3,80

3,51

3,27

3,09

3,09

15

8,68

6,36

5,42

4,56

4,00

3,67

3,37

3,13

2,96

2,87

16

8,53

6,23

5,29

4,44

3,89

3,55

3,26

3,02

2,84

2,75

17

8,40

6,11

5,18

4,34

3,79

3,46

3,10

2,92

2,75

2,65

18

8,29

6,01

5,09

4,25

3,71

3,37

3,08

2,84

2,66

2,57

19

8,18

5,93

5,01

4,17

3,63

3,30

3,00

2,76

2,58

2,49

20

8,10

5,85

4,94

4,10

3,56

3,23

2,94

2,69

2,52

2,42

21

8,02

5,78

4,87

4,04

3,51

3,17

2,88

2,64

2,46

2,36

22

7,95

5,72

4,82

3,99

3,45

3,12

2,83

2,58

2,40

2,31

23

7,88

5,66

4,76

3,94

3,41

3,07

2,78

2,54

2,35

2,26

24

7,82

5,61

4,72

3,90

3,36

3,03

2,74

2,49

2,31

2,21

25

7,77

5,57

4,68

3,85

3,32

2,99

2,70

2,45

2,27

2,17

26

7,72

5,53

4,64

3,82

3,29

2,96

2,66

2,42

2,23

2,13

27

7,68

5,49

4,60

3,78

3,26

2,93

2,63

2,38

2,20

2,10

28

7,64

5,45

4,57

3,75

3,23

2,90

2,60

2,35

2,17

2,60

29

7,60

5,42

4,54

3,73

3,20

2,87

2,57

2,33

2,14

2,03

30

7,56

5,39

4,51

3,70

3,17

2,84

2,55

2,30

2,11

2,01

40

7,31

5,18

4,31

3,51

2,99

 

 

 

 

 

60

7,08

4,98

4,13

3,34

2,82

 

 

 

 

 

120

8,85

4,79

3,95

3,17

2,66

 

 

 

 

 

¥

6,63

4,61

3,78

3,02

2,51

 

 

 

 

 

 


 

 

P = 0,975

 

n2

n1

 

 

 

 

 

 

 

 

 

 

1

2

3

5

8

12

20

40

120

¥

 

 

 

 

 

 

 

 

 

 

1

647,8

799,5

864,2

921,8

956,7

976,7

993,0

1006

1014

1018

2

38,51

39,00

39,17

39,30

39,37

39,41

39,45

39,47

39,49

39,50

3

17,44

16,04

15,44

14,88

14,54

14,34

14,17

14,04

13,95

13,90

4

12,22

10,65

9,98

9,36

8,98

8,75

8,56

8,41

8,31

8,26

5

10,01

8,43

7,76

7,15

6,76

6,52

6,33

6,18

6,07

6,02

6

8,81

7,26

6,60

5,99

5,60

5,37

5,17

5,01

4,90

4,85

7

8,07

6,54

5,89

5,29

4,90

4,67

4,47

4,31

4,20

4,14

8

7,57

6,06

5,42

4,82

4,43

4,20

4,00

3,84

3,73

3,67

9

7,21

5,71

5,08

4,48

4,10

3,87

3,67

3,51

3,39

3,33

10

6,94

5,46

4,83

4,24

3,85

3,62

3,42

3,26

3,14

3,08

11

6,72

5,26

4,63

4,04

3,66

3,43

3,23

3,06

2,94

2,88

12

6,55

5,10

4,47

3,89

3,51

3,28

3,07

2,91

2,79

2,72

13

6,41

4,97

4,35

3,77

3,39

3,15

2,95

2,78

2,66

2,60

14

6,30

4,86

4,24

3,66

3,29

3,05

2,84

2,67

2,55

2,49

15

6,20

4,77

4,15

3,58

3,20

2,96

2,76

2,59

2,46

2,40

16

6,12

4,69

4,08

3,50

3,12

2,89

2,68

2,51

2,38

2,32

17

6,04

4,62

4,01

3,44

3,06

2,82

2,62

2,44

2,32

2,25

18

5,98

4,56

3,95

3,38

3,01

2,77

2,56

2,38

2,26

2,19

19

5,92

4,51

3,90

3,33

2,96

2,72

2,51

2,33

2,20

2,13

20

5,87

4,46

3,86

3,29

2,91

2,68

2,46

2,29

2,16

2,09

21

5,83

4,42

3,82

3,25

2,87

2,64

2,42

2,25

2,11

2,04

22

5,79

4,38

3,78

3,22

2,84

2,60

2,39

2,21

2,08

2,00

23

5,75

4,35

3,75

3,18

2,81

2,57

2,36

2,18

2,04

1,97

24

5,72

4,32

3,72

3,15

2,78

2,54

2,33

2,15

2,01

1,94

25

5,69

4,29

3,69

3,13

2,75

2,1

2,30

2,12

1,98

1,91

26

5,66

4,27

3,67

3,10

2,73

2,49

2,28

2,09

1,95

1,88

27

5,63

4,24

3,65

3,08

2,71

2,47

2,25

2,07

1,93

1,85

28

5,61

4,22

3,63

3,06

2,69

2,45

2,23

2,05

1,91

1,83

29

5,59

4,20

3,61

3,04

2,67

2,43

2,21

2,03

1,89

1,81

30

5,57

4,18

3,59

3,03

2,65

2,41

2,20

2,01

1,87

1,79

40

5,42

4,05

3,46

2,90

2,53

 

 

 

 

 

60

5,29

3,93

3,34

2,79

2,41

 

 

 

 

 

120

5,15

3,80

3,23

2,67

2,30

 

 

 

 

 

¥

5,02

3,69

3,12

2,57

2,19

 

 

 

 

 

 


 

 

P = 0,95

 

n2

n1

 

 

 

 

 

 

 

 

 

 

1

2

3

5

8

12

20

40

120

¥

 

 

 

 

 

 

 

 

 

 

1

161,4

199,5

215,7

230,2

238,9

243,9

248,0

251,1

253,3

254,3

2

18,51

19,00

19,16

19,25

19,30

19,41

19,45

19,47

19,49

19,50

3

10,13

9,55

9,28

9,12

9,01

8,74

8,66

8,59

8,55

8,53

4

7,71

6,94

6,59

6,39

6,26

5,91

5,80

5,72

5,66

5,63

5

6,61

5,79

5,41

5,19

5,05

4,68

4,56

4,46

4,40

4,36

6

5,99

5,14

4,76

4,53

4,39

4,00

3,87

3,77

3,70

3,67

7

5,59

4,74

4,35

4,12

3,97

3,58

3,44

3,34

3,27

3,23

8

5,34

4,46

4,07

3,84

3,69

3,28

3,15

3,04

2,97

2,93

9

5,12

4,26

3,86

3,63

3,48

3,07

2,94

2,83

2,75

2,71

10

4,96

4,10

3,71

3,48

3,33

2,91

2,77

2,66

2,58

2,54

11

4,84

3,98

3,59

3,36

3,20

2,79

2,65

2,53

2,45

2,40

12

4,75

3,89

3,49

3,26

3,11

2,69

2,54

2,43

2,34

2,30

13

4,67

3,81

3,41

3,18

3,03

2,60

2,46

2,34

2,25

2,21

14

4,60

3,74

3,34

3,11

2,96

2,53

2,39

2,27

2,18

2,13

15

4,54

3,68

3,29

3,06

2,90

2,48

2,33

2,20

2,11

2,07

16

4,49

3,63

3,24

3,01

2,85

2,42

2,28

2,15

2,06

2,01

17

4,45

3,59

3,20

2,96

2,81

2,38

2,23

2,10

2,01

1,96

18

4,41

3,55

3,16

2,93

2,77

2,34

2,19

2,06

1,97

1,92

19

4,38

3,52

3,13

2,90

2,74

2,31

2,16

2,03

1,93

1,88

20

4,35

3,49

3,10

2,87

2,71

2,28

2,12

1,99

1,90

1,84

21

4,32

3,47

3,07

2,84

2,68

2,25

2,10

1,96

1,87

1,81

22

4,30

3,44

3,05

2,82

2,66

2,23

2,07

1,94

1,84

1,78

23

4,28

3,42

3,03

2,80

2,64

2,20

2,05

1,91

1,81

1,76

24

4,26

3,40

3,01

2,78

2,62

2,18

2,03

1,89

1,79

1,73

25

4,24

3,39

2,99

2,76

2,60

2,16

2,01

1,87

1,77

1,71

26

4,23

3,37

2,98

2,74

2,59

2,15

1,99

1,85

1,75

1,69

27

4,21

3,35

2,96

2,73

2,57

2,13

1,97

1,84

1,73

1,67

28

4,20

3,34

2,95

2,71

2,56

2,12

1,96

1,82

1,71

1,65

29

4,18

3,33

2,93

2,70

2,55

2,10

1,94

1,81

1,70

1,64

30

4,17

3,32

2,92

2,69

2,53

2,09

1,93

1,79

1,68

1,62

40

4,08

3,23

2,84

2,61

2,45

 

 

 

 

 

60

4,00

3,15

2,76

2,53

2,37

 

 

 

 

 

120

3,99

3,07

2,68

2,45

2,29

 

 

 

 

 

¥

3,84

3,00

2,60

2,37

2,21

 

 

 

 

 

 

 

 

Se F calcolato è minore di F tabulato l’ipotesi nulla deve essere accettata. In caso contrario, si accetta l’ipotesi alternativa, cioè si può affermare (con una certa probabilità determinata da a) che le due varianze non differiscono significativamente.

 

Esempio

La concentrazione di policlorobifenili (PCB) in un campione di suolo viene determinata in due laboratori. Le stime delle deviazioni standard dei risultati ottenuti sono:

laboratorio 1: 0,14       numero di misure n1 = 4

laboratorio 2: 0,08       numero di misure n2 = 5

Ipotesi nulla: le varianze dei due gruppi di analisi non differiscono significativamente.

 

Calcolo di F    

 

Valore di F tabulato per a= 0,05, f1 = 3, f2 = 4: 6,59

Il valore calcolato è minore del valore tabulato: pertanto si accetta l’ipotesi nulla e le due varianze sono considerate non significativamente differenti.

 

2.4.5.   La distribuzione dei dati

I test sopra descritti sono validi nel caso di una distribuzione normale dei dati. Per valutare se i risultati sperimentali a disposizione seguono effettivamente tale distribuzione si può ricorrere ad appositi test. In questa sede si descriverà il test di Shapiro-Wilk. Un altro test molto noto che ha la stessa finalità è il test c2, o test di Pearson, che però è applicabile solo se di dispone di un numero elevato di dati. Esiste anche il test di D’Agostino, che può essere utilizzato se il numero di dati è superiore a 50.

 

2.4.5.1. Il test di Shapiro-Wilk

L’ipotesi nulla è: i dati appartengono ad una popolazione avente una distribuzione normale.

Se l’ipotesi nulla verrà scartata, si dovrà accettare l’ipotesi alternativa, secondo la quale i dati appartengono ad una popolazione la cui distribuzione non è normale.

Si definisce un livello di significatività a (di solito del 5% o dell’1%).

Si dispongono i risultati in ordine crescente.

Si calcola la grandezza W

 

dove

D = S(xi - `x)2, con xi = valore della singola misura e  `x = valore medio

dj = x(n-j+1) – xj; cioè d1 = xn – x1, d2 = xn-1 – x2, ecc.

j = 1, 2, 3, … n/2 se n (numero di misure) è pari

j = 1, 2, 3, … (n-1)/2 se n è dispari

aj è un valore tabulato (tabella 7).

 


 

Tabella 7 –    Valori dei coefficienti aj per il test di Shapiro-Wilk.

 

j

n

 

 

 

 

 

 

 

 

 

 

2

3

4

5

6

7

8

9

10

 

 

 

 

 

 

 

 

 

 

 

1

0,7071

0,7071

0,6872

0,6646

0,6431

0,6233

0,6052

0,5858

0,5739

 

2

-

0,0000

0,1667

0,2413

0,2806

0,3031

0,3164

0,3244

0,3291

 

3

-

-

-

0,0000

0,0875

0,1401

0,1743

0,1976

0,2141

 

4

-

-

-

-

-

0,0000

0,0561

0,0947

0,1224

 

5

-

-

-

-

-

-

-

0,0000

0,0399

 

 

 

j

n

 

 

 

 

 

 

 

 

 

 

11

12

13

14

15

16

17

18

19

20

 

 

 

 

 

 

 

 

 

 

1

0,5601

0,5475

0,5359

0,5251

0,5150

0,5056

0,4968

0,4886

0,4808

0,4734

2

0,3315

0,3325

0,3325

0,3318

0,3306

0,3290

0,3273

0,3253

0,3232

0,3211

3

0,2260

0,2347

0,2412

0,2460

0,2495

0,2521

0,2540

0,2553

0,2561

0,2565

4

0,1429

0,1586

0,1707

0,1802

0,1878

0,1939

0,1988

0,2027

0,2059

0,2085

5

0,0695

0,0922

0,1099

0,1240

0,1353

0,1447

0,1524

0,1587

0,1641

0,1686

6

0,0000

0,0303

0,0539

0,0727

0,0880

0,1005

0,1109

0,1197

0,1271

0-1334

7

-

-

0,0000

0,0240

0,0433

0,0593

0,0725

0,0837

0,0932

0,1013

8

-

-

-

-

0,0000

0,0196

0,0359

0,0496

0,0612

0,0711

9

-

-

-

-

-

-

0,0000

0,0163

0,0303

0,0422

10

-

-

-

-

-

-

-

-

0,0000

0,0140

 

 

j

n

 

 

 

 

 

 

 

 

 

 

21

22

23

24

25

26

27

28

29

30

 

 

 

 

 

 

 

 

 

 

1

0,4643

0,4590

0,4542

0,4493

0,4450

0,4407

0,4366

0,4328

0,4291

0,4254

2

0,3185

0,31576

0,3126

0,3098

0,3069

0,3043

0,3018

0,2992

0,2968

0,2944

3

0,2578

0,2571

0,2563

0,2554

0,2543

0,2533

0,2522

0,2510

0,2499

0,2487

4

0,2119

0,2131

0,2139

0,2145

0,2148

0,2151

0,2152

0,2151

0,2150

0,2148

5

0,1736

0,1764

0,1787

0,1807

0,1822

0,1836

0,1848

0,1857

0,1864

0,1870

6

0,1399

0,1443

0,1480

0,1512

0,1539

0,1563

0,1584

0,1601

0,1616

0,1630

7

0,1092

0,1150

0,1201

0,1245

0,1283

0,1316

0,1346

0,1372

0,1395

0,1415

8

0,0804

0,0978

0,0941

0,0997

0,1046

0,1089

0,1128

0,1162

0,1192

0,1219

9

0,0530

0,0618

0,0696

0,0764

0,0823

0,0876

0,0923

0,0965

0,1002

0,1036

10

0,0263

0,0368

0,0459

0,0539

0,0610

0,0672

0,0728

0,0778

0,0822

0,0862

11

0,0000

0,0122

0,0228

0,0321

0,0403

0,0476

0,0540

0,0598

0,0650

0,0697

12

-

-

0,0000

0,0107

0,0200

0,0284

0,0358

0,0424

0,0483

0,0537

13

-

-

-

-

0,0000

0,0094

0,0178

0,0253

0,0320

0,0381

14

-

-

-

-

-

-

0,0000

0,0084

0,0159

0,0227

15

-

-

-

-

-

-

-

-

0,0000

0,0076

 


 

 

j

n

 

 

 

 

 

 

 

 

 

 

31

32

33

34

35

36

37

38

39

40

 

 

 

 

 

 

 

 

 

 

1

0,4220

0,4188

0,4156

0,4127

0,4096

0,4068

0,4040

0,4015

0,3989

0,3964

2

0,2921

0,2898

0,2876

0,2854

0,2834

0,2813

0,2794

0,2774

0,2755

0,2737

3

0,2475

0,2462

0,2451

0,2439

0,2427

0,2415

0,2403

0,2391

0,2380

0,2368

4

0,2145

0,2141

0,2137

0,2132

0,2127

0,2121

0,2116

0,2110

0,2104

0,2098

5

0,1874

0,1878

0,1880

0,1882

0,1883

0,1883

0,1883

0,1881

0,1880

0,1878

6

0,1641

0,1651

0,1660

0,1667

0,1673

0,1678

0,1683

0,1686

0,1689

0,1691

7

0,1433

0,1449

0,1463

0,1475

0,1487

0,1496

0,1505

0,1513

0,1520

0,1526

8

0,1243

0,1265

0,1284

0,1301

0,1317

0,1331

0,1344

0,1356

0,1366

0,1376

9

0,1066

0,1093

0,1118

0,1140

0,1160

0,1179

0,1196

0,1211

0,1225

0,1237

10

0,0899

0,0931

0,0961

0,0988

0,1013

0,1036

0,1056

0,1075

0,1092

0,1108

11

0,0739

0,0777

0,0812

0,0844

0,0873

0,0900

0,0924

0,0947

0,0967

0,0986

12

0,0585

0,0629

0,0669

0,0706

0,0739

0,0770

0,0798

0,0824

0,0848

0,0870

13

0,0435

0,0485

0,0530

0,0572

0,0610

0,0645

0,0677

0,0706

0,0733

0,0759

14

0,0289

0,0344

0,0395

0,0441

0,0484

0,0523

0,0559

0,0592

0,0622

0,0651

15

0,0144

0,0206

0,0262

0,0314

0,0361

0,0404

0,0444

0,0481

0,0515

0,0546

16

0,0000

0,0068

0,0131

0,0187

0,0239

0,0287

0,0331

0,0372

0,0409

0,0444

17

-

-

0,0000

0,0062

0,0119

0,0172

0,0220

0,0264

0,0305

0,0343

18

-

-

-

-

0,0000

0,0057

0,0110

0,0158

0,0203

0,0244

19

-

-

-

-

-

-

0,0000

0,0053

0,0101

0,0146

20

-

-

-

-

-

-

-

-

0,0000

0,0049

 

 

j

n

 

 

 

 

 

 

 

 

 

 

41

42

43

44

45

46

47

48

49

50

 

 

 

 

 

 

 

 

 

 

1

0,3940

0,3917

0,3894

0,3872

0,3850

0,3830

0,3808

0,3789

0,3770

0,3751

2

0,2719

0,2701

0,2684

0,2667

0,2651

0,2635

0,2620

0,2604

0,2589

0,2574

3

0,2357

0,2345

0,2334

0,2323

0,2313

0,2302

0,2291

0,2281

0,2271

0,2260

4

0,2091

0,2085

0,2078

0,2072

0,2065

0,2058

0,2052

0,2045

0,2038

0,2032

5

0,1876

0,1874

0,1871

0,1868

0,1865

0,1862

0,1859

0,1855

0,1851

0,1847

6

0,1693

0,1694

0,1695

0,1695

0,1695

0,1695

0,1695

0,1693

0,1692

0,1691

7

0,1531

0,1535

0,1539

0,1542

0,1545

0,1548

0,1550

0,1551

0,1553

0,1554

8

0,1384

0,1392

0,1398

0,1405

0,1410

0,1415

0,1420

1,1423

0,1427

0,1430

9

0,1249

0,1259

0,1269

0,1278

0,1286

0,1293

0,1300

0,1306

0,1312

0,1317

10

0,1123

0,1136

0,1149

0,1160

0,1170

0,1180

0,1189

0,1197

0,1205

0,1212

11

0,1004

0,1020

0,1035

0,1049

0,1062

0,1073

0,1085

0,1095

0,1105

0,1113

12

0,0891

0,0909

0,0927

0,0943

0,0959

0,0972

0,0986

0,0998

0,1010

0,1020

13

0,0782

0,0804

0,0824

0,0842

0,0860

0,0876

0,0892

0-0906

0,0919

0,0932

14

0,0677

0,0701

0,0724

0,0745

0,0765

0,0783

0,0801

0,0817

0,0832

0,0846

15

0,0575

0,0602

0,0628

0,0651

0,0673

0,0694

0,0713

0,0731

0,0748

0,0764

16

0,0476

0,0506

0,0534

0,0560

0,0584

0,0607

0,0628

0,0648

0,0667

0,0685

17

0,0379

0,0411

0,0442

0,0471

0,0497

0,0522

0,0546

0,0568

0,0588

0,0608

18

0,0283

0,0318

0,0352

0,0383

0,0412

0,0439

0,0465

0,0489

0,0511

0,0532

19

0,0188

0,0227

0,0263

0,0296

0,0328

0,0357

0,0385

0,0411

0,0436

0,0459

20

0,0094

0,0136

0,0175

0,0211

0,0245

0,0277

0,0307

0,0335

0,0361

0,0386

21

0,0000

0,0045

0,0087

0,0126

0,0163

0,0197

0,0229

0,0259

0,0288

0,0314

22

-

-

0,0000

0,0042

0,0081

0,0118

0,0153

0,0185

0,0215

0,0244

23

-

-

-

-

0,0000

0,0039

0,0076

0,0111

0,0143

0,0174

24

-

-

-

-

-

-

0,0000

0,0037

0,01071

0,0104

25

-

-

-

-

-

-

-

-

0,0000

0,0076

 

 

Si confronta il valore di W calcolato con il valore tabulato (per n dati e 1- a). I valori di W sono riportati in tabella 8.


 

Tabella 8 –    Valori di W in funzione di n e di a.

 

n

a

 

 

 

 

 

 

 

 

 

0,01

0,02

0,05

0,10

0,50

0,90

0,95

0,98

0,99

 

 

 

 

 

 

 

 

 

3

0,753

0,756

0,767

0,789

0,959

0,998

0,999

1,000

1,000

4

0,687

0,707

0,748

0,792

0,935

0,987

0,992

0,996

0,997

5

0,686

0,715

0,762

0,806

0,927

0,979

0,986

0,993

0,993

6

0,713

0,743

0,788

0,826

0,927

0,974

0,981

0,986

0,989

7

0,730

0,760

0,803

0,838

0,928

0,972

0,979

0,985

0,988

8

0,749

0,778

0,818

0,851

0,932

0,972

0,978

0,984

0,987

9

0,764

0,791

0,829

0,859

0,935

0,972

0,978

0,984

0,986

10

0,781

0,806

0,842

0,869

0,938

0,972

0,978

0,983

0,986

11

0,792

0,817

0,850

0,876

0,940

0,973

0,979

0,984

0,986

12

0,805

0,828

0,859

0,883

0,943

0,973

0,979

0,984

0,986

13

0,814

0,837

0,866

0,889

0,945

0,974

0,979

0,984

0,986

14

0,825

0,846

0,874

0,895

0,947

0,975

0,980

0,984

0,986

15

0,835

0,855

0,881

0,901

0,950

0,975

0,980

0,984

0,987

16

0,844

0,863

0,887

0,906

0,952

0,976

0,981

0,985

0,987

17

0,851

0,869

0,892

0,910

0,954

0,977

0,981

0,985

0,987

18

0,858

0,874

0,897

0,914

0,956

0,978

0,982

0,986

0,988

19

0,863

0,879

0,901

0,917

0,957

0,978

0,982

0,986

0,988

20

0,868

0,884

0,905

0,920

0,959

0,979

0,983

0,986

0,988

21

0,873

0,888

0,908

0,923

0,960

0,980

0,983

0,987

0,989

22

0,878

0,892

0,911

0,926

0,961

0,980

0,984

0,987

0,989

23

0,881

0,895

0,914

0,928

0,962

0,981

0,984

0,987

0,989

24

0,884

0,898

0,916

0,930

0,963

0,981

0,984

0,987

0,989

25

0,888

0,901

0,918

0,931

0,964

0,981

0,985

0,988

0,989

26

0,891

0,904

0,920

0,933

0,965

0,982

0,985

0,988

0,989

27

0,894

0,906

0,923

0,935

0,965

0,982

0,985

0,988

0,990

28

0,896

0,908

0,924

0,936

0,966

0,982

0,985

0,988

0,990

29

0,898

0,910

0,926

0,937

0,966

0,982

0,985

0,988

0,990

30

0,900

0,912

0,927

0,939

0,967

0,983

0,985

0,988

0,990

31

0,902

0,914

0,929

0,940

0,967

0,983

0,986

0,988

0,990

32

0,904

0,915

0,930

0,941

0,968

0,983

0,986

0,988

0,990

33

0,906

0,917

0,931

0,942

0,968

0,983

0,986

0,989

0,990

34

0,908

0,919

0,933

0,943

0,969

0,983

0,986

0,989

0,990

35

0,910

0,920

0,934

0,944

0,969

0,984

0,986

0,989

0,990

36

0,912

0,922

0,935

0,945

0,970

0,984

0,986

0,989

0,990

37

0,914

0,924

0,936

0,946

0,970

0,984

0,987

0,989

0,990

38

0,916

0,925

0,938

0,947

0,971

0,984

0,987

0,989

0,990

39

0,917

0,927

0,939

0,948

0,971

0,984

0,987

0,989

0,991

40

0,919

0,928

0,940

0,949

0,972

0,985

0,987

0,989

0,991

41

0,920

0,929

0,941

0,950

0,972

0,985

0,987

0,989

0,991

42

0,922

0,930

0,942

0,951

0,972

0,985

0,987

0,989

0,991

43

0,923

0,932

0,943

0,951

0,973

0,985

0,987

0,990

0,991

44

0,924

0,933

0,944

0,952

0,973

0,985

0,987

0,990

0,991

45

0,926

0,934

0,945

0,953

0,973

0,985

0,988

0,990

0