Statistica

di MB 8 aprile 2017

 

La statistica è nata per prevedere le probabilità di vincita al gioco d’azzardo. Quindi lo scopo della statistica è vincere al gioco ovvero fare soldi facilmente. Uno dei primi ad applicare la matematica al gioco è stato Cardano (che vinceva molto spesso). La statistica è stata “scoperta” da Laplace.

J. Bernulli ha formulato la Legge dei Grandi Numeri e ha studiato il problema del calcolo degli interessi composti (proveniva da una famiglia di commercianti). Gauss ha “inventato” il metodo dei minimi quadrati (essenziale per il calcolo della regressione). La statistica è una scienza estremamente precisa.

 

Van Neuman ha formulato la Teoria dei Giochi che è un superamento della statistica nel senso che valuta, una per una, tutte le possibilità di un evento e stabilisce delle regole che consentono di capire se una partita potrà essere vinta, persa o pareggiata. La Teoria dei Giochi si applica a qualsiasi sistema. In particolare per scegliere le migliori strategie in campo economico e finanziario. Anche lo scopo della Teoria dei Giochi è fare soldi. Ne segue che i più grandi esperti di statistica e Teoria dei Giochi si trovano nelle compagnie assicurative, tra gli agenti di borsa e nelle società di tradeing finanziario

I giocatori in grado di prevedere l’andamento del gioco contando le carte non sono ammessi nei casinò (perché lo scopo di un casinò è fare soldi, non regalarli).

 

Occorrenze

Lanciamo un dado. Ogni volta che lanciamo il dato otteniamo un numero da 1 a 6. Ciascuno di questi “eventi” è detto “occorrenza”. Se si lancia il dado 10 volte si può ottenere il 6, per esempio, per 3 volte ovvero 3 occorrenze con il valore 6.

In inglese il temine occorrenza è tradotto con “run” (corsa).

Una occorrenza può essere anche intesa come una serie di dati (vedere Bendant e Piersol).

 

Probabilità

Quale è la probabilità che, lanciando un dado, esca il numero 2?

Se il dado non è truccato, dato che ha sei facce, la probabilità è pari a 1/6 ovvero ogni sei lanci il 2 appare una volta. Questo non impedisce che lanciando un dado 6 volte il numero 2 non esca affatto: mediamente, su un gran numero di lanci, un sesto dei lanci darà 2 come risultato. Quindi se lancio il dato 600 volte otterrò  il 2 per 100 volte (circa). Maggiore è il numero di lanci totali (mille, diecimila, centomila…) più il risultato si avvicina a quello teorico. Se ciò non avviene il dado è truccato.

Quindi la probabilità è il numero di “occorreze positive” rispetto al totale delle occorrenze.

 

Distribuzioni

Esistono classi di fenomeni che danno origine a distribuzioni di valori caratteristiche. La distribuzione gaussiana è tipica dei fenomeni casuali. Altre distribuzioni (tipo la Chi student) sono tipiche di altre classi di fenomeni. Ogni distribuzione ha proprietà particolari. Una volta riconosciuta una distribuzione si possono fare delle ipotesi sulle cause del fenomeno e riferire ad esso tutte le proprietà di quella particolare distribuzione.

 

Nella vita reale la distribuzione gaussaina non esiste perché nessun fenomeno fisico può assumere valori infiniti. Anche la deviazione standard (usatissima) è definita per una distribuzione è gaussiana.

 

La distribuzione Gaussiana o distribuzione normale.

Un grande numero di occorrenze casuali  (tra loro indipendenti) danno origine ad una distribuzione (funzione di probabilità) gaussiana detta anche normale. La curva gaussiana ha la forma di un cappello, si estende da più infinito a meno infinito senza mai raggiungere lo zero, presenta un massimo (in corrispondenza del valore medio) e due flessi (punti dove cambia la concavità). La distanza tra i due flessi è la “deviazione standard” il cui nome in italiano è “errore quadratico medio della media”.

 

Qui a sinistra si vede la gaussiana normalizzata.

m = valore medio

s = deviazione standard

 

All’interno di una deviazione standard cadono il 68.27 % delle occorrenze (quindi il 31.73 delle occorrenze cade fuori).

 

 

 

Come sopra.

 

Una distribuzione di occorrenze confrontate con la distribuzione gaussiana.

 

In questo caso la distribuzione somiglia poco alla gaussiana ma gli statitici fanno di tutto per ricondursi a distribuzioni note.

 

 

 

 

Esempio:

 

Lo scopo è correlare il profitto didattico alla autostima negli studenti Universitari.

Tradotto in altre parole significa individuare, se esiste, un rapporto di causa-effetto tra autostima (causa) e profitto didattico (effetto). In statistica “correlazione” significa relazione di “causa-effetto”. In altri ambiti la parola “correlazione” ha significati diversi.

Preventivamente dobbiamo sapere che cosa è l’autostima.

L’autostima è la consapevolezza dei propri mezzi e capacità o la sopravalutazione (o sottovalutazione) dei propri mezzi e capacità?

 

La prima cosa da fare sempre è individuare il campione.

 

La scelta del campione determina il risultato della ricerca

 

Si può decidere che il campione è tutta la popolazione Universitaria. Questo comporta un lavoro lungo e costoso.

Quindi il primo criterio (per scegliere il numero di campioni) è il costo ed il tempo necessario:

poco tempo o pochi soldi producono statistiche poco precise.

 

Il secondo criterio è l’errore richiesto:

tanti campioni -> errore basso

pochi campioni -> errore alto.

 

Se scelgo 100 campioni l’errore non potrà essere inferiore al 2%

(il doppio della minima variazione).


Criteri per la selezione del campione:

 

In questo caso il campione è limitato agli studenti universitari (quale città?):

Operiamo su tutte le facoltà o solo su alcune? I fisici, per esempio sono pochi e tutti fortemente motivati ma con autostima bassa perché hanno un elevato grado di consapevolezza della loro ignoranza. Vanno inseriti nel campione?

Gli studenti universitari si dividono in “studenti in corso” e in studenti “fuori corso”

La prima decisione riguarda se considerare tutti gli studenti o solo quelli “in corso”.

 

Gli studenti sono distribuiti nei vari anni. Per esempio ci sono

anno

Numero

Di cui donne

Di cui con reddito > 100,000€

1

2000

50%

5%

2

1500

55%

20%

3

1300

60%

30%

4

1200

80%

50%

5

1000

83%

60%

 Non abbiamo considerato se vivono a Padova o vengono da fuori. Questo aspetto è rilevante ai fini del risultato cercato?

 

Il campione deve rappresentare la distribuzione riportata in tabella.

Da subito si vede che la scelta del campione richiede lo studio della popolazione quindi si deve fare uno studio preventivo della popolazione per decidere come selezionare il campione.

 

Supponiamo di aver selezionato un campione significativo. A questo punto dobbiamo preparare un questionario che consente di ricavare il rapporto di causa effetto cercato.

 

Il questionario prevede domande con risposte a scelta fissa (crocette) in modo che le risposte non possano essere interpretate. In questo modo il conteggio potrà essere eseguito da un computer (come richiesto da Hilbert)

 

Il questionario conterrà “domande civetta” che hanno lo scopo di impedire al soggetto di capire lo scopo del questionario stesso (altrimenti potrebbe falsare le risposte).

 

I risultati vanno riportati in un data base il quale consentirà di ottenere qualsiasi tipo di ordinamento dei dati e quindi di individuare eventuali rapporti di causa-effetto.

Se serve i risultati potranno essere resi in forma grafica.

Un grafico può avere due o tre dimensioni. Questo significa che si possono rappresentare al massimo funzioni del tipo

Z = f(x)    una variabile

Z = f(x,y) due variabili 

 

Per rappresentare funzioni di tre variabili tipo z=f(x,y,w) si usano i colori

 

Image result for statistica immagini

 

Image result for statistica immagini

Esempi di grafici a barre (bidimensionali  z=f(x) )

 

Image result for statistica immagini

Grafico a torta con la relativa rappresentazione dei valori sul piano cartesiano (bidimensionali)

 

Esempio di grafico bidimensionale che rappresenta tre quantità (z=f(x,y)) x=Time, y=Freq e z=ampiezza in colore.

 

Esempio di grafico tridimensionale che rappresenta tre quantità (z=f(x,y)): x=frequenza, y= tempo e z=ampiezza.

Usando il colore si può rappresentare una quarta quantità.

 

Per fare una statistica come si deve basta usare la logica degli oggetti ordinali e un po’ di Teoria degli Insiemi.

 

Valori attesi

È buona norma cercare di immaginare, su basi logiche, i risultati attesi da una indagine statistica. Questo è un esercizio che Fayman proponeva frequentemente ai propri studenti.

Per esempio Fayman un giorno chiese ai suoi studenti: quanti accordatori di pianoforti ci sono nella città di New York? Nessuna altra informazione era disponibile.

Noto il numero di abitanti, ipotizzando il numero di pianoforti presenti (diciamo uno ogni 200 abitanti) ipotizzando che un pianoforte debba esser e accordato una volta all’anno, si può calcolare quanti accordatori servono.

 

Un problema molto serio

 

Quando si deve stabilire una relazione di causa ed effetto si devono isolare con cura le possibili cause.

Per esempio gli Egizi credevano che l’apparizione di Sirio nel cielo fosse causa delle esondazioni del Nilo. È vero che il Nilo esonda quando appare Sirio ma la vera causa delle esondazioni sono le piogge che cadono prima che Sirio sorga. Sirio indica una particolare stagione dell’anno quindi una coincidenza indipendente che si verificherebbe anche se non piovesse.

 

La distribuzione normale o gaussiana.

Il numero di occorrenze risultanti da un enorme numero di eventi casuali dà origine ad una distribuzione gaussiana. Il rumore termico è uno dei pochissimi fenomeni che danno origine ad una distribuzione gaussiana. Quando si analizzano statisticamente dati relativi alla popolazione umana la distribuzione gaussiano non si verifica mai. Al massimo la distribuzione può assumere andamento gaussiano su intervalli limitati.

Ne segue che il concetto di deviazione standard (o errore quadratico medio della media) è raramente applicabile.

 

Esercizi:

Stabilire la distribuzione dell’età degli individui presenti nella aule di una scuola elementare

Stabilire la distribuzione del numero delle dita della mano destra per gli individui presenti in una scuola elementare tra le 8 e le 12 di un lunedì feriale di marzo.

Stabilire la distribuzione del numero delle dita della mano destra degli individui normodotati in una scuola elementare tra le 8 e le 12 di un lunedì feriale di marzo.

Stabilire la distribuzione dell’altezza per la popolazione siciliana.

Stabilire la distribuzione dell’altezza per la popolazione siciliana di età compresa tra 15 e 60 anni.

Prevedere il risultato delle prossime elezioni politiche.

Formare il campione per determinare la quantità di vaccino contro il morbillo.

Il livello culturale delle famiglie incide sul numero di vaccinazioni dei neonati?

 

Altri problemi:

Dire come si può rispondere a queste domande:

Vivere nelle vicinanze di una fabbrica di amianto incide sul numero di tumori?

Il consumo di mirtilli incide sulla qualità della visione?