Statistica tutto di tutto

 

Collegamenti utili gratuiti

 

Da Wikipedia :

 

La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni collettivi - può essere sintetizzata e quindi compresa. Con il termine statistica, nel linguaggio di tutti i giorni, si indicano anche semplicemente i risultati numerici (le statistiche richiamate nei telegiornali, ad esempio: l'inflazione, il PIL etc.) di un processo di sintesi dei dati osservati.

 

La misura quantitativa dei fenomeni sociali ha una storia antica.

In Egitto si rilevava l'ammontare della popolazione già ai tempi della prima dinastia e durante la seconda si rilevavano vari beni a fini fiscali. Durante le dinastie successive si tenevano elenchi delle famiglie dei soldati, dei dipendenti statali, delle merci. Sotto la ventesima dinastia si tenevano liste delle abitazioni e dei loro abitanti. In Israele il primo censimento fu fatto ai tempi del soggiorno nel Sinai (da cui il libro dei Numeri della Bibbia) e altri ne seguirono. Anche l'immenso impero cinese ha sempre curato i censimenti, che nell'epoca dei Ming avevano cadenza decennale. Non si hanno invece notizie di censimenti nella Grecia antica, ma venivano registrati ogni anno i nati dell'anno precedente. La rilevazione dei cittadini e dei loro beni ebbe grande importanza nella Roma antica. Il primo censimento fu ordinato da Servio Tullio e si ebbero poi censimenti con periodicità quinquennale dalla fine del VI secolo a.C., decennale a partire da Augusto. La caduta dell'impero romano comportò la sospensione di tali attività per secoli, fino alla ricostituzione di organismi statali da parte dei Carolingi. Il sorgere dei Comuni, poi delle signorie, delle repubbliche marinare e degli Stati nazionali comportò una progressiva frammentazione non solo politica, ma anche amministrativa. Già dal XII secolo si ebbero rilevazioni statistiche in Italia, da Venezia alla Sicilia, con obiettivi prevalentemente fiscali. Ebbero poi crescente importanza le registrazioni su nascite, matrimoni e morti effettuate dalle parrocchie, iniziate in Italia ed in Francia fin dal XIV secolo. L'esigenza di quantificare i fenomeni oggetto di studio, ossia di analizzarli e descriverli in termini matematici, fu una tendenza tipica del XVII secolo: non fu solo l' Universo ad essere concepito come un grande libro "scritto in caratteri matematici" - come aveva affermato Galileo Galilei -, ma si diffuse anche la convinzione che fosse possibile studiare la società tramite strumenti di tipo quantitativo. In genere, le origini della statistica nella concezione più moderna, si fanno risalire a quella che un economista e matematico inglese, William Petty (1623 - 1687), chiamo "aritmetica politica", ovvero "l'arte di ragionare mediante le cifre sulle cose che riguardano il governo"; tra le cose che maggiormente stavano a cuore al governo, del resto, vi erano l'entità della popolazione e la quantità di ricchezza che essa aveva a sua disposizione, dalle quali dipendeva in ultima analisi la forza degli Stati in competizione tra loro. Demografia e calcolo del reddito nazionale furono quindi gli ambiti in cui si esercitò la creatività dei primi "aritmeti politici". Nel primo campo un autentico precursore fu John Graunt (1620 - 1674), un mercante londinese, che tramite lo studio dei registri di mortalità, riuscì per primo a rilevare l'approssimativa costanza di certi rapporti demografici e a costruire una prima e rudimentale "tavola della mortalità". Le sue Natural and Political Observations on the Bills of Mortality risalente al 1662 possono essere considerate a buon diritto come l'opera fondatrice della demografia. Il metodo statistico elaborato da Graunt per il settore demografico fu poi ripreso da William Petty, che nel suo Fuve Essays on the Political Arithmetic del 1690 espose i principi fondamentali della nuova disciplina. Nei medesimi anni, venne data alle stampe l'opera di un altro grande aritmeta politico, Gregory King (1648 - 1712), il quale nelle sue Natural and Political Observations and Conclusion upon the State and Condition of England risalente al 1698 formulò una stima della popolazione e del reddito totale dell'Inghilterra, giungendo a conclusioni ritenute abbastanza veromisili. In Francia un tentativo simile venne effettuato dal ministro del re Luigi XIV ed economista Sebastien de Vauban (1633 - 1707), che stimò la popolazione del Regno di Francia intorno ai venti milioni di abitanti - valutazione condivisa dalgi storici attuali. Ai problemi statistici si interessarono anche alcune delle menti più brillanti dell'epoca: il fisico olandese Christiaan Huygens (1629 - 1695) elaborò delle tavole di mortalità, l'astronomo inglese Edmund Halley (1656 - 1742) avanzò una serie di ipotesi sul numero di abitanti dei vari Paesi europei, mentre in Germania il grande filosofo Gottfried Leibniz (1646 - 1716) suggerì la creazione di un ufficio statale di statistica. Nel frattempo, in concomitanza con lo sviluppo di queste prime ed ancora rudimentali metodologie demografiche, ci si cominiciò a porre questo tipo di problemi anche per quanto concerneva la storia precedente: ciò indusse a guardare in modo critico e diffidente ai dati forniti da quegli autori del passato che avevano cercato di quantificare il numero di abitanti di un territorio, le dimensioni di un esercito, i morti per un'epidemia, ecc. Un contributo importante, sotto questo profilo, venne da uno dei più grandi pensatori del XVIII secolo, lo scozzese David Hume (1711 - 1776) il cui Of the Populousness of Ancient Nations diede inizio alla demografia storica. In tale testo Hume rilevò come le cifre tramandateci dagli antichi fossero particolarmente inaffidabili, non solo perché le loro stime non avevano basi solide, ma anche perché i numeri di ogni tipo contenuti negli antichi manoscritti sono stati soggetti ad un' alterazione molto maggiore di qualsiasi altra parte del testo, in quanto ogni altro tipo di alterazione modifica il senso e la grammatica ed è quindi più facilmente individuata dal lettore e dal trascrittore. In Italia venne creato un Ufficio Statistico Nazionale nel 1861, che poi diventò ISTAT nel 1926.

 

  • Fine articolo Statistica

 

APPUNTI DI STATISTICA

 

 

SCHEDA N°1: I DATI STATISTICI

 

 

La statistica si occupa dei modi di raccogliere e analizzare dati relativi ad un certo gruppo di persone (studenti di una scuola, abitanti di un quartiere, elettori di una regione, ecc) o di oggetti (automobili,dischi, libri ecc) per trarne conclusioni e fare previsioni. Le fasi fondamentali di un’indagine statistica sono quindi:

il rilevamento dei dati;

l’elaborazione dei dati.

 

Il gruppo preso in considerazione viene anche detto popolazione o universo. Se la rilevazione dei dati viene effettuata su tutta la popolazione, si definisce censimento. Spesso viene presa in esame solo una parte della popolazione, detta campione, scelta in modo che rappresenti l’intero gruppo.

La raccolta di tipo globale è più significativa di quella campionaria, sebbene sia molto costosa nel caso di popolazioni numerose. Per questo motivo la maggior parte delle raccolte dati è di tipo campionario. Il campione deve essere attendibile: le tecniche utilizzate per la raccolta dati possono essere l’intervista diretta o indiretta (tramite questionario). Di solito si propongono questionari anonimi con la sola richiesta del sesso e dell’età.

 

Una volta raccolti i questionari compilati:

si conta per sapere il numero effettivo delle unità che costituiscono il campione;

si contano le diverse risposte date a ciascuna domanda predisponendo tabelle di spoglio;

si rappresentano graficamente i dati;

si elaborano i dati con i metodi matematici più opportuni;

si interpretano i dati ed in certi casi si traggono conclusioni che possano valere per tutta  la popolazione.

 

I metodi per ottenere risultati soddisfacenti nel procedimento di passaggio dal campione alla popolazione sono studiati da quella parte della statistica detta statistica induttiva.

 

Ci limiteremo a studiare alcuni degli strumenti matematici utilizzati per descrivere i dati relativi ad un certo gruppo scelto come popolazione. In questo caso si parla di statistica descrittiva.

 

Gli elementi di una popolazione si chiamo anche unità statistiche. E’ possibile studiare diverse caratteristiche di tali unità e ogni caratteristica rappresenta un carattere della popolazione.

I caratteri possono essere di due tipi:

qualitativi, se vengono descritti mediante parole;

quantitativi,se descritti mediante numeri;

 

Per esempio, se scegliamo come unità statistiche gli studenti di una scuola alcuni caratteri qualitativi sono il sesso, il paese di provenienza, il mezzo di trasporto usato per raggiungere la scuola; sono invece caratteri quantitativi l’età, il peso, la statura.

Ogni carattere viene descritto mediante le modalità con cui esso si può manifestare. Esempio: il carattere “mezzo di trasporto” ha come modalità: treno, autobus, motorino,…

 

Fonte : www.luigieinaudi.it

 

 

Fine articolo Statistica

 

La statistica è la scienza che ha come scopo lo studio dei fenomeni collettivi.

 

La statistica si occupa di fenomeni collettivi, non interessa il singolo individuo (inteso sia come soggetto umano che come qualsiasi unità di tipo inanimato), ma di una popolazione, di un insieme. Vede i fenomeni sempre dal punto di visto collettivo.

Correntemente ci si trova a che fare con grandi moli di dati che in qualche modo vanno classificati e sintetizzati.

La statistica si occupa dello studio del collettivo, di come raccogliere informazioni su questo collettivo e come presentarle in una forma facilmente comprensibile ad un pubblico non esperto.

 

Fasi principali di uno studio statistico

  • Definizione del collettivo
  • Raccolta e classificazione dei dati
  • Misurazione e analisi
  • Sintesi

 

 

Definizione del collettivo

Passo preliminare : bisogna definire con chiarezza il collettivo, a chi si riferisce lo studio statistico.

        

 

         Raccolta dei dati

Sulla popolazione individuata viene fatta la raccolta dei dati che interessano e classificati nel modo che interessa.

 

- diretta (parziale o totale) :

  • Indagini sul campo (questionari, interviste)
  • Indagini su fonti primarie di dati (archivi aziendali, parrocchiali, comunali, ecc..)

 

- indiretta (fonti statistiche) : i dati primari sono già elaborati e siamo in 

   presenza di “dati statistici”.

 

 

Misurazione e analisi

Si effettuano delle misurazioni per analizzare i dati così raccolti e classificati.

 

 

         Sintesi

Ne viene ricavata una sintesi.

 

 

La raccolta dei dati può essere diretta (materialmente i dati vengono reperiti sul collettivo), oppure indiretta (ci si rivolge ad una risorsa che ha già questi dati raccolti e classificati)

I dati prelevati in modo diretto sul campo sono sempre più attendibili ma su una popolazione molto vasta tale modo di reperire dati diventa troppo dispendioso in termini di tempo e soldi.

La soluzione è prendere le informazioni che interessano solo su una parte della popolazione : concetto di campione.

 

Indagine campionaria: non viene investita dalla ricerca tutta la popolazione di riferimento, ma solo una parte scelta perché rappresentativa della popolazione.

 

 

 Sono presenti numerosissime entità deputate a raccogliere dati a fini statistici che hanno valore legale. Le più importanti fonti ufficiali dei dati statistici sono :

        • ISTAT 
        • OCSE (OECD)
        • FAO

 

ISTAT      ha il compito di raccogliere ed elaborare dati statistici riguardanti i più diversi aspetti della vita italiana. Tra l’altro

                            - predispone e coordina i censimenti (della popolazione ogni 10 anni, è

  una conta materiale dei soggetti, una delle poche indagini totali che  

  viene condotta in Italia)

 

- definisce la nomenclatura e le metodologie per la rilevazione e la

  classificazione dei fenomeni di interesse (demografico, sociale,   

  economico, ecc..)

 

                            - coordina l’attività degli uffici del SISTAN (dlg 322/89)

 


 

Fasi di un’indagine statistica

 

  • Piano della rilevazione (definire con chiarezza che cosa si deve studiare e dove)

- definizione del campo di indagine (collettivo, caratteristiche da indagare,  

  ecc…);

- metodo di rilevazione (diretta o indiretta);

- data di rilevazione

         - materiale e personale

 

  • Raccolta dei dati

 

  • Spoglio e classificazione dei dati

 

  • Elaborazione dei dati

 

  • Interpretazione delle elaborazioni (si evincono informazioni e conclusioni dai dati classificati)

 

  • Rapporto di sintesi (si analizzano i dati raccolti, si dà un’interpretazione che generalmente va a suffragare un’ipotesi fatta inizialmente e si pubblica)

 


 

Nomenclatura statistica.

 

Popolazione(collettivo) l’insieme completo degli individui che si vogliono studiare, mediante la rilevazione di uno o più caratteri.

Una popolazione può essere

    • FINITA
    • INFINITA

(A fini statistici è sempre meglio che la popolazione sia finita).

 

Campione         una parte della popolazione oggetto di indagine che in qualche modo può

essere rappresentativo della popolazione da cui viene selezionato.

 

Unità statistica  un elemento dell’insieme che si vuole studiare e che corrisponde a

caratteristiche ben precise.

 

Famiglia            (per il censimento) un insieme di persone legate da vincolo di

matrimonio, parentela, affinità, adozione, coabitanti ed aventi dimora

abituale nello stesso luogo.

 

Convivenza        (per il censimento) l’ insieme delle persone che senza essere legati da

vincolo di matrimonio, parentela, ecc…, vivono in comune per altri motivi

(motivi religiosi, di cura, di assistenza, militari).


 

Caratteri statistici.

 

Un collettivo può essere studiato secondo le modalità che assume il carattere statistico sotto osservazione.

I caratteri possono essere classificati secondo il diverso livello (scala) di misurazione e possono assumere diverse modalità.

 

Per comodità si distinguono i caratteri statistici in due tipi fondamentali:

  • caratteri quantitativi o variabili
  • caratteri qualitativi o mutabili.

 

 

1-caratteri quantitativi o variabili

 

All’interno dei caratteri quantitativi distinguiamo due sottotipi, secondo il diverso livello o scala  di misurazione misurabili

  • su scala di intervalli e
  • su scala di rapporti.

 

La scala di intervalli indica tutte quelle variabili, caratteri quantitativi, che non hanno uno zero assoluto, sono costruite facendo riferimento ad altro.

Un carattere quantitativo sprovvisto di zero assoluto è quel carattere in cui nella scala di misurazione zero significa assenza di quel carattere.

Le scale ad intervalli permettono di stabilire non solo quali unità statistiche sono maggiori o minori di altre, ma stabilisce anche “di quanto” è la distanza tra esse (sono normalmente circoscritte a poche cose : scale di misurazione della temperatura, psicometriche, gradimento numerico).

 

Nelle scale di rapporti invece esiste lo zero assoluto ed è possibile calcolare i rapporti tra unità statistiche rispetto ai valori del carattere considerato.

 

 

CARATTERE
SCALA DI MISURAZIONE

Altezza

Rapporti

Peso

Rapporti

Età

Rapporti

Numero dei componenti

Rapporti

Reddito

Rapporti

Temperature

Intervalli

 

 

2-caratteri qualitativi o mutabili

 

I caratteri qualitativi si distinguono in ordinali e nominali o sconnessi : nel primo caso è possibile stabilire un ordine, nell’altro no.

 

 

CARATTERE
SCALA DI MISURAZIONE

Titolo di studio

Ordinale

Gradi militari

Ordinale

Sesso

Nominale

Colore degli occhi

Nominale

Disciplina sportiva

Nominale

Pratica religiosa

Nominale

 

 

CLASSIFICAZIONE DEI CARATTERI STATISTICI E LIVELLO DI MISURAZIONE.

 

statisticaCARATTERE
SCALA
OPERAZIONI CONSENTITE

Mutabile

Sconnessa

NOMINALE

= DIVERSO

Mutabile

Ordinabile

ORDINALE

< > = DIVERSO

Variabile

INTERVALLI

+ - = DIVERSO < >

variabile

RAPPORTI

* / + - < > = DIVERSO

 

 

I primi due caratteri sono qualitativi, gli altri due sono quantitativi. Più si scende nella scala e più sale il livello di qualità del dato.

 

 

Se la variabile (carattere quantitativo) può assumere tutti i valori dell’intervallo di definizione si dice CONTINUA (può assumere un numero infinito di modalità).

 

Se può assumere solo alcuni valori dell’intervallo si dice DISCRETA o DISCONTINUA.

 

  • ALTEZZA                                                  continua
  • PESO                                                       continua
  • COMPONEMTI NUCLEO FAMILIARE                 discreta
  • NUMERO PALAZZI DI UN QUARTIERE              discreta
  • POSTI A SEDERE DI UN CINEMA                    discreta

 


Distribuzioni statistiche.

 

Ordinare e classificare i soggetti secondo un certo criterio.

Le distribuzioni statistiche derivano dall’operazione di classificazione delle unità considerate secondo le modalità di uno o più caratteri.

 

Se si riferisce ad un solo carattere la distribuzione statistica si definisce SEMPLICE.

Se si riferisce a 2, 3,….N caratteri allora la distribuzione statistica si definisce DOPPIA, TRIPLA,…MULTIPLA.

 

Se il carattere considerato è qualitativo la distribuzione statistica si chiama anche SERIE STATISTICA.

Se il carattere è quantitativo allora si parla di SERIAZIONE STATISTICA.

 

FREQUENZA ASSOLUTA è il numero di unità statistiche che presentano la stessa modalità

 di un carattere

 

FREQUENZA RELATIVA  è il rapporto tra le frequenze assolute e il numero totale di unità

 statistiche considerate.

 

 

DISTRIBUZIONE DI FREQUENZA SECONDO IL SESSO DI 50 SOGGETTI

SESSO

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

Maschi (M)

23

0.46

Femmine (F)

27

0.54

                           totale

50

1.00

 

 

Sesso = carattere statistico

M –F = modalità del carattere statistico

23 = numero delle unità che presentano la modalità M del carattere statistico sesso (frequenza assoluta)

0.46 = numero delle unità che presentano la modalità M del carattere statistico sesso diviso il totale dei soggetti

 

 

17 marzo 2004

 

Uno degli obiettivi di questa disciplina è quello di estrarre e sintetizzare le informazioni da una massa di dati che altrimenti sarebbe scarsamente interpretabile.

Questo è un altro esempio di come mettendo sottoforma tabellare un insieme di dati che sono stati raccolti in precedenza si possono trarre delle prime informazioni sul fenomeno che si sta studiando.

 

STATO CIVILE PERSONA DI RIFERIMENTO

NUMERO FAMIGLIE

FREQUENZA %

Celibi/nubili

551.121

15.1

Coniugati/e

2.258.375

61.8

Separati/e

114.870

3.1

Divorziati/e

103.555

2.8

Vedovi/e

625.033

17.1

TOTALE

3.652.954

100.0

 

Questo è tratto dal censimento della popolazione 2001 ed è il numero di famiglie distribuite secondo lo stato civile. Come vedete risultano coniugati la maggioranza delle famiglie che sono stati sottoposti a censimento. Il numero di famiglie si chiama frequenza assoluta. Come abbiamo visto ieri risulta più utile ricorrere alle frequenze relative.

La frequenza relativa si intende la frequenza assoluta divisa per il totale. Si fa questa operazione perché prendendo ogni frequenza assoluta relativa a ciascuna modalità e rapportandola al totale si indica immediatamente il peso che ha quella modalità sull’insieme del fenomeno. In questa tabella vediamo che coniugati /e è lo stato civile più diffuso. Poi seguono i vedovi, i celibi ecc. però non abbiamo immediatamente il senso di quanto i coniugati siano più pesanti rispetto ai separati per esempio. Facendo le frequenze percentuali (551.121 : 3.652.954 = 0.15 x 100 = 15,1) lo dividiamo per 100 per evitare questo fastidioso 0 che si ripete. Quindi vediamo immediatamente che i coniugati sono non solo superiori ma rappresentano più del 50% quasi i  2/3 della famiglie censite. I celibi rappresentano il 15% di tutte le famiglie censite.

 

Tabella successiva.

Num ord.

Sesso

Altezza

Peso

Colore occhi

Titolo di studio

Num.comp. familiare

Possesso computer

Classe di reddito

1

M

 

 

 

L

3

SI

Fino a 30

2

M

 

 

 

D

2

SI

Da 30 a 50

3

F

 

 

 

D

4

SI

Fino a 30

4

M

 

 

 

D

5

NO

Da 50 a 70

5

 

 

 

 

M

2

NO

Oltre 70

6

 

 

 

 

L

4

SI

 

7

 

 

 

 

M

1

NO

 

8

 

 

 

 

 

1

NO

 

9

 

 

 

 

 

3

SI

 

10

 

 

 

 

 

2

 

 

 

Abbiamo rilevato su 10 soggetti sesso, altezza, peso, colore occhi, titolo di studio conseguito, numero componenti nucleo familiare, se hanno il computer a casa, classe di reddito conseguita nell’ultimo anno.

 

  • carattere sesso è un carattere di tipo qualitativo sconnesso, non ordinabile o nominale.
  • carattere altezza espresso in centimetri è un carattere quantitativo su scala di rapporti ed è continuo nel senso che può assumere qualunque valore nell’ambito di un intervallo.
  • carattere peso espresso in chilogrammi è lo stesso tipo del precedente.
  • colore degli occhi è anche questo un carattere qualitativo, nominale (non è possibile dare un ordine logico) sconnesso.
  • Titolo di studio conseguito è un carattere qualitativo di tipo ordinabile (è possibile mettere in sequenza l’insieme delle modalità che contraddistinguono questo carattere).
  • Il numero di componenti la famiglia è un carattere quantitativo, discreto (può assumere soltanto alcuni valori nell’ambito di un intervallo, in questo caso può assumere soltanto valori interi).
  • Possesso di un computer è un carattere qualitativo di tipo sconnesso, nominale esattamente come il sesso.

Quando un carattere prevede solo 2 modalità “si o no” o “maschio o femmina” si chiama carattere DICOTOMICO.

  • Classe di reddito. Questa particolare tipologia di caratteri nascono raggruppati in classi. Quei caratteri quantitativi (quando ci sono parecchie modalità che si sono verificate nella rilevazione) è possibile raggruppare queste modalità in classi. In questo caso già di per se la variabile nasce già suddivisa in classi perché quando andiamo a fare delle interviste su argomenti delicati cerchiamo di formire un minimo di anonimato. Non c’è la domanda diretta “quanto guadagni l’anno?” ma una domanda meno diretta.

 

Se la distribuzione fosse composta da più soggetti (es.1000) bisognerebbe trovare il modo di rendere le informazioni più visibili, più immediate. Ad esempio rispetto al carattere sesso se noi siamo interessati a vedere questo carattere di quei 10 soggetti nel dettaglio ci costruiamo una distribuzione di frequenza rispetto al carattere “sesso”. Prendiamo le 2 modalità, contiamo (6 maschi e 4 femmine) vediamo la frequenza relativa e quella percentuale e si ha l’indicazione su come è composto quell’insieme.

 

DISTRUBUZIONE DI FREQUENZA SECONDO IL CARATTERE SESSO DI 10 SOGGETTI

 

SESSO

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

FREQUENZE RELATIVE PERCENTUALI

MASCHI

6

0,6

60

FEMMINE

4

0.4

40

TOTALE

10

1,00

100

 

 

Stesso discorso vale per quanto riguarda il numero di componenti del nucleo familiare. Se sono interessato a vedere come sono composte le famiglie dei soggetti che ho intervistato posso costruire una distribuzione di frequenza sotto il profilo del carattere “numero di componenti del nucleo familiare”

 

DISTRIBUZIONE DI FREQUENZA SECONDO IL CARATTERE NUMERO DI COMPONENTI DEL NUCLEO FAMILIARE DI 10 SOGGETTI

NUM. COMPONENTI

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

FREQUENZE RELATIVE PERCENTUALI

FREQUENZE RELATIVE CUMULATE

1

2

0,2

20

20

2

3

0,3

30

50

3

2

0,2

20

70

4

2

0,2

20

90

5

1

0,1

10

100

TOTALE

10

1,00

100

 

 

Passando alle frequenze relative vediamo che il caso più frequente è quello di una coppia (dato che non avremmo visto guardando solo la tabella dei numeri).

 

Quella che segue è invece una tabella sull’ultimo carattere “classe di reddito” quantitativo che nasce già diviso in classi e ci consente di evidenziare con che frequenza si presentano i redditi che sono stati dichiarati.

 

DISTRIBUZIONE DI FREQUENZA SECONDO IL CARATTERE CLASSE DI REDDITO DI 10 SOGGETTI

CLASSE DI REDDITO

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE PERCENTUALI

FREQUENZE RELATIVE CUMULATE

FINO A 30

3

30

30

DA 31 A 50

2

20

50

DA 51 A 70

4

40

90

OLTRE 70

1

10

100

TOTALE

10

100

 

 

Vediamo nella prima colonna che la classe più folta di redditi è quella che va da 51 a 70 milioni in cui la frequenza relativa costituisce il 40% del totale. E’ la classe che pesa di più in confronto alle altre. Quasi la metà dei soggetti intervistati ha dichiarato di prendere tra 51 e 70 milioni l’anno. In aggiunta alle frequenze relative ci sono le FREQUENZE RELATIVE CUMULATE. La frequenza cumulata è semplicemente cumulare alla frequenza attuale la frequenza successiva. Esempio la prima frequenza cumulata è 30 pari alla prima frequenza relativa percentuale; per la classe successiva si somma 30 a 20 che è la seconda frequenza relativa percentuale e si scrive 50 sulla seconda riga della colonna delle frequenze cumulate. Poi si somma la modalità 50 alla modalità 40 che è la terza della colonna frequenze relative percentuali e così via. L’ultima modalità sommata alla precedente mi deve dare un valore che deve coincidere al totale delle frequenze relative percentuali.

Tutto questo serve per dare un’ulteriore indicazione sulla base delle frequenze con cui si presentano le modalità dei caratteri che stiamo studiando per dare un’ulteriore indicazione sulla ripartizione di quel carattere. Ad esempio alla modalità 90 della colonna frequenze relative cumulate io posso dire che il 90% delle persone intervistate ha un reddito che va da 0 a 70 milioni. Oppure la seconda riga della colonna frequenze relative cumulate indica che il 50% delle persone intervistate ha dichiarato un reddito che va da 0 a 50 milioni.

 

Altezza, peso, età sono altre variabili che vengono suddivise in classi per l’elevato numero di modalità che frequentano e per il rischio di perdere di vista la sintesi dell’informazione. Ad esempio rilevando 100 altezze e volendo fare una sintesi, ci accorgiamo che le modalità con cui si presenta il carattere altezza sono 50, inferiori al N totale delle rilevazioni che abbiamo fatto ma sono talmente tante da non poterci garantire la comprensione immediata di quello che sta accadendo. Avendo raccolto 100 altezze vengono ordinate e si costruiscono delle classi. In questo modo si perdono delle informazioni ma nello stesso tempo riduco drasticamente il numero di modalità e ottengo una tabella con al massimo 7, 8 modalità che mi permettono di poter dire qualcosa sul tipo di fenomeno.

 

 

 

ALTEZZA

 

 

 

 

 

1

170

 

 

 

 

 

2

173

 

 

170├ 173

1

 

3

173

 

 

 

 

 

4

176

 

 

173├ 176

3

 

5

182

 

 

 

 

 

6

173

 

 

176├ 190

5

 

7

180

 

 

 

-------------

 

8

179

 

 

totale

9

 

9

178

 

 

 

 

 

 

In questa tabella la modalità 170 ha 1 soggetto; la modalità 173 ha 3 soggetti ecc., quindi ci sono tante modalità con poche frequenze che lo rappresentano.

A questo punto costruisco delle classi (il segno ├ vuol dire carattere destro escluso cioè non fa parte di quella classe) 170 ├ 173; 173 ├176; 176 ├ 190.

Nella prima classe c’è un solo soggetto, nella seconda ce ne sono 3 e nella terza ce ne sono 5. Abbiamo costruito una distribuzione di frequenza in cui le modalità non sono più le singole modalità che ho rilevato ma una classe che contiene diverse modalità. Questa operazione anche se mi fa perdere delle informazioni è utile quando ci sono troppe modalità rilevate diverse tra loro. I dati in questo modo sono più interpretabili.

 

COME SI COSTRUISCONO LE CLASSI

  • In ogni classe devono essere rappresentati un congruo numero di soggetti. Le classi devono essere di ampiezza tale da far si che all’interno ci sia un numero sufficientemente elevato ma non troppo elevato di casi in cui rientra.
  • Ogni classe deve essere di uguale ampiezza.

 

Si ricorre alla suddivisione in classi quando le modalità rilevate del carattere sono troppo numerose.

 

Obiettivo: definire delle classi in modo preciso e non ambiguo in modo che ogni unità statistica rilevata possa essere attribuita con certezze ed 1 ed 1 sola classe.

 

COME SI PROCEDE

  • individuare il minimo ed il massimo valore assumibile dal carattere (di una modalità)

dopodiché si va a

  • determinare il numero e l’ampiezza delle classi

 

Questa operazione si può fare solo con caratteri QUANTITATIVI o con caratteri QUALITATIVI ORDINABILI.

 

CONDIZIONI DA RISPETTARE

  • CONTINUITA’ delle classi tutti i possibili valori compresi tra il minimo ed il massimo (dell’intervallo) devono poter essere assunti; le classi devono essere continue non devono esserci buchi tra le classi.
  • CONTIGUITA’ delle classi non vi devono essere sovrapposizioni fra l’esterno superiore di 1 classe e l’estremo inferiore della classe successiva.

 

Esempio:

170 │-----------│175

In questo caso non si sa se il valore 174 appartiene alla 1° o alla 2° classe. Non ci può essere una situazione di questo genere, ma deve essere sempre in questo modo

│-----------│------------│

170          174             178

 

174 │-----------│178

 

 

  • INCLUSIONE o ESCLUSIONE degli estremi della classe. Se il carattere è continuo è possibile includere 1 solo degli estremi (quello superiore o quello inferiore).

 

Esempio:

Abbiamo rilevato le seguenti altezze di 1 gruppo di 10 soggetti e le doppiamo raggruppare in classi.

164

192

182

170

173

168

174

163

173

175

 

1. Per prima cosa le mettiamo in ordine crescente

163

164

168

170

173

173

174

175

182

192

Queste sono le modalità.

2. Si deve calcolare il CAMPO DI VARIAZIONE (la differenza tra il massimo ed il minimo valore rilevato).

192 – 163 = 30 (sarebbe 29+1 perché si considera anche il 163)

 

3. Determiniamo il numero e l’ampiezza delle classi ( per esempio 3 di uguale ampiezza =10)

 

4. Indichiamo la INCLUSIONE o ESCLUSIONE degli estremi nelle classi formate

├── incluso l’estremo SX (inferiore) CHIUSE A SX

 

──┤ incluso l’estremo DX (superiore) CHIUSE A DX

 

├──┤ inclusi i 2 estremi (superiore ed inferiore)

 

──── esclusi i 2 estremi

 

 

DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE CLASSI DI ALTEZZA

Classi di altezza in cm (chiuse a sinistra)

Frequenza assoluta

Frequenza relativa

Frequenza relativa %

Ampiezza classi

163 ├── 173

4

0.4

40

10

173 ├── 183

5

0.5

50

10

183 ├── 193

1

0.1

10

10

TOTALE

10

1

100

30

 

Abbiamo diviso 3 classi di uguale ampiezza con l’estremo sx chiuso e l’estremo dx aperto. Prima di tutto a queste modalità attacchiamo le rispettive frequenze. Ci sono 4 soggetti da 163 a 172,9; 5 soggetti da 173 a 182,9 e 1 soggetto da 183 a 192,9. La prima cosa da fare è la somma la quale se non risulta uguale al totale delle nostre rilevazioni c’è un errore da qualche parte. Accertato che non ci siano errori si procede a trovare le frequenze relative. La classe che presenta maggiore frequenza è quella da 173 a 183 con il 50% dei casi.

L’ampiezza delle classi non si mette mai ma in questo caso è per dimostrare l’esempio.

 

Usualmente si mettono classi di uguale ampiezza ma possiamo anche decidere di costruirci degli intervalli di ampiezza diversa secondo le nostre esigenze se ci sono delle classi più rappresentative per il tipo di studio che stiamo conducendo e ci servono delle ampiezze più ampie o più piccole.

 

DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE CLASSI DI ALTEZZA

Classi di altezza in cm (chiuse a sinistra)

Frequenza assoluta

Frequenza relativa

Frequenza relativa %

Ampiezza classi

163 ├── 173

4

0.4

40

10

173 ├── 176

4

0.4

40

3

176 ├── 193

2

0.2

20

17

TOTALE

10

1

100

30

 

C’è una classe di ampiezza più piccola. Abbiamo deciso di farla così perché è la classe che ci interessa di più ed in cui ci sono maggiori frequenze percentualmente e ci permette di fare maggiori considerazioni. Le classi precedente e successiva hanno ampiezza decisamente più ampia (una di 10 e l’altra di 17) perché sono classi che ci interessano di meno.

 

Fino qui abbiamo visto caratteri di tipo continuo. Vediamo caratteri discreti (numero componenti nucleo familiare, numero di appartamenti, numero di fabbriche in un territorio ecc.) che possono essere contati uno per uno ed assumono un numero finito di valori nell’ambito di un intervallo.

 

Supponiamo di aver fatto una rilevazione su 10 famiglie ed abbiamo verificato quanti componenti ci sono all’interno di ognuna.

 

1

2

3

4

5

6

7

8

9

10

Unità

2

1

4

2

2

3

3

5

5

2

componenti

 

Mettiamo la rilevazione in ordine crescente

2

1

4

5

10

6

7

3

8

9

Unità

1

2

2

2

2

3

3

4

5

5

componenti

 

Calcolo il CAMPO DI VARIAZIONE (la differenza tra il massimo ed il minimo valore rilevato)

5-1=5 (4+1).

 

Dividiamo in 2 classi di ampiezza diversa perché il campo di variazione è dispari.

Una classe va da 1 a 3 e l’altra da 4 a 5. In questo caso conviene fare classi chiuse a sx e a dx. Sono contigue, tra 3 e 4 non c’è niente e sono carattere discreti. Fino a 5 perché nell’intervista è stato specificato che il massimo numero di componenti del nucleo familiare è 5.

 

DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE NUMERI COMPONENTI NUCLEO FAMILIARE

CLASSI CHIUSE

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

FREQUENZE RELATIVE %

AMPIEZZA CLASSI

1├──┤3

7

0.7

70

3

4├──┤5

3

0.3

30

2

TOTALE

10

1

100

5

 

 

Potrei anche costruirmi delle classi chiuse a sx ed aperte a dx rispettando la distribuzione che ho.

 

DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE NUMERI COMPONENTI NUCLEO FAMILIARE

CLASSI APERTE A DX

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

FREQUENZE RELATIVE %

AMPIEZZA CLASSI

1├── 4

7

0.7

70

3

4├── 6

3

0.3

30

2

TOTALE

10

1

100

5

 

Comunque anche se si dicono le cose in maniera diversa la distribuzione è la stessa.

 

 

TABELLE DOPPIE E MULTIPLE

 

Abbiamo visto la tabella semplice in cui c’è un carattere riportato su varie modalità e in cui contiamo le frequenze. Ci sono diversi modi di presentare diversi caratteri relativi agli stessi soggetti, alle stesse unità statistiche per mettere in un’unica tabella una serie di informazioni.

 

REGIONE

PIL PRO CAPITE

SPESA PRO CAPITE PER SPETTACOLI

Questa tabella (non l’ho trascritta tutta) che si chiama tabella doppia, riporta per una serie di Regioni due diverse informazioni il prodotto interno lordo pro capite e la spesa pro capite per spettacoli. Riporta 2 informazioni abbastanza diverse che possono essere utile per chi le esamina per fare le sue considerazioni. Per ciascun individuo, unità statistica vengono riportate una affianco all’altra una serie di informazioni anche completamente diverse come materia. Queste si chiamano le tabelle doppie o multiple a seconda se ci sono più colonne.

 

Diverso il caso in cui io metto in diretta relazione 2 caratteri. Supponiamo che abbia rilevato diversi dati ad esempio titolo di studio e classe di reddito. Voglio studiare contemporaneamente come si presentano le modalità di titolo di studio e le modalità classe di reddito. Non mi limito a guardare semplicemente come si presenta o la classe di reddito o il titolo di studio, ma li voglio vedere in contemporanea. Per esempio voglio vedere quanti sono i soggetti che hanno scuola media superiore come titolo di studio e guadagnano tra 30 e 50 milioni.

Costruisco una tabella a doppia entrata. Supponiamo di avere due caratteri statistici qualunque e li chiamiamo A e B. Il carattere A può assumere certe modalità che chiameremo A1, A2,…..Ar , (il numero indica la modalità es. titolo di studio 1= media; 2=diploma; 3=laurea). Lo stesso dicasi per il carattere B che vede come ultima modalità Bs perché le modalità sono diverse da A (che ne ha 3 mentre B nel caso del reddito ne ha 4).

Nella tabella metto sulla testata le modalità di un dei due caratteri, in questo caso B, e sulla fiancata le modalità dell’altro carattere A.

 

A B

b 1

b 2

---------

b j

---------

b s

Totale riga

a 1

n 1 1

n 1 2

 

n 1 j

 

n 1 s

n 1.

a 2

n 2 1

n 2 2

 

n 2 j

 

n 2 s

n 2.

--------

 

 

 

 

 

 

 

a i

n i  1

n i 2

 

n i j

 

n i s

n i..

--------

 

 

 

 

 

 

 

a r

n r 1

n r 2

 

n r j

 

n r s

n r.

TOTALE

n .1

n . 2

----------

n . j

----------

n .s

n .. (N)

 

n sono le frequenze cioè i numeri con cui si presentano i soggetti che abbiamo intervistato che presentano la modalità A e B contemporaneamente.

Ad esempio n11 sono i soggetti che presentano la modalità 1 del carattere A e la modalità 1 del carattere B

In fondo a ciascuna riga ci sono delle n indicate con 1 seguito da un puntino ed è il numero di soggetti intervistati che presentano la modalità A1 e non ci interessa di quali modalità assume del carattere B. Cioè per esempio ci saranno i soggetti ch hanno un reddito fino a 30 milioni a prescindere dal titolo di studio che hanno conseguito.

La seguente tabella mostra le frequenze doppie cioè dei soggetti che presentano contemporaneamente una particolare modalità del carattere CLASSE DI REDDITO ed una particolare modalità del carattere TITOLO DI STUDIO.

 

TITOLO DI STUDIO

M

D

L

AMPIEZZA CLASSE

CLASSE DI REDDITO

 

 

 

 

Fino a 30

1

1

1

3

Da 31 a 50

 

1

1

2

Da 51 a 70

 

2

2

4

Oltre 70

1

 

 

1

Totale colonna

2

4

4

10

 

 

 

 

 

                                                                                              25/03/2004

 

Un’informazione più è sintetica più è comprensibile.

 

Il modo corretto per approcciare i dati è :

  • costruire distribuzioni di frequenza
  • fare dei grafici
  • (il modo più preciso) individuare un indicatore di sintesi che si chiama media.

 

 

statisticastatistica Analitiche (caratteri quantitativi)

Medie

statistica                    Lasche, non analitiche o di posizione (caratteri qualitativi)

 

Media aritmetica: individua il valore rappresentativo (centrale) di un carattere.

Bisogna però anche tener conto di come questo valore si spalma rispetto a tutte le unità statistiche in esame; per questo scopo esistono degli indici:

statisticastatistica                                     

 

                   INDICI DI

                  VARIABILITà

         (variabili quantitative)                            INDICI DI MUTABILITà      

                                                                  (caratteri qualitativi)

 

                  

 

VARIABILITA’

 

Variabilità: Attitudine di un carattere di assumere diverse modalità.

 

Esempio:                DISTRIBUZIONE:      A        5  7  8  4  6   M=6

                                                        B        6  6  6  6  6   M=6

 

Nei due casi la media è sempre 6 ma nel secondo caso non c’è variabilità.

Nel primo, la diversa attitudine che può assumere il carattere, viene misurata con indicatori o indici.

Nel caso in cui, fossero sottoposte a studio statistico due popolazioni molto ampie, per descriverle sinteticamente ci riferiremmo non solo al valore medio, ma anche all’indice di variabilità per vedere la concentrazione delle modalità (su una delle due delle popolazioni ci potrebbe essere più variabilità).

 

 

Costruzione degli indici

 

Tutti gli indici di variabilità o mutabilità, devono soddisfare alcuni requisiti formali di coerenza.

 

  • quando la variabilità e nulla, l’indice di variabilità deve assumere valore 0
  • l’indice di variabilità deve aumentare all’aumentare della variabilità
  • l’indice di variabilità non può assumere valori negativi (la variabilità o c’è o non c’è)
  • L’indice di variabilità non si deve modificare se tutte le frequenze vengono moltiplicate o divise per una costante.

 

Ci sono migliaia di modi per costruire un indice di variabilità; Uno che negli anni ha resistito e che tuttora è ampiamente utilizzato è lo scarto quadratico medio (s. q. m.).

 

                  

 

 

LO SCARTO QUADRATICO MEDIO.

 

                            statistica

statistica                   s =

                                         N

 

         con

statistica                   N =    statistica 

                    

                            i = 1

 

 

Scarto = faccio la somma degli scarti di ciascuna modalità con la media  

              aritmetica.

Quadratico = perché gli scarti sono elevati al quadrato.

Medio = perché facendo la somma degli scarti al quadrato poi si fa la media 

              (divido per N).

 

Quella presentata è la formula più generica: moltiplico la somma degli scarti per la frequenza con cui si presenta la modalità. 

 

s = (sigma minuscolo) indica lo scarto quadratico medio.

statistica = frequenza delle modalità; (nel caso di modalità che si presentano con una sola frequenza n(base i) scompare).

statistica = è la modalità che si presenta con una certa frequenza.

 

S = simbolo di somma

K = numero delle modalità che si presentano.

N = totale della popolazione

 

Esempio

                   Età               Modalità                 Frequenza

statisticastatistica                     6                    6                             2

                     6                   

                     7                    7                             1

             n      8              k              8                             2

                     8

                     9                    9                             1

 

Ho 6 modalità, di ciascuna faccio lo scarto della media quadratica, lo moltiplico per il numero delle frequenze con cui la modalità si presenta e divido per n (numero totale della popolazione).

Se con un’operazione preliminare individuo la frequenza con cui si presentano le modalità, ottengo un numero k di modalità diverso da n.

Individuando la frequenza delle modalità, raggruppo le modalità e rendo più semplice il calcolo successivo.

 

La formula senza indice si chiama SIGMA QUADRATO o VARIANZA (usato fino a qualche anno fa soprattutto in Italia, oggi in disuso e sostituita dallo scarto quadratico medio).

                                      statistica

statistica                                     

                                               N       

 

Con la varianza indico la variabilità al quadrato, mentre con lo scarto quadratico medio indico la variabilità con numeri reali ed elimino “il quadrato” che da un’indicazione amplificata della variabilità.

L’indice di variabilità indica quanto si spalma mediamente il fenomeno in esame su diversi valori ed è espresso con la stessa unità di misura con cui è espresso il fenomeno.

 

                    VARIABILE PESO  (in kg)

 

statistica

statistica

52

2

56

1

59

1

60

1

74

1

76

1

81

3

Totale

10

 

Di cui viene calcolata la media aritmetica

        

                   M =    52*2 + 56*1 + 59*1 + 60*1 + 74*1 + 76*1 + 81*3         = 67.2

statistica                                                        10

 

Procedimento :  

    1. si calcolano i singoli scarti dalla media aritmetica
    2. si elevano gli scarti al quadrato e si moltiplicano per le rispettive frequenze
    3. si sommano le quantità ottenute al punto b e si divide la somma ottenuta per il totale delle frequenze
    4. si fa la radice quadrata di quanto ottenuto

 

 

statistica

statistica

statistica

(52 – 67.2)statistica  = 231.04

2

462.08

(56 – 67.2)statistica  = 125.44

1

125.44

(59 – 67.2)statistica = 67.24

1

67.24

(60 – 67.2)statistica = 51.84

1

51.84

(74 – 67.2)statistica = 46.24

1

46.24

(76 – 67.2)statistica = 77.44

1

77.44

(81 – 67.2)statistica = 571.32

3

571.32

(56 – 67.2)statistica = 125.44

10

1401.6

 

 

                            s = statistica

 

In media lo spostamento delle modalità dalla media aritmetica è di 11.8 kg (à il fenomeno ha questa variabilità).

Se fosse stato 0 avrebbe voluto dire che le modalità erano concentrate su un unico valore.

Questo indice è ASSOLUTO : il minimo vale 0 e cresce senza un massimo definito, dipende dal fenomeno in esame.

 

Proprietà della media aritmetica

         - La somma degli scarti dalla media aritmetica è sempre 0.

         - La somma degli scarti dalla media aritmetica costituisce un minimo.

 

                            statistica

 

                                   statistica

 

A è un numero diverso dalla media aritmetica.

 

Lo scarto della variabilità in questo modo indica non solo la variabilità media del fenomeno, ma la indica col numero più piccolo possibile, non c’è spreco.

 

Se i dati sono raggruppati in classi si prende come statistica il valore centrale di ciascuna classe.

 

 

Classe di reddito

statistica

statistica

statistica

--| 30

24 *

1

(24 - 64.1)statistica = 1608.10 * 1

30 --| 50

40

1

(40 - 64.1)statistica  = 580.81 * 1

50 --| 70

60

4

(60 - 64.1)statistica  = 16.81 * 4

70 --| 90

80

3

(80 - 64.1)statistica  = 252.81 * 3

oltre 90

97 *

1

(97 - 64.1)statistica = 1082.41 * 1

               

totale     

 

 

10

 

4096.9

 

 

                                      s = statistica

 

Come per la media nel caso di dati raggruppati in classi, lo s.q.m. NON è PRECISO.

 

Lo s.q.m. può essere calcolato più velocemente con la seguente formula :

 

                                      s = statistica

M = media aritmetica

statistica= media quadratica tutte le modalità sono elevate al quadrato e messe sotto radice (non ha utilizzo pratico, è utile solo per alcune formulazioni).

 

                                      statistica

statistica 


                                                         N

 

Come la media lo s.q.m. è espresso nella stessa unità di misura della variabile.

 

 

 

 

VARIANZA s.q.m. elevato al quadrato

 

                                      statistica

statistica                                     

                                                 N     

 

 

 

DEVIANZA numeratore della varianza

 

                                      Dev = statistica

 

Per la devianza vale un’importante proprietà, nota come

 

PRINCIPIO DI SCOMPOSIZIONE DELLA DEVIANZA

 

Dato un collettivo suddiviso in 2 o più gruppi, la devianza del collettivo (Dev T) è uguale alla somma delle devianze dei singoli gruppi (Dev W) più la devianza tra le medie dei gruppi (Dev B).

Ciascun termine della Dev B deve essere pesato con la numerosità del relativo gruppo.

 

T = totale

W = within (entro)

B = between (tra)

 

                     Dev(T) = Dev(W) + Dev(B)

 

 

Si ha un collettivo di 5 persone con la seguente distribuzione di reddito :

                            2        3        4        6        10

la media aritmetica è M = 5

 

e la devianza totale è

                   Dev(T) = (2 – 5)statistica + (3 – 5)statistica+ (4 - 5)statistica+ (6 - 5)statistica+ (10 - 5)statistica=40

 

Dividiamo il collettivo in 2 gruppi e siano le relative distribuzioni dei redditi le seguenti:

 

                   gruppo A       2        6        10

                   gruppo B       3        4

 

         per il gruppo A     statistica = 6

                                     

Dev statistica  = (2 – 6)statistica + (6 – 6)statistica + (10 – 6)statistica = 32

 

 

 

 

per il gruppo B     statistica= 3.5

                                     

Dev statistica  = (3 – 3.5)statistica + (4 – 3.5)statistica = 0.5

 

La Dev W complessiva sarà :  Dev W = Dev statistica + Dev statistica = 32.5

 

La devianza tra le medie dei due gruppi sarà:

 

                   DevB = (statistica - M)statistica * statistica + (statistica - M)statistica * statistica=

 

                              (6 – 5)statistica * 3 + (3.5 – 5)statistica * 2 = 7.5

                  

                   DevT = DevW + DevB = 32.5 +7.5 = 40 

 

 

31 marzo 2004

Abbiamo visto che quando abbiamo a che fare con un carattere di tipo QUANTITATIVO ci sono diversi modi per misurare la VARIABILITA’. E’ importante che quando usiamo un indice di variabilità (qualsiasi costruiamo) dobbiamo ricordare che la variabilità deve essere sempre = 0 quando non c’è variabilità, e che cresce al crescere della variabilità e può dare solo valori positivi perché la variabilità o c’è o non c’è, non può essere negativa.

Tra i tanti tipi di variabilità quello più utilizzato è lo S.Q.M. (scarto quadratico medio) ed è probabilmente quello che più corrisponde a quello che effettivamente si fa. Si chiama così perché è la somma degli scarti di ciascuna modalità della media aritmetica (scarto elevato al quadrato).

Se non abbiamo a che fare con un carattere quantitativo la cosa si complica un po’ per quanto riguarda la misura della variabilità o MUTABILITA’ (nel caso di caratteri qualitativi). Si ragiona più o meno come si fa con la media cioè con caratteri quantitativi utilizzeremo un indice, un indicatore quantitativo con cui si possono fare i conti (vedi SQM). Se abbiamo a che fare con caratteri qualitativi come abbiamo utilizzato mediane, quartili, percentili, mode, ecc. per calcolare un valore medio,  così per trovare la mutabilità che può assumere questo carattere utilizziamo degli indicatori che si rifanno all’ORDINE  o alla FREQUENZA del carattere.

E’ importante ricordare che quando si ha a che fare con caratteri qualitativi, ad esempio per trovare la moda o la mediana questo si può fare soltanto se questi caratteri hanno il requisito dell’ordinabilità altrimenti non è passibile di essere sottoposto a mediana o quartile o percentile (modalità che divide in N parti la distribuzione ordinata).

 

DIFFERENZA INTERQUARTILICA

 

E’ una misura di MUTABILITA’ usata nei casi in cui si ha a che fare con caratteri qualitativi ordinabili. Come per lo scarto quadratico medio noi ci agganciamo alla media aritmetica per vedere la variabilità che c’è, nel caso di caratteri qualitativi ordinabili ci agganciamo al concetto di percentile. Invece di fare gli scarti con la mediana, possiamo utilizzare dei punti di riferimento per vedere quanta parte di distribuzione cade tra questi punti di riferimento. Si può vedere che tra il minimo valore più piccolo ed il più grande abbiamo il 100% dei casi, la totalità della popolazione.

Prendiamo il campo di variazione che ci permette di avere l’informazione maggiore, cioè tra il 1° quartile (è la modalità che lascia alla sua sinistra tutte le modalità più piccole o uguali a se stessa) e il 3° percentile (lascia alla sua sinistra il 75% di modalità inferiori o uguali a se stessa). Così individuiamo lo spazio dove va a cadere il 50% dei casi centrali. Questo di dice quanto è concentrato quel fenomeno, nella parte centrale della distribuzione. Lo S.Q.M. per i caratteri quantitativi ci da un’indicazione di quanto è concentrata quella distribuzione intorno alla media. In mancanza di un valore medio analitico (numero) intorno al quale misurare la variabilità media, l’unico modo che abbiamo per vedere se questa distribuzione è concentrata o meno nel punto centrale è quello di prendere i 2 quartili (1° e 3°) e fare la differenza (75% e 25%) e viene fuori il 50% dei casi che sono concentrati nella zona centrale. Più le modalità sono simili e più è concentrata la distribuzione, viceversa più sono diverse tra loro e meno sono distribuite nel campo centrale.

ESEMPIO CARATTERE QUANTITATIVO

 

STATURE

FREQ.

FREQ.CUM.

150

1

1

155

3

4

160

6

10

163

1

11

165

4

15

170

6

21

175

4

25

 

25

 

 

Come nel caso della mediana, percentili, che può essere usata anche per caratteri quantitativi così la differenza interquartilica può essere usata anche per caratteri quantitativi. Abbiamo rilevato la statura di 25 soggetti e costruito la distribuzione di frequenza in cui ci sono le frequenze cumulate. Individuiamo qual è la posizione del 1° e del 3° quartile.

Q1 = 1*N/4 = 25/4 = 6,25                 sta tra quelli che misurano cm 160

Q3 = 3*N/4 = 3*25/4 = 18,75           corrisponde a cm 170

170 – 160 = 10

La differenza tra le modalità che corrisponde al 3° quartile e la modalità che corrisponde al 1° quartile è 10 centimetri. Sulla base di quanto fatto fino qui posso affermare che il 50% della popolazione presenta una altezza compresa tra 160 e 170 centimetri con una variabilità (o dispersione) di 10 centimetri. Se fosse stata una misura tra 180 e 160 il 50% della popolazione tra il 1° e 3° quartile avrebbe presentato una dispersione maggiore, cioè di un numero maggiore di modalità.

 

Prendiamo un carattere di tipo qualitativo ordinale “titolo di studio”. Abbiamo rilevato 16 soggetti

TITOLO DI STUDIO

FREQ.ASS.

FREQ.CUM.

Elementare

1

1

Medie

3

4

Superiori

6

10

Laurea

2

12

Dottorato di ricerca

4

16

 

16

 

Abbiamo trovato le frequenze cumulate; poi la posizione che occupa il 1° quartile

Q1 = 1*N/4 = 16/4 = 4          corrisponde alla scuola media

Q3 = 3*N/4 = 3*4 = 12         corrisponde alla laurea

Possiamo dire che il 50% della popolazione ha un titolo di studio tra la media e la laurea. Si può dire che c’è una contenuta variabilità tra i titoli di studio. Questa misura non essendo frutto di procedimento analitico (non ci sono calcoli) è un po’ grezza ma nel caso dei caratteri qualitativi ordinabili è l’unico strumento che abbiamo.

In pratica la DIFFERENZA INTERQUARTILICA è una misura delle modalità che mi serve per cercare di individuare la variabilità all’interno di una distribuzione dove le modalità sono di carattere qualitativo ordinale. Può esserci utile, come abbiamo visto per le medie di posizione, anche in qualche caso quando abbiamo a che fare con carattere di tipo quantitativo in cui per avere una indicazione migliore della variabilità può essere utile anche calcolare la differenza interquartilica.

Se invece abbiamo a che fare con dei caratteri qualitativi nominali non possiamo avvalerci di misure legate alla mediana o ai quartili. L’unica cosa a cui possiamo aggrapparci è la frequenza con cui si presenta una modalità cioè alla MODA.

Per calcolarci una misura di variabilità in caso di carattere qualitativi ordinali si ricorre ad una categoria particolare di indicatori che si chiamano INDICI DI ETEROGENEITA’, sono indici  che ci indicano quanto il fenomeno è eterogeneo. Maggiore è il valore che assumono e maggiore è l’eterogeneità e minore l’omogeneità.

Devono soddisfare le seguenti condizioni:

  • Essere uguali a 0 solo se il collettivo è OMOGENEO rispetto al carattere considerato
  • Crescere all’aumentare della ETEROGENEITA’ fra le modalità
  • Assumere solo valori maggiori o uguali a 0 (non può essere negativo)

 

Ne esistono molti ma ne vediamo uno tra i più usato: l’indice S di Gini che si costruisce in questo modo:

statistica

1 meno la sommatoria per i che va da 1 a P delle n con i diviso N dove “n” sono il numero delle frequenze di “i” modalità che sono previste, N sono le frequenze totali.

 

  • C’è massima OMOGENEITÀ quando le frequenze sono concentrate su un’unica modalità. Quindi ni vale sempre “0” quando vale N, per cui la quantità assume valore 1 quindi 1 – 1 = 0               ni = N
  • Si avrà massima ETEROGENEITA’ quando le frequenze saranno spalmate su tutte le modalità.

 

Supponiamo di avere 3 colori bianco, verde giallo

BIANCO

VERDE

GIALLO

TOTALE

3

5

2

10

0

0

10

10

Nel secondo caso il collettivo è più omogeneo perché presenta un unico colore rispetto al primo. Man mano che la distribuzione dei vari colori si spalma sulle varie modalità diventa più eterogeneo rispetto ai colori. Nel caso che tutte le frequenze siano “0” ed una sola prende tutte le frequenze del collettivo ni = 10 che diviso N 10 = 1. Quindi nel caso che il collettivo presenti OMOGENEITA’ rispetto a quel carattere l’indice assume valore “0”.

 

n1=n2=………….=np=N/P

 

Nel caso di massima eterogeità l’indice S sarà:

statistica

 

L’S di Gini è un indice assoluto di eterogeneità basato sempre sulle frequenze però non presenta il massimo dei valori. Se noi lo agganciamo al precedente che è il massimo abbiamo un indice relativo di eterogeneità:

l’indice relativo (di eterogeneità) sarà pertanto: statistica

ESEMPIO

 

COLORE OCCHI

 

 

X

n

ni/N

Azzurri

2

1/5

Castani

3

3/10

Neri

3

3/10

Verdi

2

1/5

 

10

 

 

Sono 10 soggetti. Divido le varie frequenze per il totale (ni/N).

 

statisticastatistica 

 

questo 0,74 è il valore di indice assoluto di eterogeneità.

 

Il massimo (in questo caso abbiamo 4 classi) e diventa 1 meno un quarto

 statistica

poi dividiamo

statistica che è l’indice molto elevato di eterogeneità. Questo corrisponde a quello che abbiamo davanti perché le frequenze non sono disuguali per tutte le classi ma sono molto simili quindi siamo molto vicini alla massima eterogeneità.

Per semplificare se abbiamo 4 modalità ed 8 casi per avere il massimo di eterogeneità dovremmo avere 2 casi per ogni modalità. Nel caso di massima eterogeneità vediamo che il massimo è dato da

statistica

se rapporto il mio indice che ho costruito prima e che deve essere assoluto lo rapporto al massimo, lo relativizzo,diventa un indice relativo che mi varierà tra 0 ed 1.

  • Quindi più il valore si avvicina ad 1 e più saremo in condizioni di eterogeneità
  • Più si avvicina a 0 e più avremo condizioni di omogeneità

 

 

RAPPORTI STATISTICI

Si parla di caratteri quantitativi. Si indica “rapporto” perché si mettono a confronto 2 quantità di 2 variabili. Per fare questo confronto possiamo utilizzare:

  • la loro differenza (si può fare con caratteri quantitativi misurabili su scala di intervalli – il carattere non possiede lo zero assoluto -

X-Y

 

  • il loro rapporto (per tutti gli altri tipi di caratteri quantitativi)

statistica

 

Se noi facciamo con gli stessi caratteri due raffronti diversi facendo la loro differenza o il loro rapporto i risultati possono dare delle informazioni molto diverse.

 

 

Punti

Reti fatte

Reti subite

Fatte-subite

Fatte/subite

SQUADRA A

15

24

8

16

3

SQUADRA B

15

40

20

20

2

 

Prendiamo 2 squadre di calcio. Mettiamo i punti in classifica e le reti fatte e subite. Facendo la differenza tra reti fatte e reti subite otteniamo una prevalenza della squadra B sulla squadra A. Se invece facciamo il loro rapporto vediamo che la situazione si inverte. Le informazioni possono essere ben diverse.

Della differenza non ci occupiamo più e ci occupiamo solo di RAPPORTI.

Un rapporto statistico è un quoziente tra 2 termini tra i quali esiste un legame logico e può essere utilizzato per comparazioni sia spaziali che temporali. Siccome metto a confronto queste due quantità posso utilizzare questo confronto per fare delle valutazioni per distribuzioni nel tempo (tra un periodo ed un altro) oppure nello spazio (da uno stato all’altro, da una regione all’altra). Ci sono molti modi di mettere in relazione dei dati. Si usa classificare i rapporti statistici secondo il legame logico che esiste tra le modalità che vengono messe in rapporto l’una all’altra.


 

CLASSIFICAZIONE DEI RAPPORTI STATISTICI SECONDO IL LEGAME LOGICO ESISTENTE FRA NUMERATORE E DENOMINATORE

A – RAPPORTI CHE SI SEMPLIFICANO

Danno luogo ad un concetto analogo a quello espresso da uno dei due termini.

 

  • Rapporti medi
  • Numeri indice
  • Rapporti di coesistenza
  • Rapporti di composizione
  • Rapporti di derivazione

 

B- RAPPORTI CHE SI RISOLVONO

Danno luogo ad un concetto diverso da quello espresso dai 2 termini del rapporto.

 

1) Rapporti di durata

2) Rapporti di ripetizione

 

A- Rapporti che si semplificano.

La scelta del denominatore viene fatta in relazione al significato più logico che si vuole attribuire al rapporto.

 

A.1. I rapporti medi.

Quando noi andiamo a fare una Media mettiamo in relazione tutte le modalità. Mettiamo al numeratore la quantità del carattere che si sta studiando ed al denominatore la numerosità del collettivo al quale viene riferito il carattere che stiamo studiando. Per esempio se stiamo studiando il reddito lo riferiamo al collettivo a cui ci stiamo riferendo e quindi avremo un rapporto Medio. Il concetto che viene fuori è analogo al numeratore, cioè il reddito medio sarà il reddito.

Prendiamo per esempio il carattere “numero di laureati”.

  • numero laureati in Italia in un anno accademico
  • collettivo di riferimento :
    • totale università italiane
    • popolazione di una regione

Se facciamo un rapporto tra il carattere A e B i) otteniamo un numero (sempre di laureati) che indica quanti laureati si sono registrati mediamente nelle università italiane.

Se invece lo rapportiamo alla popolazione di una regione otterremo sempre un numero medio di laureati ma rispetto all’unità geografica regione.

 

Quando sentiamo parlare di reddito medio pro capite abbiamo un reddito diviso per tutta la popolazione di riferimento. Quanto si vede “consumo medio per abitante” viene preso il consumo a livello nazionale e viene diviso per il numero di abitanti.

 

 

Il 2 ed il 3 del gruppo A li vedremo in seguito.

 

A.4. I rapporti di composizione

In questo caso mettiamo in relazione una parte di soggetti con il totale dei soggetti. Mi da una indicazione di come si compone quel fenomeno. E’ il rapporto più utilizzato. Serve per indicare quale è il peso di una modalità sul totale. Questi rapporti hanno delle peculiarità. Siccome si rapporta una parte al tutto l’unità di misura è la stessa quindi quello che viene è un numero puro, una percentuale non ha una unità di misura.

Sono numeri compresi tra 0 ed 1.

Siccome si rapporta una parte al tutto è indicato sempre in modo percentuale.

Si mette in rapporto una parte del fenomeno e la si divide per il totale cioè quando si vuole evidenziare il peso di una modalità rispetto alle altre.

Vediamo due tabelle dell’ISTAT su una indagine sulla condizione lavorativa a 3 anni dalla loro laurea o diploma.

 

Questa indica i diplomati per sesso e tipo di diploma maturità

DIPLOMA

MASCHI

FEMMINE

TOTALE

Professionale

1.196

10.173

2.369

Tecnico

16.021

9.420

25.441

Liceale

30.677

36.851

67.478

Magistrale

530

60841

7.371

Altri

576

752

1.328

TOTALE

48.950

55.037

103.987

 

Viene diviso per maschi e per femmine in base al tipo di diploma conseguito. Questa tabella ci dice poco. Allora ci facciamo un rapporto di composizione all’interno di ciascuna modalità sesso, cioè rapportiamo il numero di persone che hanno conseguito il tipo di diploma al totale, e lo facciamo per tutte le modalità.

 

LAUREATI

MASCHI

FEMMINE

TOTALE

Professionale

2,4

2,1

2,3

Tecnico

32,7

17,1

24,5

Liceale

62,6

67,0

64,9

Magistrale

1,1

12,4

7,1

Altri

1,2

1,4

1,3

TOTALE

100

100

100

Se il totale viene 100 è giusto.

Quando facciamo dei rapporti di composizione (rapportiamo ogni modalità al totale) deve venire un numero tra 0 e 1 ed il totale viene sempre 1 che espresso in forma percentuale è 100.

 

Se noi facciamo una costruzione in questo modo vediamo subito che la percentuale più frequente di diploma conseguito sia per i maschi che per le femmine è quello liceale, in particolare nella femmine pesa di più rispetto ai maschi. In successione viene per i maschi la scuola tecnica con 32,7 (circa 1/3) mentre è inesistente la scuola magistrale che invece per le femmine rappresenta il 12%.

 

A.3 Rapporti di coesistenza

In questi rapporti si mettono a confronto le frequenze di una modalità con quelle di un’altra modalità. Ci è utile per evidenziare immediatamente il peso di una modalità non rispetto al totale ma rispetto ad una modalità antagonista. Anche questa serve per ricavare più informazioni possibili dai dati che abbiamo a disposizione.

  • Sono numeri puri (mettono in relazione due frequenze)
  • Possono assumere valori maggiori di 1 (perché posso avere una modalità che è molto più frequente dell’altra modalità)
  • Se calcoliamo su tutte le modalità questo rapporto, normalmente la loro somma non è di norma = 100

Facciamo un esempio riprendendo la tabella precedente. In questo caso mettiamo in rapporto per ciascun tipo di diploma conseguito la frequenza dei maschi sulla frequenza delle femmine.

DIPLOMA

MASCHI

FEMMINE

%

Professionale

1.196

10.173

102,0

Tecnico

16.021

9.420

170,0

Liceale

30.677

36.851

83,1

Magistrale

530

60841

7,7

Altri

576

752

76,6

TOTALE

48.950

55.037

88,9

Vediamo ad esempio nei totali (48.950:55.073) il rapporto maschi su femmine è l’88% e vuol dire che c’è un numero inferiore di maschi rispetto alle femmine che ha conseguito il diploma. Si ragiona in modo percentuale. Se il risultato del rapporto è inferiore a 100 vuol dire che i maschietti sono meno delle femmine. Se il rapporto da un numero superiore a 100 vuol dire che i maschi sono in numero superiore alle femmine. Si mettono in rapporto le quantità. Se le quantità sono uguali il rapporto è 1 se sono di più i maschi verrà 1,qualche cosa, se sono inferiori il numero tenderà verso lo 0.

Se mettiamo in relazione ciascun tipo di diploma conseguito dai maschi e ciascun tipo di diploma conseguito dalle femmine possiamo fare un tipo di osservazione che, nel caso del professionale sono leggermente inferiori i maschi, nel caso della scuola tecnica sono molto di più i maschi, nel caso del liceo i maschi sono un po’ meno ecc.

Queste tabelle ci permettono di trarre delle conclusioni su quale è la prevalenza di una delle due modalità sull’altra rispetto al carattere che stiamo studiando.

 

 

Un altro modo è mettere in relazione i vari tipi di diploma tra di loro. Esempio potremmo vedere quanto pesa di più il liceo rispetto ad altre categorie, cioè metto in relazione le frequenze del liceo con le altre modalità.

 

Diploma

Maschi

Femmine

Totale

Professionale

25,6

31,4

28,5

Tecnico

1,9

3,9

2,7

Liceo

1,0

1,0

1,0

Magistrale

57,8

5,4

9,2

Altri

53,2

49,0

50,8

 

Chiaramente il liceo : liceo mi da 1 (30.627:30.627)

Il liceo rispetto alla scuola tecnica sarà          30.627:16.021=1,9 (per quanto riguarda i maschi)

 

                                                                                                       01/04/2004

 

                            COESISTENZA : rapportiamo la frequenza di una modalità al totale e

statisticastatisticaabbiamo immediatamente l’idea del peso di questa modalità nell’ambito

Rapporti di               della distribuzione.

 

                            COMPOSIZIONE: rapportiamo le frequenze di una modalità alle

frequenze di un’altra modalità per avere un’idea del peso di una modalità rispetto ad un’altra

 

 

                                                       

POPOLAZIONE PER CLASSI DI ETA’, INDICI DI VECCHIAIA E DIPENDENZA.

Anni

Classi di età

Indice di vecchiaia (a)

Indice di dipendenza

 

0-14

15-64

65 e oltre

 

degli anziani (b)

Totale (c)

1951

26.1

65.7

8.2

31.4

12.5

52.2

1961

24.5

66.0

9.5

38.8

14.4

51.5

1971

24.4

64.3

11.3

46.3

17.6

55.5

1981

21.5

65.3

13.2

61.4

20.2

53.1

 

 

Dalla tabella emerge che la popolazione giovane diminuisce piuttosto rapidamente, la popolazione lavorativa rimane pressoché stabile e che la popolazione in età da pensione cresce velocemente.

Tale tipo di rapporto ci dà un’idea della composizione della popolazione e può essere utile per programmare previdenze per determinate classi sociali.

 

 

Indice di vecchiaia (a)

Rapporto percentuale tra la popolazione in età da 65 anni in poi e quella della classe 0-14 : mette in relazione diretta due modalità e dà un’idea precisa di quanto la popolazione anziana pesi rispetto a quella in età scolare.

Questo indice è usato largamente in tutto il mondo, più è alto questo indice più è vecchia la popolazione; è un rapporto di coesistenza.

 

Indice di dipendenza degli anziani (b)

Rapporto percentuale tra la popolazione in età da 65 anni in poi e quella della classe 15-64 :

dà un’idea di quanto la popolazione anziana pesi rispetto a quella in età lavorativa.

 

Indice di dipendenza totale (c)

Rapporto percentuale tra la somma della popolazione in età 0-14 e quella in età da 65 anni in poi, e la classe 15-64 : in questo modo abbiamo la misura di quanto le popolazioni non attive da punto di vista lavorativo  pesano sulla popolazione che lavora.

 

 

 

RAPPORTI DI DERIVAZIONE (molto usati)

  • statisticaSono espressi nell’ unità di misura

del numeratore.               

                                     Punti logici comuni

  • Il denominatore è il presupposto logico del                   a tutti i rapporti di

numeratore (il denominatore deve essere la base         derivazione

assolutamente logica per poter essere il punto di

appoggio del numeratore).

 

 

 

 

LIVELLO TERRITORIALE

TASSO DI I.V.G.

Per 1000 donne in età feconda nella loro provincia di residenza

TASSO DI MORTALITA’ INFANTILE

TASSO GENERICO DI MORTALITA’

TASSO DI MORTALITA’ PER MALATTIE CARDIO-CIRCOLATORIE

Anno

1998

1997

1999

1997

Piemonte

9.9

5.1

11.7

4.9

Valle d’Aosta

10.6

5.9

10.7

4.3

Liguria

11.2

5.5

13.8

5.6

Lombardia

9.1

3.9

9.7

5.9

 

 

I.V.G. interruzione volontaria di gravidanza

Età feconda 15/49 anni

X 1000 (i rapporti di composizione vengono spesso moltiplicati x 100) per comodità visiva questi dati vengono moltiplicati x 1000, ma deve essere chiaramente specificato.

 

TASSO DI I.V.G. vengono messi in rapporto due fenomeni: il tasso di I.V.G. per 1000 donne (denominatore) e il numero delle donne in età feconda (numeratore).

 

TASSO DI MORTALITà INFANTILE vengono messi in rapporto due fenomeni: il numero dei nati vivi e i bambini che muoiono con età 0 anni, cioè non hanno ancora compiuto 1 anno (numeratore).

 

Questi tipi di tasso hanno una caratteristica comune : al numeratore c’è un numero che indica un fenomeno e al denominatore c’è un aggancio logico affinché il risultato abbia un senso.

 

 

 

TASSI (o quozienti) GENERICI O SPECIFICI

 

Sono una particolare classe di rapporti, della quale fanno parte i tassi

    • di natalità
    • di mortalità
    • di nuzialità.

 

Si differenziano tra loro per il fatto che al denominatore si trova il presupposto generico (generale) o specifico rispetto ad una certa modalità.

 

 

Quoziente generico di mortalità

Una popolazione A è composta nel 1999 (a metà anno per convenzione) da N individui. Nel corso dell’anno si sono verificati m decessi.

Il quoziente generico di mortalità è costituito dal rapporto

                           

                                                 m

statistica                                      Qg =

                                                  N

 

 

 

Supponiamo di conoscere della popolazione A anche la struttura in età; classificando i decessi utilizzando la stessa struttura della popolazione possiamo calcolare i quozienti specifici.

 

 

 

 

Età

(in classi)

Popolazione

(a metà anno)

Decessi

(numero)

Quozienti specifici di mortalità per classi di età

0 – 14

500

2

4.0

14 – 29

2000

8

4.0

29 – 44

2000

12

6.0

44 – 59

1000

10

10.0

59 – 74

500

20

40.0

74 – oltre

100

15

150.0

totale

6100

67

11.0

 

 

Dai quozienti specifici si può risalire al quoziente generico relativo alla popolazione nel complesso, tramite una media di tutti i quozienti specifici, ciascuno ponderato con la relativa popolazione.

 

                           

                statistica 

                              

 

Il quoziente generico risente quindi sia delle variazioni della mortalità specifica che della variazione della struttura per età della popolazione.

Lo studio dei quozienti specifici risulta molto utile nel confronto tra 2 o più popolazioni rispetto al fenomeno preso in esame.

 

 

 

QUOZIENTI STANDARDIZZATI

 

Sono costruiti in modo tale da eliminare l’influenza che la diversa struttura di uno o più caratteri di specificazione (sesso, età, titolo di studio) ha nella determinazione del fenomeno osservato su 2 o più popolazioni o sulla stessa popolazione in momenti diversi.

 

ES. :   Fenomeno osservato : mortalità

Caratteri di specificazione : sesso ed età

 

Per eliminare l’influenza della diversa struttura per età delle 2 popolazioni scegliamo una struttura per età TIPO alla quale riferire i calcoli per tutte e due le popolazioni. Questa particolare struttura per età (popolazione tipo o popolazione standard) può essere scelta con una certa libertà :

 

  • una delle due popolazioni (A o B)
  • una media delle due popolazioni
  • una terza popolazione (C) come riferimento

 

 

 

 

Supponiamo di prendere come nostra popolazione standard la seguente :

 

Età (in classi)

Popolazione standard

0-14

500

14-29

2500

29-44

3000

44-59

3000

59-74

2500

74-oltre

500

totale

12000

 

 

Assumiamo che la struttura per età delle 2 popolazioni sia quella riportata in tabella.

Se applichiamo alla popolazione standard i quozienti di mortalità specifici della popolazione A e della popolazione B , otteniamo i quozienti di mortalità specifici che si otterrebbero nel caso in cui le 2 popolazioni A e B avessero la stessa struttura per età.

 

Età

Popolazione standard

Quoziente specifico di mortalità x classi di età.

Popolazione A

Morti attese popolazione A

Quoziente specifico di mortalità x classi di età.

Popolazione B

Morti attese popolazione B

0-14

500

4.0

2

2.5

1

14-29

2500

4.0

10

3.3

8

29-44

3000

6.0

18

5.0

15

44-59

3000

10.0

30

9.0

27

59-74

2500

40.0

100

35.0

88

74-oltre

500

150.0

75

125.0

63

totale

12000

 

235

 

202

 

 

 

 

Rapporti che si risolvono

Danno luogo ad un concetto diverso dai due fenomeni messi in rapporto.

 

a)rapporti di durata

mettono in relazione la consistenza di un fenomeno in un dato periodo  con il flusso che la movimenta.

 

Es.:        

  • Consistenza depositi bancari / flussi di versamenti e prelevamenti
  • Consistenza di magazzino / flusso di acquisti e vendite
  • Consistenza di una popolazione / flusso naturale e migratorio

 

Di frequente si fa riferimento alle consistenze e ai flussi MEDI del periodo.

 

Movimento di ricorsi in materia di pensioni presso la Corte dei Conti - 1994

Dipendenti inizio dell’anno

Presentati nell’anno

Esaminati nell’anno

Pendenti a fine anno

Civili

79733

10113

2185

87661

Militari

54335

3030

1835

55530

Di guerra

133086

2808

4483

131441

totale

267154

15951

8503

274632

 

 

Pensioni civili

                   Consistenza media = (situazione iniziale + situazione finale) / 2

 

                            (79733 + 87661) / 2 = 83697

 

 

                   Flusso medio del periodo = (presentati + esauriti) / 2

 

                            (10113 + 2185) / 2 = 61491

 

                   RAPPORTO DI DURATA = 83687 / 6149 = 13.61 (in anni)

 

 

 

b)rapporti di ripetizione

indicano la velocità con il quale il fenomeno esaminato si rinnova nel corso di un periodo.

        

                   E’ espresso dal reciproco del rapporto di durata.          

 

                   Rapporto di ripetizione = 1 / 13.61 = 0.07

 

 

 

7 aprile 2004

 

Chiarimento sull’esercitazione. Riprendiamo la scomposizione della devianza.

La devianza è il numeratore della varianza. Cioè la varianza non divisa per la numerosità si chiama devianza. La devianza così come è costruita non ha alcuna utilità pratica dal punto di vista operativo. Viene utilizzata per vedere nel dettaglio quello che avviene singolarmente nei gruppi e tra i gruppi.

Ad esempio prendiamo tutti i presenti in questa aula, dividiamo in due sottogruppi (quello di destra e quello di sinistra) possiamo analizzare nel dettaglio senza rifare tutte le volte le addizioni se abbiamo a disposizione sufficienti elementi dell’uno e dell’altro basandoci su questo principio di scomposizione della varianza. Abbiamo detto che la devianza totale si può spaccare in 2 pezzi:

  • devianza within quella all’interno di ciascun gruppo;
  • devianza between che misura la differenziazione-distanza tra i due gruppi.

 

Possiamo raggiungere il nostro obiettivo di arrivare ad un calcolo della varianza complessiva come medie delle varianze within e della varianza between.

Esempio tabella esercitazione.

Gruppo A

Gruppo B

126

122

132

125

140

128

144

140

150

144

158

145

161

149

164

150

173

153

176

156

 

Formula scomposizione della devianza

DEV(T)=DEV(W)+DEV(B)

 

statistica                 statistica

 

 

statistica

La devianza totale di questi due gruppi è data dallo scarto di ciascun elemento dalla propria media aritmetica del gruppo A elevato al quadrato moltiplicato per la propria numerosità, più la sommatoria degli scarti di ciascun elemento dalla propria media del gruppo B al quadrato moltiplicato per la propria numerosità. Queste due insieme rappresentano la devianza between. La devianza within è quella che compare come scarto tra le due medie “Ma” ed “Mb”. Quindi M per k che va da 1 a 2 (in questo caso sono 2 gruppi) M di a meno M di b al quadrato. Questa è la formula della scomposizione della devianza.

Facendo opportune manipolazioni abbiamo una situazione di questo genere. Se mi riferisco al conto della varianza anziché della devianza, cioè ponderando e dividendo per le numerosità riesco ad avere una situazione in cui la varianza within è indicata come media delle varianze all’interno dei gruppi e la varianza between è indicata come media delle medie aritmetiche dei 2 gruppi. Quindi avendo a disposizione le varianze within, le medie dei 2 gruppi, le due numerosità e quella complessiva, partendo da questi elementi posso costruirmi la varianza complessiva.

 

Altro chiarimento sull’esercitazione

120├─┤130

 

131├─┤140

 

141├─┤150

Questa suddivisione andrebbe bene se i numeri fossero discreti (cioè se nell’ambito di un intervallo potrebbero assumere solo alcuni valori). Siccome questo è un carattere continuo (nell’arco di un intervallo può assumere tutti i valori – 130,1 130,2 130,3 ecc.) messo così ci sono dei buchi tra 130 e 131.

Una regola da seguire quando si fa la suddivisione in classi, queste devono essere contigue, non ci devono essere buchi e non si devono sovrapporre.

 

Lo stesso vale per le rappresentazioni grafiche.

 

Tabella su indagine fatta negli USA pubblicata nel marzo 2004. Tratta lo stipendio di persone impiegata come biostatitici. Sono stati usati i percentili come indicativo di quanto prendono queste persone, invece di prendere i valori medi. Questo metodo non risente dei valori estremi.

 

Un ulteriore esempio di uso di rapporti statistici. Tabella situazione sociale comune di Bologna 1994 costruita da un questionario su: a) partito politico per cui si simpatizza; b) parere sulla natalità.

Ci sono le frequenze assolute cioè il numero degli intervistati. Le frequenze relative si costruiscono con un rapporto di composizione rapportando una parte di tabella al tutto. Oppure considerando separatamente ogni singola colonna (o ogni singola riga), le frequenze assolute per singola colonna vengono rapportate al totale della colonna stessa. Per esempio da questi dati posso vedere per coloro che hanno dato una risposta favorevole ad una alta natalità la relativa appartenenza politica.

 

 

NUMERI INDICE

 

L’ultimo argomento per quanto riguarda i rapporti statistici. Sono un particolare tipo di rapporto che mette in relazione una quantità o una intensità di un fenomeno, rilevato in un certo momento, con l’intensità dello stesso fenomeno rilevato in un altro momento. Rispetto agli altri rapporti visti fino ad ora in questo caso non abbiamo un rapporto di una parte al tutto. Si può fare anche sotto il profilo spaziale nel senso che si prende una intensità di un fenomeno un una certa regione e lo rapportiamo all’intensità dello stesso fenomeno in un’altra regione.

Esempio tabella “Indice fatturato di una industria”. C’è sempre una dicitura che dice “base ” in questo caso “1995 base 100” che indica che si sta utilizzando come base del numero indice l’anno 1995.

MESE

1999

2000

2001

Gennaio

87,7

95,1

 

Febbraio

98,1

 

 

Marzo

118

 

 

Aprile

104

 

 

Maggio

104

 

 

Giugno

117

 

 

Luglio

121

 

 

Agosto

64,9

 

 

Settembre

 

 

 

Ottobre

 

 

 

Novembre

 

 

 

Dicembre

 

 

 

 

NUMERI INDICE: rapporti che misurano le variazioni di una fenomeno in 2 diverse circostanze normalmente di tempo più raramente di luogo.

In base all’ordine temporale abbiamo 2 tipi di indice:

  • NUMERI INDICI A BASE FISSA: quando si rapportano tutti i valori rilevati in un dato periodo di tempo ad una relazione fissa che considerano come base del mio numero indice. Per esempio se ho rilevato un certo fatturato di una industria a cadenza annuale (1995-1996-1997-1998 ecc.) mi posso costruire degli indici del fatturato industria di vari anni con base 1995, cioè prenderò il fatturato rilevato nei vari singoli anni e volta per volta lo rapporterò a quello registrato nel 1995. Il risultato che si ottiene (essendo un rapporto) è 1 che percentualizzato diventa 100.
  • NUMERI INDICE A BASE MOBILE: si ottengono rapportando ciascuna rilevazione a quella immediatamente precedente. Per esempio il fatturato dell’industria del 1996 lo rapporto al 1995 e avrò il numero indice del 1996; quello del 1997 lo rapporto al 1996 e avrò il numero indice a base mobile del 1997.

 

Nella pratica i numeri indice si indicano con la lettera I e alla sinistra in basso si mette l’anno base, sulla destra in basso si indica l’anno che sto studiando in quel momento.

 

statistica    se metto       b=1995 ed i=1999

 

vuol dire che sto calcolando l’indice di base 1995 dell’anno 1999. Dato che Xi è il fatturato del 1999 e Xb è il fatturato del 1995 si mettono in rapporto questi 2. Il risultato può essere un numero inferiore o superiore ad 1. Si moltiplica tutto per cento perché normalmente è espresso in forma percentualizzata.

Costruendo i numeri indici abbiamo numeri relativi, numeri puri in cui non c’è più riferimento all’unità di misura né ai numeri grossi di partenza.

Tabella energia elettrica consumata a livello nazionale negli anni 1999, 2000, 2001 (impossibile da copiare!!!!!!!)

Parto dai numeri assoluti e mi costruisco dei numeri relativi prendendo ad esempio gennaio 1999 uguale a 100 e mi costruisco il rapporto prendendo e rapportando ciascun elemento a gennaio 1999. Ottengo una serie di numeri in cui vedo subito come è cambiata la situazione e l’andamento. Quando ci sono dei numeri inferiori a 100 vuol dire che c’è stato un calo; quando ci sono dei numeri superiori a 100 vuol dire che c’è stato un aumento.

 

Per farci un’idea vediamo un’altra tabella. Prendiamo come base una rilevazione che non compare. 1995=100

E’ normale che si faccia così sempre che il fenomeno che stiamo studiando nell’arco di tempo considerato (dall’anno base ad oggi) non abbia avuto forti salti, cioè quando andiamo a costruirci dei numeri indice facciamo in modo di andare a scegliere come base la rilevazione di un periodo non anomalo anche qualche anno prima. Nel giro di 3 o 4 anni la base viene cambiata per via dell’inflazione poiché la base non è più sufficientemente adeguata a darci una indicazione seria di quello che sta avvenendo.

 

INDICE FATTURATO INDUSTRIA A BASE GENERALE.

BASE 1995=100

MESE

1999

2000

2001

G

87,7

95,1

110

F

98,1

119

119

M

118

134

138

A

104

109

117

M

104

126

130

G

117

130

136

L

121

131

133

A

64,9

76,7

76,5

S

121

131

 

O

116

130

 

N

117

129

 

D

123

128

 

 

Se noi utilizziamo questa serie di numeri indice vediamo che da gennaio a febbraio c’è stato un calo rispetto al 1995=100, mentre invece nel periodo sett-dic c’è stato un fatturato superiore al periodo base. I numeri indice a base fissa sono sicuramente quelli più utilizzati.

I NUMERI INDICI A BASE MOBILE: come base non indichiamo più una base generica X ma una base variabile che varia in funzione dell’indice dell’anno o del mese di riferimento. Sono costruiti rapportando le quantità o l’intensità di un fenomeno verificate in un certo periodo all’intensità rilevate nel periodo immediatamente precedente.

 

 

i – 1 I i              (i=1, ………, t)

 

i – 1 I i = statistica

--------------------------------------------

 

Possiamo avere una serie di numeri di indici a base fissa e vedere cosa succede alla stessa serie a base mobile. Prendo l’indice a base fissa e ho il numero del tempo “i” e del tempo “i-1” (quello immediatamente precedente) sapendo che l’indice a base fissa tempo “i” è data dalla quantità, dalla densità del fenomeno tempo “i” rapportata al tempo base “b”,

 

statistica               statistica

 

Xi = indice base fissa

Xb = indice che si vuole cambiare

 

Le basi possono cambiare perché diventano vecchie quindi non più rappresentative quindi si possono sostituire. Per sostituire le basi si usa il COEFFICIENTE DI RAPPORTO.

Un indice a base fissa “b” è indicato così

 

statistica

 

se noi cambiamo base con un indice di base “c” possiamo passare da quelli con la vecchia base a quelli con la nuova base moltiplicando tutti per questo coefficiente di rapporto. Al denominatore sostituisco Xb (la vecchia base) con Xc (la nuova base). Il denominatore Xi rimane fisso.

 

statistica

 

CRbà      c=statistica

 

In questo modo posso passare rapidamente dalla vecchia base alla nuova base.

Questo coefficiente mi serve come rapporto, come fattore di conversione dalla vecchia base alla nuova base.

 

statistica dove Xb è l’indice che si vuole cambiare

 

cambiando base in C

 

statistica

si moltiplicano per il coefficiente i vecchi numeri

 

statisticastatistica                                    vecchia base su nuova base moltiplico *100 e poi moltiplico tutti i numeri indice vecchi per questo numero ed ottengo tutto nella nuova base.

 

Il nuovo numero mi indica il nuovo indice “I” rispetto alla nuova base “c”.

 

Questi qui si chiamano anche NUMERI INDICE SEMPLICI perché noi prendiamo il singolo carattere, il singolo fenomeno e ci calcoliamo il numero indice di quel fenomeno rispetto agli anni precedenti. Se invece passiamo ad un'altra serie di indici che si chiamano NUMERI INDICE SINTETICI O COMPLESSI che utilizziamo spesso per quanto riguarda gli effetti economici (inflazione) vediamo che si prende in considerazione non il singolo bene, ma una serie di beni. Si cerca di trovare un bilanciamento adeguato tra l’insieme dei beni che prendiamo in considerazione, il periodo o l’anno base, e siccome dobbiamo tirare fuori da questo insieme un indice sintetico dobbiamo trovare la media più appropriata (abbiamo detto che le medie sono indici sintetici).

Ecco i vari passaggi.

  • SCELTA DEI BENI: i beni devono essere rappresentativi della realtà che si deve studiare, esaminare. Esempio dei prezzi al consumo= l’insieme dei beni che vengono presi, rilevati devono essere rappresentativi del consumo medio di una famiglia tipo.
  • SCELTA DELLA BASE: deve essere un periodo normale, una circostanza normale dove non ci siano stati casi particolari. Non appena ci si rende conto che ci stiamo discostanto dalla situazione che avevamo previstosi deve cambiare base.
  • SCELTA DELLA MEDIA: si utilizza molto spesso una media aritmetica ponderata di questi indici semplici perché questa media presenta diversi vantaggi tra cui essere calcolata con estrema rapidità ed estrema semplicità.
  • SCELTA DEL SISTEMA DI PONDERAZIONE: la ponderazione serve a dare un peso a ciascuno di questi beni e serve perché non sempre i beni che andiamo a considerare rivestono lo stesso peso.

 

statistica

 

Si possono costruire diversi numeri indice sintetici per quanto riguarda i prezzi di tutti i tipi (di vendita, al dettaglio, all’ingrosso) oppure possiamo costruirci dei numeri indici sintetici delle quantità cioè come variano le quantità di questi prodotti che prendiamo in considerazione.

Ci sono diversi sistemi di ponderazione.

Uno è quello che si chiama PONDERAZIONE VALORI

p 01 *q 01

cioè si prende il prezzo e la quantità del bene (indicato con “i” quindi iesimo) al tempo 0 (con zero si indica l’anno base).

Questo indice si chiama INDICE DI LASPEYRES

In pratica per l’indice dei prezzi si prende un prezzo del bene “iesimo” a tempo 1 e a tempo zero e li moltiplichiamo per il valore a tempo base, il tutto viene rapportato alla sommatoria complessiva dei valori del bene considerato. Questo è un modo di ponderazione.

 

statistica          

 

Al numeratore nella parentesi abbiamo il valore prezzo per quantità rilevato a tempo zero (cioè a tempo base) di ciascun bene. Al denominatore abbiamo il prezzo per la quantità rilevato a tempo zero cioè a tempo base.

 

Stesso discorso si può fare con le quantità.

 

statistica

 

Noi possiamo vedere delle variazioni e fare un numero indice non soltanto dei prezzi ma anche delle quantità. Cioè rilevo delle quantità in diversi periodi vedo come queste variano e sulla base di queste quantità pondero i valori e questo mi da una indicazione di come si stanno movendo, quello che consumo.

Le proprietà dell’INDICE DI LASPEYRES le vedere sul libro se non sono chiare ne riparliamo.

 

POTERE DI ACQUISTO

Per potere d’acquisto indichiamo la quantità di un bene K che ha un certo prezzo, che noi riusciamo a comprare  con una quantità di moneta. Supponiamo che un certo bene costa 12 € al kg, e supponendo che la mia disponibilità di moneta sia di 100 €, il mio potere d’acquisto rispetto al bene K sarà indicato con 100 (quantità di moneta che ho disponibile) diviso il prezzo unitario di quel bene.

 

statistica                      statistica

 

Per prezzo unitario sarà 12 € per un kg. Quindi in questo caso il risultato di questo divisione non è un numero puro ma è in chilogrammi. Vuol dire che io posso acquistare 8,34 kg con questa quantità di moneta. Questo l’anno scorso. Per vedere quest’anno che è successo, quindi per misurare la variazione del mio potere d’acquisto mi calcolo la quantità di bene che potevo comprarmi l’anno scorso (al tempo 1) con la mia quantità di moneta. Suppongo costante la mia quantità di moneta (al tempo 2) e vedo che essendo passato il prezzo da P1 a P2, vedo quanto bene mi posso comprare quest’anno con la stessa quantità di moneta.

 

statistica                     statistica                   M = P * Q

 

Allora mi prendo il mio potere d’acquisto al tempo 2 lo rapporto a quello del tempo 1 e quindi basta che io prendo il prezzo unitario al tempo 1 e lo rapporto al tempo 2 e immediatamente ho quanto è variato il mio potere d’acquisto.

 

statistica

 

Al tempo 1 il prezzo era 12 € al kg supponiamo che al tempo 2 fosse di 15 € al kg faccio il rapporto passo per passo e vediamo che mentre al tempo 1 potevo comprare 8,33 kg al tempo 2 ne posso comprare solo 6,67 kg

 

statistica

 

 

Quindi facendo questo tipo di rapporto, essendo inferiore ad 1 (0,80*100=80%) vuol dire che il mio potere d’acquisto è diminuito del 20%.

Ricapitolando tutti i numeri indici che sono particolari tipi di rapporto vengono utilizzati per mettere in evidenza la variazione intervenuta in un certo periodo di tempo di un bene o una serie di ben, il tutto più o meno ponderato a seconda che io abbia bisogno di evidenziare soltanto la variazione della quantità, di un prezzo singolo oppure ponderato se io voglio costruirmi un indicatore complessivo di una situazione che prende in considerazione una pluralità di beni.

a senso perché mette in relazione una certa quantità ad un'altra. Di questi indicatori ne posso costruire migliaia quando mi servono e come mi servono per poter mettere in evidenza particolari situazioni.

 

 

 

                                                                                                       14/04/2004

 

RELAZIONI STATISTICHE

 

Il caso più comune è quando ci si trova di fronte a due o più caratteri statistici e si vuole capire che tipo di relazione c’è tra di loro.

statistica

La rappresentazione grafica con assi cartesiani e punti è la più usata per rappresentare relazioni statistiche tra caratteri quantitativi.

Se si nota che al crescere (o al diminuire) di una variabile anche l’altra cresce (o diminuisce) si dice che le due variabili hanno un andamento CONCORDE.

Se si nota che al crescere di una variabile l’altra tende a diminuire si dice che le due variabili hanno un andamento DISCORDE.

 

Per studiare il collegamento tra due caratteri quantitativi (variabili) si parla di CORRELAZIONE tra i due fenomeni.

 

Il concetto di correlazione specifica una simmetria  : se si dice che la variabile X è correlata alla variabile Y , implicitamente si dice anche che la variabile Y è correlata alla variabile X.

La correlazione implica la INTERDIPENDENZA fra due variabili, ma non la DIPENDENZA dell’una dall’altra : cioè, c’è un collegamento tra le due variabili ma non un legame.

 

Date due variabili X e Y, se al crescere (decrescere) di X si osserva che Y cresce (decresce), si dirà che tra X e Y esiste una CORRELAZIONE POSITIVA (NEGATIVA).

 

Se al crescere (decrescere) di X, Y cresce (decresce) seguendo un andamento più o meno rettilineo, si dice che le due variabili sono correlate LINEARMENTE, e in un grafico questo andamento viene bene rappresentato da una retta.

 

statistica

 

In analisi statistica ci sono anche delle correlazioni di tipo superiore, curvilineo ad esempio, ma non sono usati molto. Se i punti dunque tendono a distribuirsi intorno ad una retta, si parla di correlazione lineare; se i punti invece si pongono in modo tale da costruire una curva crescente, c’è comunque un collegamento tra i due caratteri ma non lineare, bensì  di ordine superiore.

Parlo di correlazione lineare molto alta se la retta che faccio passare tra i punti tende a coincidere con i punti; la correlazione è molto bassa se vedo che i punti si sparpagliano intorno a questa retta.

 

 

COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS-PEARSON.

 

Quando le variabili cominciano ad essere molte, non è più semplice individuare la correlazione, per cui si usa un indice. Ne esistono molti di indici ma uno dei più comuni è il COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS–PEARSON.

 

 

Il coefficiente di correlazione lineare di Bravais-Pearson è dato dal rapporto di una quantità (covarianza) e il prodotto dello s.q.m. di una variabile per lo s.q.m. dell'altra variabile.

 

 statistica                            statistica

 

 

 

r = simbolo che indica questo coefficiente

statistica = covarianza

 

Questa formula ricorda molto da vicino la varianza che è l’ indice di variabilità indicato dalla sommatoria degli scarti di ciascuna modalità dalla media aritmetica e tutto al quadrato.

 

La covarianza invece è la somma del prodotto degli scarti di ciascuna modalità della I^ variabile dalla media aritmetica, per gli scarti di ciascuna modalità della II^ variabile dalla propria media aritmetica, diviso la numerosità.

 

La media aritmetica rappresenta il punto di baricentro della distribuzione, il punto centrale; tanto è vero che la proprietà principale della media aritmetica è che la somma degli scarti dalla media aritmetica è sempre 0.

 

statistica 

 

dove

statisticastatistica

 

è la covarianza.

Questa formula è più semplice per fare i calcoli: la sommatoria dei prodotti delle modalità  dei due caratteri meno N volte (numerosità) il prodotto della media di x e della media di y.

        

 

Se il risultato di questa somma è negativo vuol dire che sono prevalenti i punti di discordanza e i due caratteri avranno un andamento discorde; se invece la somma è positiva, vuol dire che sono prevalenti i punti di concordanza.

 

Questo è un indice molto grezzo di “correlazione”, perché legato alle unità di misura di tutti e due i caratteri. E’ utile però per darci un’idea di come COVARIANO le variabili in esame. E’ importante per il segno ma non per il valore.

Il coefficiente di correlazione lineare r rapporta la covarianza al suo massimo (Schwartz).

 

Qualsiasi indice di variabilità dove rispondere a certi requisiti teorici:

  • se non c’è variabilità l’indice deve assumere valore 0
  • gli indicatori di variabilità assoluta variano da 0 ad infinito
  • se sono indici di variabilità relativa variano da 0 a 1.

 

Per quanto riguarda la covarianza, avendo due caratteri che possano avere andamento concorde o discorde, l’indice di variabilità varierà in questo modo:

 

statisticastatistica-x           0         + y

 

 

L’indice assume valore 0 quando c’è un perfetto bilanciamento tra i segni positivi ed i segni negativi.

 

Con questo indice di correlazione :

 

costruisco un indicatore (r) che è un numero puro

 

        –1   <=  r  <=  +1 :

costruisco un indice relativo perché lo rapporto al suo massimo, e può assumere un valore tra –1 e +1 (tanto più il valore si avvicina a –1 tanto più i due i due caratteri sono incorrelati tra di loro linearmente; più il valore si avvicina a +1 e più i due caratteri tendono a distribuirsi su una retta (positivamente o negativamente)).

 

Più il valore tende ad avvicinarsi a 0 e più i due caratteri sono in correlati linearmente.

 

 

 

Esempio : calcoliamo il coefficiente di correlazione lineare per le due variabili peso e altezza.

 

X

Y

52

155

52

155

52

180

59

180

60

165

74

174

76

164

81

196

81

196

81

196

 

Innanzitutto calcoliamo la media aritmetica di x e di y :

 

                                      Mx = 66.8              My = 174.1

 

Calcoliamo i rispettivi s.q.m. ed il loro prodotto:

 

                                      σx = 12.27    σy = 16.08    σx * σy = 197.35

 

 

 

 

Calcoliamo la covarianza :

X

Y

(x – Mx)

(y – My)

(x – Mx) * (y – My)

 

52

155

52-66.8

155-174.1

-14.80 * -19.10

282.68

52

155

52-66.8

155-174.1

-14.80 * -19.10

282.68

52

180

52-66.8

180-174.1

-14.80 * 5.90

-87.32

59

180

59-66.8

180-174.1

-7.80 * -14.10

109.98

60

165

60-66.8

165-174.1

-6.80 * -9.10

61.88

74

174

74-66.8

174-174.1

7.20 * -0.10

-0.72

76

164

76-66.8

164-174.1

9.20 * -1010

-92.92

81

196

81-66.8

196-174.1

14.20 * 21.90

310.98

81

196

81-66.8

196-174.1

14.20 * 21.90

310.98

81

196

81-66.8

196-174.1

14.20 * 21.90

310.98

 

 

 

 

 

 

 Tot.

 

0

0

0

1489.2

statisticastatistica

 

                                      La somma degli scarti dalla media aritmetica deve

                                               essere 0.

 

 

statistica 

 

 

 

 

 


Cov(x,y) = 1489.2 / 10 = 148.92

 

statisticar = 148/92 / 197.35 = 0.7546               questo numero è significativo ed indica che c’è una correlazione lineare piuttosto marcata

 

La covarianza da il segno del coefficiente di correlazione ed essendo il coefficiente un numero molto vicino a 100 vuol dire che c’è un maggior numero di punti concordi.

 

Lo stesso esempio adesso viene eseguito con la formula di calcolo più veloce:

 

X

Y

statistica

statistica

X * Y

52

155

2704

24025

8060

52

155

2704

24025

8060

52

180

2704

32400

9360

59

180

3481

25600

9440

60

165

3600

27225

9900

74

174

5476

30276

12876

76

164

5776

26896

12464

81

196

6561

38416

15876

81

196

6561

38416

15876

81

196

6561

38416

15876

 

 

 

 

 

688

1741

46128

305695

177788

 

Numerosità = 10

Medie =     66.8            174.1          4612.8         30569.5              11778.8

s.q.m. = 12.27        16.0838

 

cov(x,y) = 148.92

 

r = 148.92 / (12.27 * 16.08) = 0.7546

CORRELAZIONE SPURIA E COEFFICIENTE DI CORRELAZIONE PARZIALE.

 

Altro esempio:   r = -  0,51

 

Se avessimo a disposizione solo questo dato, potremmo dedurre che:

  • i due fenomeni non sono molto correlati;
  • hanno un andamento discorde perché il segno è negativo.

 

Quando si analizzano due fenomeni lo si fa per avanzare delle ipotesi o per verificarne: bisogna prestare molta attenzione.

statisticaSe noi rileviamo una forte correlazione tra due fenomeni non è detto che il legame esistente sia di correlazione. Mi viene data una falsa indicazione perché i due fenomeni anche se fortemente correlati potrebbero non essere in alcun modo collegati = CORRELAZIONE SPURIA,                          si ha quando due fenomeni non hanno un collegamento logico tra di

loro ma presentano forti valori degli indici di correlazione.

 

 

Esempio.

Un’indagine ha rilevato una forte correlazione tra il Q.I. dei soggetti femminili intervistati e l’età del menarca. Sotto il profilo medico scientifico potrebbe non essere vero che uno sviluppo precoce sia collegato al Q.I.

Un’analisi più approfondita ha rivelato che un terzo fattore, l’appartenenza ad una certa classe sociale, influenzava entrambe le variabili. Le ragazze appartenenti ad una classe sociale elevata avevano un tenore di vita migliore, in particolare sotto il profilo nutrizionale: questo elemento induce un inizio precoce del ciclo mestruale.

Questo terzo elemento che prima non veniva identificato ha legato due fattori apparentemente non legati. Di questi casi ce ne sono moltissimi. E’ importante sempre verificare che i due fenomeni siano collegabili, anche se attraverso una terza entità.

 

Esempio.

In una grande città è stata rilevata una correlazione tra il passaggio di automobili su un ponte e il livello del fiume sottostante: il traffico è più intenso nei momenti di picco delle maree che coincidono con l’inizio e la fine della giornata.

 

 

Per individuare la presenza di una terza entità che influenza le altre due, e quindi di una correlazione spuria tra diverse variabili oggetto di indagine, ci sono molti modi; un sistema molto semplice ma efficace è il coefficiente di correlazione parziale.

 

 

Dato un insieme di variabili x1, x2,……. Xn (con n > 2) e calcolati tutti i coefficienti di correlazione lineare tra le diverse variabili

        

 

         rij               i <> j       

 

                                     

 

 

si calcolano i coefficienti di correlazione parziale del primo ordine

 

 

statistica

                   

 

 

 

 

 

 

 

(r12.3 vuol dire che misuro la correlazione tra la prima e la seconda variabile non considerando gli effetti della terza variabile)

e dove possibile i coefficienti di correlazione parziale di ordine superiore, per esempio il secondo

 

 

statistica

  

 


Esempio.

 

In una ricerca effettuata in alcune città degli Stati Uniti sono stati rilevati fra gli altri i valori delle seguenti variabili:

  • composizione razziale (indice = % di abitanti di colore)
  • livello di povertà (indice = % di abitanti con reddito < 3000$)
  • popolosità (numero di abitanti)
  • livello di criminalità (indice = crimine denunciati per 1000 abitanti)

 

 

Composizione razziale

Povertà

Popolosità

Tasso criminalità

Composizione razziale

1 *

0.51

0.41

0.36

Povertà

0.51

1

0.29

0.60

Popolosità

0.41

0.29

1

0.49

Tasso criminalità

0.36

0.60

0.49

1

 

 * il coefficiente di correlazione lineare tra una variabile e se stessa è = 1.

 

 

Esaminiamo i valori calcolati :

  • il tasso di criminalità presenta una marcata correlazione positiva con il livello di povertà e con la popolosità
  • la composizione razziale è significativamente correlata con il livello di povertà e con la popolosità

 

 

statisticastatisticaLivello di povertà

statisticastatisticaTasso di criminalità                                                 Composizione razziale

                                          Popolosità

 

 

 

Questa situazione fornisce una prima indicazione sulla possibile presenza di una correlazione spuria fra tasso di criminalità e composizione razziale.

 

 

 

 

Calcolando il coefficiente di correlazione parziale del primo ordine tra tasso di criminalità e composizione razziale, rimovendo gli effetti della variabile povertà e della variabile popolosità separatamente

 

                            statistica

 

                                   statistica

 

La riduzione sostanziale dei due coefficienti di regressione parziale si conferma nell’ipotesi che abbiamo fatto di presenza di correlazione spuria tra composizione razziale e tasso di criminalità.

Il fatto che statistica tende a 0 ci rivela che la variabile livello di povertà influenza fortemente il coefficiente di correlazione tra composizione razziale e tasso di criminalità.

Calcolando il coefficiente di correlazione parziale tra composizione razziale e tasso di criminalità del secondo ordine si ottiene statistica.

Possiamo concludere che la correlazione rilevata inizialmente fra composizione razziale e tasso di criminalità è spuria ed è determinata dall’influenza di povertà (principalmente) e di popolosità sulle due variabili.

Non vi è quindi un legame diretto tra la composizione razziale e il tasso di criminalità rilevato nelle diverse città.

 

 

 

                                                                                                       27/04/04

 

RETTA DI REGRESSIONE

 

L’ esempio che segue riguarda il contenuto di carbonio e di nicotina in 100g di tabacco. Si vuole vedere se c’è dipendenza (nel senso che l’ammontare di una sostanza aumenta o diminuisce con una certa relazione) di una delle due sostanze dall’altra.

Con la retta di regressione ipotizziamo l’esistenza di una relazione funzionale di una variabile dall’altra possiamo cioè ricostruire i valori di una variabile in funzione dell’altra variabile

       secondo un modello matematico.

 

 

CO

Y

NICOTINA

X

statistica

x*y

statistica

statistica

statistica

6

0.4

0.1

 

 

 

 

8

0.4

0.1

 

 

 

 

6

0.5

0.2

 

 

 

 

9

0.5

0.2

 

 

 

 

9

0.7

0.4

 

 

 

 

11

0.7

0.4

 

 

 

 

9

0.8

0.6

 

 

 

 

15

0.8

0.6

 

 

 

 

11

0.8

0.6

 

 

 

 

15

0.9

0.8

 

 

 

 

13

1.1

1.2

 

 

 

 

16

1.1

1.2

 

 

 

 

12

1.2

1.4

 

 

 

 

18

1.2

1.4

 

 

 

 

13

1.3

1.6

 

 

 

 

17

1.3

1.6

 

 

 

 

14

1.4

1.8

 

 

 

 

22

1.4

1.8

 

 

 

 

 

224

 

16.6

 

17.3

 

227

 

224

 

209.465

 

314.444

 

 

Numerosità = 18

Media y = 12.44                Media x = 0.92

Varianza x = 0.11

Covxy = 1.13

 

 

Ipotizziamo che ci sia dipendenza della variabile y (carbonio) dalla variabile x (nicotina). Identifichiamo y come variabile dipendente dalla x secondo una relazione di tipo lineare.

Per identificare questa retta che tende a stimare i valori delle y in funzione della x (intesa come variabile indipendente) abbiamo bisogno di una serie di valori che sono il frutto di un processo di stima dato dal metodo dei minimi quadrati.

 

Occorrono :

  • la media delle due variabili
  • la covarianza tra le due variabili
  • la varianza della variabile x (indipendente).

 

Per stimare i due parametri servono :

  • l’intercetta
  • il coefficiente angolare della retta.

 

B1 (coefficiente angolare) = 10.3  (covxy / varx)

B0 (intercetta) = 2.99 (My - B1 * Mx)

 

statistica = B0 + B1 * x = 2.985 + 10.26 * x   (l’asterisco a fianco della y vuol dire y teorico)

statistica    = 209.46 / 314.4 = 0.67

 

statisticastatistica

 

Abbiamo ipotizzato l’esistenza di una relazione di tipo lineare tra le due variabili e abbiamo individuato una retta col metodo dei minimi quadrati.

Tra le numerose proprietà che presenta questo metodo c’è n’è una particolarmente importante: la retta stimata col metodo dei minimi quadrati è la migliore retta possibile ai fini dell’accostamento ai punti.

 

Ma non è detto che la retta sia la migliore interpolante tra i due punti: verifico cioè quanta variabilità mi spiega questa retta di regressione e per il principio della scomposizione della devianza posso rapportare la devianza alla devianza totale.

statistica 


statistica                                           Devianza dovuta alla regressione + devianza residua – devianza

                                         dovuta all’errore.

 

statisticaRapportiamo una parte al tutto        RAPPORTO DI SCOMPOSIZIONE , varia da 0 a 1.

 

Utilizzando questa proprietà possiamo costruire un indice statistica che mette in relazione la devianza dovuta alla regressione alla devianza totale.

 

  • statisticaσ= 1           le rette sono coincidenti con andamento crescente
  • statisticaσ= -1                    le rette sono coincidenti con andamento decrescente
  • statisticaσ= 0                      le rette sono disposte perpendicolarmente

 

 

Se la devianza dovuta alla regressione è 0 il rapporto sarà 0 e la retta non spiega nulla.

Se invece la variabilità dovuta alla regressione è completamente spiegata dalla retta di regressione (i punti si trovano tutti sulla retta), il rapporto è = 1.

 

Normalmente non ci si trova mai in questi due casi estremi.

 

Quando siamo di un 60% al di sopra dello 0 la retta è una buona interpolante.

 

statistica= 0.67

 

La retta indica una buona interpolazione, ma i punti tendono a discostarsi abbastanza dalla retta.

(La variabilità dei punti intorno alla retta non è bassissima.)

 

2 RETTE DI REGRESSIONE

 

Possiamo ipotizzare la presenza di due rette di regressione esistenti sullo stesso piano : una retta di regressione in cui la variabile dipendente sia y e una in cui la variabile dipendente sia x.

 

Le due rette di regressione assumeranno normalmente una posizione sforbiciata tra di loro dove ci sarà un punto in cui si incrociano e che fa da perno, e che sarà il valore medio della x e della y.

Queste rette possono tendere a sovrapporsi o ad allargarsi fino a raggiungere un punto di perfetta perpendicolarità tra di loro. Tendono a sovrapporsi quando la correlazione sarà perfetta tra di loro, nel senso che tenderanno a disporsi in un’unica retta. Se invece la correlazione tende a diminuire (tende verso 0) le rette di regressione saranno perpendicolari e il coefficiente di correlazione lineare sarà = 1 (le due rette di regressione sono coincidenti e hanno un andamento crescente).

 

statisticastatistica= -1                  le due rette sono coincidenti ma hanno un andamento decrescente

 

statisticastatistica= 0                   le due rette sono posizionate perpendicolarmente sul piano, nel punto medio della x e della y, ed hanno un’angolazione nulla rispetto all’asse.

 

 

 

(Effetto della somministrazione di un farmaco sulla quantità di latte che viene prodotto in un allevamento di mucche.)

 

Grammi di farmaco

x

Litri di latte

y

Stime y

Y*

Dev. Tot.

statistica

Dev. Regressione

statistica

 

(y – y*)

65

62

63.76

157.64

116.64

3.08

75

65

66.45

91.31

65.61

2.12

65

72

69.16

6.53

29.16

8.09

55

72

71.86

6.52

7.29

0.02

45

76

74.56

2.09

1.81

2.09

35

77

77.26

5.98

7.28

0.07

25

80

79.96

29.64

29.16

0.00

15

84

82.66

89.20

65.81

1.81

5

83

85.36

71.31

116.64

5.55

 

 

 

 

 

 

385

671

671.03

460.22

437.40

22.82

 

 

Vediamo come questi dati possono essere rappresentati graficamente. All’aumentare della quantità di farmaco somministrato, la quantità di latte raccolto tende a diminuire (andamento discorde).

Ipotizziamo che ci sia una dipendenza della produzione di latte dalla quantità di farmaco somministrato. Calcoliamo i dati che ci servono (covarianza, varianza x, media x , media y)

 

Mx = 45        My = 74.56

σstatistica= 666.67

σxy = -180

 

 

 

 

 

Si nota che la covarianza assume valore negativo.

statistica 


                  

Somma del prodotto degli scarti di ciascuna modalità delle x dalla propria media per il corrispondente valore delle y dalla propria media

statistica(x – My)*(y – Mx)         indicatore piuttosto grezzo della concordanza o discordanza. E’ importante della covarianza che ci da il segno di come si muovono questi scarti

         se + / + = +

         se - / - = +

         se + / - = -

 

Se la covarianza ha valore positivo vuol dire che c’è una andamento concorde (crescente o decrescente), se ha valore negativo vuol dire che c’è un andamento discorde.

 

Y* = 86.7  –0.27 * x (retta di regressione)

statistica 


statistica                             COEFFICIENTE ANGOLARE : questo valore negativo indica che la retta è

         angolata negativamente rispetto all’asse delle x. L’angolo della retta è

         superiore a 90°.

 

 

         DEV R (regressione)                     DEV E (errore)            437.40

statisticastatisticastatisticastatistica=                               =       1 -                             =                      = 0.9504   

statisticastatistica         DEV T (totale)                              DEV T (totale)             460.22

 

 

                                           La devianza è spiegata dalla regressione

 

 

                                                                                              Indica un ottimo

                                                                                              accostamento ai dati

                                                                                              reali

 

 

REGRESSIONE MULTIPLA

 

Nella realtà si verifica molto spesso che una variabile non è dipendente da un’altra, ma da altre.

L’effetto congiunto di queste variabili indipendenti confluisce nel determinare il valore della variabile dipendente. Anziché avere a che fare con una sola variabile indipendente se ne trovano N.

 

                   Y = B0 + B1 * X1 + B2 * X2 +………BK * XK

 

Dal punto di vista tecnico non c’è molta differenza con la regressione semplice, ma la situazione si complica dal punto di vista dell’interpretazione, perché queste variabili normalmente interagiscono tra di loro. E’ vero che il valore della y dipende dal valore di x1 e x2; ma è vero anche che x1 è in qualche modo influenzato da x2 e x3.

 

 

                            statistica

 

 

E’ difficile individuare la responsabilità di ognuna delle variabili sulle altre.

Se abbiamo a che fare con poche variabili possiamo procedere all’analisi dell’INTERDIPENDENZA e calcolare i coefficienti di correlazione lineare parziali per mantenere distinti gli effetti delle diverse variabili.

 

 

 

CURVA DI GAUSS (o a campana, o normale)

 

Solo per fenomeni quantitativi.

                                                

 

statistica                                                              200

Q. i.

F

60-70

26

70-80

56

80-90

145

90-100

230

100-110

235

110-120

182

120-130

82

130-140

31

140-150

13

totale

1000

statisticastatisticastatisticastatisticastatisticastatisticastatisticastatisticastatisticastatisticastatisticastatisticastatisticastatisticastatisticastatistica          

statistica      150 

     

      100

       

        50

 

         0       

statistica 


              60-70      70-80    80-90  90-100  100-110 110-120 120-130 130-140  

 

I dati hanno un andamento piuttosto regolare: quelli con q.i. molto basso sono relativamente pochi; quelli con q.i. molto alto sono pochi; in mezzo ci sono quelli con q.i. medio.

Vengono fatte delle stime, delle ipotesi per avere supporti scientifici maggiori.

 

La distribuzione è rappresentata bene dal diagramma a forma di campana o Curva di Gauss.

 

Ma in questa rappresentazione non si individuano bene i valori intermedi (ad esempio 75) : cerchiamo quindi di individuare una funzione matematica che possa restituire una buona approssimazione di questa distribuzione vera.

Distribuzione normale = forma a campana

 

Questo tipo di distribuzione è molto frequente (vedi tabella primo bacio 23 marzo).

Le due distribuzioni hanno un andamento molto simile e qualcuno si è accorto che la gran parte dei fenomeni tende a distribuirsi in questo modo.

 

La curva di Gauss

    • è SIMMETRICA RISPETTO AL VALORE MEDIO

 

    • se prendiamo il valore medio della distribuzione e tracciamo una linea verticale la distribuzione normale si divide in due parti uguali.

 

    • La media, la moda e la mediana coincidono.

 

    • L’area sottostante la curva rappresenta il 100% dei casi possibili (forzatura della realtà)

 

 

Per costruire la curva sono necessari solo la media e lo s.q.m. della distribuzione.

La curva varia da – statistica a + statistica : le due punte della curva non toccano mai l’asse delle ascisse per cui sono in grado di comprendere tutti i casi possibili, anche quelli più infrequenti.

 

 

statistica 


statistica         statistica         e        statistica

 

 

         FUNZIONE DI DENSITà DI FREQUENZA : indica per ciascun punto sull’asse

          dell’ascisse la relativa ordinata (consente di costruire la curva punto per punto).

 

Ma si usa con maggiore frequenza la sua CUMULATA detta FUNZIONE DI RIPARTIZIONE.

 

 

         statisticae           statistica

statistica 

 

 


                                      Questa funzione mi dà l’area sottostante la curva fino ad

                                      un certo punto : rappresenta la frequenza dei punteggi inferiore

ad un certo valore.

statistica 

 

 

 


      frequenze

 

statistica 

 


                                 

statistica                               

statistica 


                                      x             Media

 

                            Se sommo i punti prima di x avrò tutte le frequenze inferiori a x

                            corrispondenti a quest’area del grafico (quella sottostante la curva e

delimitata dalla linea tratteggiata).

 

Approssimare la distribuzione rilevata empiricamente attraverso una curva teorica ci consente di migliorare la stima dei valori che non abbiamo.

 

 

 

TEOREMA DI BIENAYME-CEBICEV

 

Questo teorema assicura che qualunque sia la forma della distribuzione nell’intervallo

                                      M ± kσ

una certa percentuale di casi è compresa tra la media di + o – k volte lo scarto quadratico medio.

 

K = un qualunque numero intero positivo.

La percentuale che cade in questo intervallo non è inferiore a 1 –   statistica.

 

 

Ipotizziamo che : M = 101.99      σ = 16.24      k = 2

 

101.99 ± (16.24 * 2)

 

Il teorema ci dice che, avendo ipotizzato k=2, nell’intervallo 

 

statistica 


    • 134.47

 

cade una percentuale di casi non inferiore al 75% del totale.

 

Questo teorema serve tutte le volte che devo dare un’indicazione di consistenza / frequenza di casi che cadono in un certo intervallo (è  molto frequente).

 

 

Se la distribuzione ha una forma normale (vedi esempio che segue) la percentuale diventerà del 95% circa, migliorando la precisione della stima.

 

 

Q. i.

F

F*

60-70

26

20

70-80

56

63

80-90

145

142

90-100

230

221

100-110

235

238

110-120

182

177

120-130

82

91

130-140

31

33

140-150

13

8

totale

1000

994

 

                                                                                              04/05/2004

 

Elementi di calcolo delle probabilità

Elementi di campionamento

Elementi di inferenza statistica

 

La statistica descrittiva non fa nessuna ipotesi di campionamento. Con l’inferenza statistica invece si vede come la variabile statistica, il carattere statistico riguarda l’intera popolazione. Il concetto di probabilità fa da cerniera tra caratteri statistici e variabili casuali.

La probabilità è legata al concetto di caso e di conoscenza parziale, interviene in tutte quelle situazione in cui non siamo in grado di descrivere un certo evento. Succede quando alcuni eventi che erano fino a quel momento indipendenti, coincidono.

In tutte le situazioni in cui fatti osservabili non sono prevedibili, il loro verificarsi e’ incerto e interviene dunque il calcolo delle probabilità. L'origine stessa della vita sembra sia stata originata dalla coincidenza assoluta (intersezione) di una serie di eventi casuali, fino ad allora totalmente indipendenti.

 

Non sarà mai possibile verificare empiricamente a posteriori in modo completo la probabilità di un evento casuale, ma sarà possibile stimarla empiricamente dandone una valutazione approssimativa.

 

La probabilità è un punto fisso attorno al quale fluttua, in modo imprevedibile (il caso non ha memoria) la frequenza relativa.

Esistono diverse definizioni ossia diverse procedure empiriche per stimare una probabilità.

 

Probabilità di un evento: esempio “lancio di una moneta” (esperimento prova)

Risultati= evento, frequenza evento

Frequenze relative= numero delle Testa/croce uscite sui lanci fatti.

 

Grafico

 

CENNI DI CALCOLO DELLE PROBABILITà.

 

La probabilità e il calcolo delle probabilità costituiscono la premessa indispensabile per introdurre l'altra branca della STATISTICA (oltre la  STATISTICA DESCRITTIVA), ossia la STATISTICA INFERENZIALE.

 

L'inferenza statistica intesa come quel complesso di tecniche statistiche che permettono in base ai risultati relativi ad un gruppo di osservazioni ed esperimenti (detto CAMPIONE), di trarre conclusioni la cui validità per un collettivo più ampio è espressa in termini probabilistici.

 

La probabilità può essere considerata come l'elemento di passaggio, la cerniera di collegamento tra la variabile statistica e la variabile casuale.

 

Il calcolo delle probabilità nasce nel 1600 (Pascal Bayes; di cui i predecessori erano stati Cardoso, Keplero, Galileo). Tuttavia fino al 19° sec. esso si sviluppa indipendentemente dai due indirizzi della statistica universitaria e degli aritmetici politici (CAP 8 –p.341).

 

Diverse definizioni di probabilità.

  • Probabilità a priori è la prima definizione di probabilità ed e’ è quella classica.

La probabilità di un evento casuale (incerto, non prevedibile) è il rapporto tra il numero dei casi favorevoli al verificarsi dell' evento e il numero dei casi possibili purchè siano tutti ugualmente possibili.

Ad es. la probabilità P(E=esce il 6) nel lancio di un dado a 6 facce è

P(E) = 1/6 = 0,16 (casi favorevoli; casi possibili = le 6 facce del

dado)

Tale definizione si basa sul principio di "indifferenza" o ragione non sufficiente non sufficienti :    

non sempre possiamo definire a priori i casi ugualmente possibili, specialmente in  

ambito sociale. 

 

  • La probabilità a posteriori e la DEFINIZIONE FREQUENTISTA  i cui fondamenti sono

già esposti nell'ARS CONJECTANDI di Bernoulli (postume del 1715) in cui viene  

esposta per la prima volta la LEGGE EMPIRICA del caso (la legge dei grandi numeri),  

mala definizione viene data da VON MIESES (1883-1953).

La probabilità di un evento E è il limite cui tende la frequenza relativa dell'evento E (data dal rapporto tra il numero delle volte che si è verificato E e il numero totale delle prove, quando il numero delle prove tende ad infinito).

La legge empirica del caso afferma che al crescere del numero delle prove la frequenza relativa tende alla probabilità.

Limiti: impossibilita’ di ripetere le prove nelle stesse condizioni oppure la non ripetibilità delle prove per dati eventi (es. incidenti nucleari).

Prova :qualsiasi esperimento casuale (di cui sono definite(?)le condizioni) i cui esiti sono osservabili.

 

  • Definizione SOGGETTIVISTA ( par. 8.2.8) la probabilità di un evento E è il grado di fiducia che un soggetto coerente attribuisce al verificarsi dell’evento su base alle conoscenze, informazioni di cui dispone ed è un numero reale compreso tra 0 e 1.

 

  • Definizione ASSIOMATICA (un assioma è una proposizione che non si dimostra ma che è considerata vera) di probabilità è dovuta a AN KOLMOGOROV (1809-1887) in termini di insieme di teoria della misura in modo tale da consentire la costruzione parziale della teoria delle probabilità prescindendo dal significato da attribuire al termine di probabilità.

 

  • Il concetto di base su cui si fonda la definizione assiomatica è quello di spazio degli eventi (elementari che permettono di costruire tutti gli altri eventi). Ω (omega) detto anche spazio campionario ossia l’insieme discreto o continuo dei risultati possibili di una prova.

 

DEFINIZIONE ASSIOMATICA DI PROBABILITA’

Evento casuale = è un risultato di una prova

Ω= tutti i possibili risultati di una prova

Se si definisce un evento casuale un sottoinsieme di Ω, ad ogni evento casuale E è possibile associare un numero REALE p(E) (p di e) chiamato probabilità, tale che

    • 0 <= p(E) <= 1 (la probabilità è un numero reale compreso tra 0 ed 1, estremi inclusi) (ASSIOMA DI NORMALIZZAZIONE).
    • Se E è  un evento certo p(E) = 1.

(es. p(Ω) = 1; se E è un evento impossibile p(E) = 0)

    • Se E1 e E2 sono eventi disgiunti e incompatibili, ossia che si escludono a vicenda (il verificarsi dell'uno esclude il verificarsi dell'altro)la probabilità di E1 o E2 è data da  p(E1 o E2) = p(E1) + p(E2)  

detto assioma dell' ADDITIVITA’, ossia la probabilità di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi.

 

 

LO SPAZIO CAMPIONARIO E IL DIAGRAMMA DI EULERO-VEN

 

Es: se si lancia un dado, lo spazio degli eventi elementari è dato da Ω = {1,2,3,4,5,6}. Tale spazio è un insieme discreto. Lo spazio degli eventi Ω può essere rappresentato col diagramma di Eulero-Ven.

 

1         

 

5     2

  3         6

 

4

   6

     5

 statisticastatistica       Ω                                                     Ω

 

 

 

 

Quello cerchiato è il risultato della prova; quello fuori dal cerchio è il NON E’

NON E’ 1= statistica

esempi di eventi

E1 esce il 4, l'evento complementare di E1 ossia ‘non E’ si indica E1 ed in questo caso è

statistica = {1,2,3,5,6}.

         Nota : E1 + statistica1 = E1 U statistica1 = Ω -> p(E1) + p(E1) = p(Ω) = 1

                   di cui 1 - p(E1) = p(statistica1)

E2 esce un numero statistica 3: l'evento complementare di E2 è statistica2 = {4,5,6}

 

 

PAG.348 – TEOREMI DELLE PROBABILITA’ TOTALI. Per eventi incompatibili e compatibili.

La somme logica di eventi (unione) E1 o E2 o …Es e’ il teorema delle probabilita’ totali per eventi incompatibili.

 

  • Eventi incompatibili = il verificarsi dell’uno esclude il verificarsi dell’altro. Sono eventi disgiunti : E1 …. E2 = 0

Ad esempio determinare la probabilita’ che lanciando una moneta si presenti: E1 = testa o E2 = croce

P (e1 o E2) = P (E1….E2) = P (E1)+P(E2)= 1 fratto 2 + 1 fratto 2 = 1

statistica

 

statisticastatisticaDIAGRAMMA DI EULERO VEN

           E1=T                         E2=C

 

 

 

 

 

 

  • In questo esempio E1⋂E2 = ∅ (l’intersezione dei 2 eventi e’ uguale all’insieme vuoto: non ci sono punti in comune perche’ gli eventi sono disgiunti, incompatibili.
  • In questo esempio E1⋃E2=Ω (l’unione dei due eventi coincide con lo spazio campionario e degli eventi) Ω e la probabilita’ che si verifichi l’evento testa o l’evento croce è uguale alla probabilità dello spazio campionario.

 

 

 

  • Eventi compatibili : il verificarsi dell’uno non esclude il verificarsi dell’altro. Sono eventi congiunti: E1⋂E2≠0

 

Es: nel lancio di un dado i due veventi E1=esce 2 o E2= esce un numero pari

 

 

statistica

statisticastatistica       Ω

 

                     E1                                    E2

            1                            2            4

           

                                                       6

               3                                                         5

 

 

 

 

 

Teorema delle probabilita’ totali per eventi compatibili.

 

Considerati 2 eventi compatibili E1, E2 la probabilita’ di E1 o E2 (E1⋃E2) e’ data da

statisticastatistica

 

 

                  E1               E1⋂E2              E2

statistica 

 

 


P(E1 o E2) = P(E1⋃E2)=P(E1)+P(E2)-P(E1⋂E2) (tolgo l’intersezione con i 2 eventi considerati compatibili.

L’evento E1 è compreso nell’evento E2 (numeri pari). Quando i 2 eventi sono compatibili lo spazio campionario cambia in quanto si restringe un po’.

 

 

TEOREMI DELLE PROBABILITA’ COMPOSTE

 

Il prodotto logico (intersezione) di Eventi (E1, E2 e Es) E1⋂E2⋂Es

A) PER EVENTI DIPENDENTI

Il cui verificarsi dipende (accresce o ne diminuisce la probabilità) dal verificarsi di un altro evento – se domani piove (A) prendo l’ombrello (B)

P(A⋂B)=P(A)*P(B/A) che si legge: P di A e B è uguale a P di A per P di B condizionata da A.

P(B/A) è la probabilità condizionata dell’evento B subordinato al verificarsi dell’evento A ed è uguale a

statistica                                     casi favorevoli al verificarsi di A⋂B

statisticaP(B/A)=statistica              

                                      Casi favorevoli al verificarsi di A

 

Se P(A) ≠0 (se la probabilità di A è diversa da zero)

 

B) PER EVENTI INDIPENDENTI

Il cui verificarsi non è influenzato dal verificarsi di un altro evento

Es. domani piove (A) a pranzo mangio pollo (B)

 

P(A⋂B)=P(A)*P(B)

 

Perchè in tale caso P(B/A)=P(B)

 

 

 

 

                                                                                                       12/05/2004

 

Il campione si può costruire in due modi                                                                           

 

 

 

NON PROBABILISTICO :

tra i non probabilistici c’è il campione a valanga (es. dai clienti di un negozio estraiamo un numero casuale)

 

CASUALE :

devo avere la lista delle n unità statistiche dalla quale estraggo con tecnica casuale il campione

                                                          

 

 

 

 

statisticastatistica 

 

 


statisticastatisticastatistica                     SEMPLICE                                           RAGIONATO (è il campione non

statistica                                                                                                 probabilistico più usato)

statistica                     STRATIFICATI     possono

                                               coesistere

statisticastatistica                     A STADI                                                             PER QUOTA (le variabili di 

                                                                                              controllo  sono considera-

                                                                                              te separatamente)

 

statisticaPER DEFINIZIONE (le variabili di controllo  sono considerate incrociate)

 

E’ molto importante la differenza fra strato e stadio : con il campione stratificato diminuisce la variabilità, diminuisce il σ (sigma) della popolazione, perché divido la popolazione in tante sub-popolazioni (classi).

Inoltre con il campione a strati evito di costruire la lista delle n unità statistiche (in alcuni casi può essere un’operazione molto difficile da attuare) per tutti i passaggi che devo compiere.

 

statisticaDifferenza tra casuale e non probabilistico l’inferenza la applico solo al campione casuale.

 

 

statistica 

        

 

 

 

Universi

statistica(universo dei campioni)  insieme di tutti i possibili campioni casuali di numerosità n che posso estrarre da una popolazione P secondo un dato piano di campionamento.

 

statistica(universo con ripetizione) statistica , N popolazioni elevate alla numerosità del campione scelto per sapere il numero massimo possibile di tutti i campioni di quella popolazione.        

 

 

statisticastatistica     statistica  = (universo in blocco)  N = statistica

                                               n       

statistica 

 

 


statistica  =  (universo esaustivo, senza ripetizione)     

 

Se un campione casuale è rappresentativo della popolazione vuol dire che non è distorto (e non che riproduce le caratteristiche della popolazione, perché essendo un campione casuale questo non è garantito).

 

 

CAMPIONI CASUALI, INFERENZA STATISTICA E TEORIA DEI CAMPIONI.

 

I risultati di campioni ottenuti con metodo di campionamento casuale consentono di trarre conclusioni non certe (ossia in termini probabilistici) sul valore stima (puntuale o per intervalli) di particolari parametri della popolazione o sulla verifica di specifiche ipotesi (tramite test statistici) che sono l’oggetto dell’inferenza statistica; questa si applica solo a campioni casuali, i quali a loro volta possono essere di diverso tipo a seconda della strategia più o meno complessa ossia del piano di campionamento scelto, in base agli scopi della ricerca, che è l’oggetto della teoria dei campioni.

    

              Stima e Verifica sono i due momenti che caratterizzano

                  l’inferenza statistica.

 

(pag. 399)

 

 

Inferenza statistica i problemi oggetto dell’inferenza:

  • Stima puntuale di un unico valore numerico, come ad esempio la media aritmetica, tramite la scelta di uno stimatore avente date proprietà.

 

  • Stima in un intervallo di confidenza (insieme di valori) tramite la scelta di un livello di confidenza P% che contiene il valore del parametro θ di P.

 

  • Verifica di ipotesi statistiche tramite test statistici (parametrici e non parametrici).

 

 

 

Campioni alcune definizioni :

 

    • Parametro (statistica) : si indica, come termine generico, con la lettera greca theta, o comunque nello specifico sempre con una lettera greca (σ , μ).

E’ il valore caratteristico della popolazione P (es. una ,media, una frequenza, un indice di variabilità).

 

    • Statistiche (statistics): (statistica) (stime di un parametro) si indica con una theta segnata con cappello.

statisticaE’ il risultato di una funzione delle n osservazioni campionarie su un dato campione (x1, x2, ….xn), ossia una data n-pla (i possibili campioni).

 

                                                    Le x sono minuscole perché indicano un preciso

                                                    campione degli n possibili.

 

Theta segnato = funzione di x1, x2, ecc… (diventa cruciale la scelta di h)

 statistica                                 statistica

 

 

statistica                                         ad esempio per la media :

                                                      statistica

 

    • Stimatore : è una funzione statistica (dove le X sono grandi perché il campione varia)delle n osservazioni campionarie per il calcolo delle “statistiche”. 

            Esempio:

                lo stimatore per la media aritmetica è

                                                                 

 

Sommatoria per i che va da 1 a n delle x con i (indice) diviso n

 statistica                                           statistica                         

 

                          Si noti che la n-pla statistica varia al variare dei campioni

                          nell’universo dei campioni.                                          

                                                                              

    • Spazio campionario : (per valori continui) l’insieme di tutti i possibili campioni di numerosità n estraibili dalle N unità statistiche di una P  mediante scelta casuale.                              

Se P  è finita si parla di Universo dei campioni (per valori discreti : cioè tutti gli elementi sono numerabili; è una popolazione teorica).

 

 

DISTRIBUZIONE CAMPIONARIA DELLA STATISTICA statistica : LA V.C.C. (variabile casuale campionaria)

 

La variabile casuale campionaria è anche detta V.A.C. : variabile aleatoria campionaria.

Al variare dei campioni nell’universo dei campioni la statistica statistica    (ad esempio media aritmetica, una percentuale, ecc..) assume valori diversi per cui è possibile costruire la sua distribuzione campionaria (come si distribuisce nell’universo dei campioni) che definisce una v.c.c.

 

Esempio pag.400

Si consideri la popolazione P costituita da N = 5 S.p.A. e il carattere x = investimenti nel 1990 (in milioni di lire) e come parametro θ di P  la media aritmetica μ :

 

Società (N)

Investimenti (x)

A

140

B

150

C

120

 D

180

E

160

                                                                                                                                            

      μ = 150 (media)

      σ = 20 (s.q.m)

      statistica=400 (varianza)         

 

 

 

 

DISTRIBUZIONE CAMPIONARIA DELLA STATISTICA statistica : LA V.C.C. statistica.

 

Si fissi una numerosità n=2 per il campione e si decida che esso sia un campione casuale semplice con ripetizione. Si consideri per ciascuno di essi la statistica               statistica        “investimento medio” (in milioni); pertanto nell’statistica si avrebbero i seguenti investimenti medi statistica:statistica. Sono 25 i possibili campioni statistica bernoulliani di numerosità 2:

                       N = 5     A,B,C,D,E

 

(tabelle 73 e 74 pag.401)

 

In questo esempio abbiamo la media vera che nella realtà non abbiamo quasi mai. Dei campioni (25) possibili molti hanno un valore che si discosta dalla media e potrebbe capitarci uno di questo.

 

ERRORE DI CAMPIONAMENTO : nell’esempio solo 5 campioni hanno la stima del parametro uguale al valore vero (150, la media); tutti gli latri hanno un errore di campionamento.

L’errore di campionamento è RANDOM (casuale) e dalla curva di Gauss sappiamo anche come si distribuisce : molto frequente vicino alla moda, meno frequente man mano che ci si allontana dal valore vero.

Quanto più dunque ci allontaniamo dal picco centrale, tanto più diminuisce la possibilità di errore.

 

Si noti che soltanto 5 campioni si 25 hanno un valore statistica, tutti gli altri contengono un errore di campionamento che dipende da quel particolare campione estratto misurabile dagli scarti statistica (media campione – media popolazione) che riferiti a tutti i valori statistica della distribuzione campionaria della v.c.c. statistica costituiscono la variabile casuale statistica.

Tali errori sono di tipo casuale (random).

Pertanto la variabile casuale statisticatende all’aumentare della numerosità n del campione (< di 30 unità statistiche = piccolo campione) ad una distribuzione di tipo normale (Gauss)

                                            statistica 

 

statistica                                                          n             C

statistica 


statistica                                                                            C2             

 

 

 

statisticastatisticastatistica                                                                                                   

                                                                       -30          -10     -5          5        10         30  

 

TEOREMA DEL LIMITE CENTRALE.

 

Siano x1,x2,….xn, n variabili casuali indipendenti di media μ e varianza statistica (in altre parole sia x1,x2,….xn un campione bernoulliano estratto da una popolazione con funzione di densità non necessariamente normale di media μ e varianza statistica ) al crescere di n la distribuzione della media             

statisticastatisticastatisticastatistica                                                             statistica                                    C 3

statistica                                                                                                      C30

statistica         statistica                                                 0                       μ                statistica

 

tende alla distribuzione normale con media μ (media della popolazione vera) e varianza

 

N-1 è il fattore di correzione per popolazioni finite (con un numero finito di elementi).

 statisticastatisticastatistica                        statistica

nell’universo bernoulliano;  statistica nell’universo in blocco.

Nelle applicazioni per n >= 30 si ha una buona approssimazione alla distribuzione normale.Si può attuare la trasformazione della variabile casuale statistica nella variabile standardizzata Y :

 

statisticastatistica

Variabile media – media

               s.q.m.

 statistica                   statistica

 

 

 

                            statistica à   statistica

 

che all’aumentare di n tende ad una variabile casuale normale standardizzata con media μ = 0 e statistica = 1 N(0,1).

 

statistica 

 

 

 


statistica                      È lo standard error (misura compatta dell’errore)

 

 

 

Se aumento la numerosità (radice quadrata di n) diminuisce σ e quindi l’errore. Si potrebbe diminuire σ con il campionamento stratificato e quindi diminuire anche l’errore.

                                                                                                       25/05/2004

 

LA NUMEROSITà

 

Il test del χ2 può essere utilizzato anche per verificare l’ipotesi che la distribuzione empirica sia stata estratta da una popolazione teorica (ad es. normale). In tal caso prende il nome di test di omogeneità e l’espressione è :

statistica

in cui statistica sono le k frequenze assolute della distribuzione empirica; statistica sono le k frequenze teoriche.           

Si noti che i gradi di libertà g sono uguali a g = k – ν – 1  in cui k ?????? delle classi (??????); ν = i parametri della distribuzione teorica (es. per la distribuzione normale i parametri sono ν = 2 [μ ; σ]).

 

Esempio

Su un campione di 400 famiglie con 2 figli si è osservata la seguente distribuzione rispetto al sesso dei figli

statisticastatistica                  

                            MM     MF      FF      tot.

                           

                            80      220     100     400

 

 

Si vuole verificare l’ipotesi nulla  statistica    : che la probabilità di un figlio maschio sia uguale a quella di una figlia femmina e inoltre che l’evento sesso del nascituro sia indipendente dal sesso del figlio già nato.

La distribuzione teorica sarebbe dunque la seguente

statisticastatistica                           

MM     MF      FF      tot.

                           

                            100     200     100     400

 

 

 

Applicando il test di omogeneità si calcola la statistica-test       

statistica

 

Prefissando quindi α= 0.05 e sapendo che i gradi di libertà sono g=K-1= 3-….. si trova sulle tavole il valore teorico del

(manca la formuletta perchè non l'ho capita)

χ2 α = 0,05; g = 2 = 5,991

 

Poichè χ2 (empirico) = 6 > α = 0,05;g = 2=5,991 si rifiuta l'ipotesi nulla

 statistica  ;

prefissando invece α =0.01 e g=2 si ha che  χ2 (empirico) = σ > α = 0,05;g = 2=5,991

Si accetta quindi l'ipotesi nulla di uguale probabilità di nascita di un maschio  o di una femmina e dell'indipendenza rispetto al sesso del figlio già nato.

(esercizi di statistica pag. 359-378)

 

COME SI CALCOLA LA NUMEROSITà CAMPIONARIA PER LA STIMA DI UNA MEDIA NEL CASO DEL CAMPIONAMENTO CASULAE SEMPLICE.

 

La numerosità di un campione è funzione del parametro che si vuole stimare o dell' ipotesi che si vuole verificare.

Nella determinazione della numerosità campionaria infatti occorre distinguere :

  • stima per attributi : calcolo della numerosità del campione per la stima di una frequenza
  • stima per variabili : per la stima di una media.

 

Nella pratica spesso è necessario calcolare la numerosità del campione per le stime di entrambi i parametri; in tal caso si calcola la numerosità per ciascuno e poi si sceglierà quella più elevata.

Nel caso di piani di campionamento piu’ complessi del campione casuale semplice (ad es. stratificato, proporzionale, ecc..) si può impiegare per la scelta della numerosità campionaria finale il DEFF (Design effect)

Occorre inoltre distinguere se la numerosita’ qualunque sia il parametro da stimare si riferisca a:

 

  • campioni bernoulliani o con ripetizione ossia campioni di n elementi estratti da una popolazione ??????????????ad una popolazione infinita.
  • campioni senza ripetizione(in blocco, esaustivo) estratti da una popolazione finita.

PICCOLI CAMPIONI N< 30 ; GRANDI CAMPIONI > 30.

 

Se la varianza del carattere x non è nota, nella popolazione P una stima di statistica può essere distinta:

  • sulla base di esperienze precedenti
  • mediante una piccola indagine pilota preliminare
  • nell'ipotesi di non avere altre informazioni si può dimostrare che un limite superiore per σ è dato da statistica.

 

Questa stima è molto pessimistica e porta a campioni con numerosità elevata si può allora supporre che max statistica e si  può assumere a titolo cautelativo che min σ = 0; si può allora considerare cone stima di σ la media aritmetica :

                                                              statistica

 

quindi la varianza è    statistica

 

 

CALCOLO DELLA NUMEROSITà CAMPIONARIA PER LA STIMA DI UNA MEDIA μ DI p.

 

Il caso di un campione bernoulliano .

 

Si suppone di estrarre da una popolazione normale un campione bernoulliano di numerosità n e che la sua media campionaria sia (essendo statistica l'errore di campionamento) un valore assoluto da cui è affetta la media si può porre tale differenza

formula con il δ =[ x - μ|

indicando con δ l'errore che siamo disposti ad accettare. Si vuole minimizzare la probabilità di avere campioni con un errore maggiore di δ ad un livello di rischio prefissato che indicherà come al solito con δ ossia statistica

 

questa disuguaglianza si può anche scomporre

statistica

 

da cui standardizzando e con facili passaggi si ricava l'espressione della numerosità campionaria n ?????? prefissato:il livello di rischio ?????? l'errore assoluto δ : supponendo nota la varianza del carattere x nella popolazione P e

                            statistica

 

Esempio.

Si determini l'ampiezza del campione bernoulliano necessario per stimare la durata media di ascolto tv domenicale tra gli abitanti ???????????????????????????????????????????????????????????????????????????? una precisione di 2 minuti ed un'attendibilità del 95%. Si stima la varianza mediante un'indagine ?????????????????????alle seguenti durate di ascolto in minuti

 

  • 120  120  105  120  120  180  60  90  45  120  105  105  120

 

La media e la varianza corretta del campione bernoulliano sono rispettivamente

                                      x = 112 min ;  s = 1281.43

        

Pertanto la numerosità del campione bernoulliano è

 

statistica

 

La grandezza del campione è dovuta ??????????????????????? un alto livello di precisione δ+-2 minuti e un'elevata variabilità.

 

 

 

Il caso di un campione in blocco.

 

Nel caso di un campione senza ripetizione si può quindi considerare ????????? per il calcolo della numerosità campionaria l'espressione

                                      statistica

in cui si tiene conto del fattore di correzione per popolazioni finite perchè la frazione di campionamento è ??????????

 

Esempio

Si consideri una popolazione P di N=200 unità statistiche e si voglia calcolare la numerosità campionaria in blocco per stimare l'ascolto tv medio domenicale, sapendo che tale ascolto ha uno s.q.m. di 36 minuti e prefissando un livello di significatività P = 1 - α  = 0.95.

 

α = 0.05      statistica     e un errore δ ?????????

 

Pertanto la numerosità campionaria è data da

 

statistica

 

 

Fonte : www.sociologia.uniroma1.it Appunti di Pieri

 

  • Fine articolo Statistica

 

  • Fine articolo Statistica tutto di tutto

 

 

 

Statistica tutto di tutto

 

Collegamenti utili gratuiti

 

Disclaimer : gli obiettivi di questo sito sono il progresso delle scienze e delle arti utili in quanto pensiamo che siano molto importanti per il nostro paese i benefici sociali e culturali della libera diffusione di informazioni utili. Tutte le informazioni e le immagini contenute in questo sito vengono qui utilizzate esclusivamente a scopi didattici, conoscitivi e divulgativi. Le informazioni di medicina e salute contenute nel sito sono di natura generale ed a scopo puramente divulgativo e per questo motivo non possono sostituire in alcun caso il consiglio di un medico (ovvero un soggetto abilitato legalmente alla professione). In questo sito abbiamo fatto ogni sforzo per garantire l'accuratezza dei tools, calcolatori e delle informazioni, non possiamo dare una garanzia o essere ritenuti responsabili per eventuali errori che sono stati fatti, i testi contenuti nel sito sono di proprietà dei rispettivi autori. Se trovate un errore su questo sito o se trovate un testo o tool che possa violare le leggi vigenti in materia di diritti di autore, comunicatecelo via e-mail e noi provvederemo tempestivamente a rimuoverlo.

 

 


 

Statistica tutto di tutto