Statistica tutto di tutto
Collegamenti utili gratuiti
Da Wikipedia :
La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni collettivi - può essere sintetizzata e quindi compresa. Con il termine statistica, nel linguaggio di tutti i giorni, si indicano anche semplicemente i risultati numerici (le statistiche richiamate nei telegiornali, ad esempio: l'inflazione, il PIL etc.) di un processo di sintesi dei dati osservati.
La misura quantitativa dei fenomeni sociali ha una storia antica.
In Egitto si rilevava l'ammontare della popolazione già ai tempi della prima dinastia e durante la seconda si rilevavano vari beni a fini fiscali. Durante le dinastie successive si tenevano elenchi delle famiglie dei soldati, dei dipendenti statali, delle merci. Sotto la ventesima dinastia si tenevano liste delle abitazioni e dei loro abitanti. In Israele il primo censimento fu fatto ai tempi del soggiorno nel Sinai (da cui il libro dei Numeri della Bibbia) e altri ne seguirono. Anche l'immenso impero cinese ha sempre curato i censimenti, che nell'epoca dei Ming avevano cadenza decennale. Non si hanno invece notizie di censimenti nella Grecia antica, ma venivano registrati ogni anno i nati dell'anno precedente. La rilevazione dei cittadini e dei loro beni ebbe grande importanza nella Roma antica. Il primo censimento fu ordinato da Servio Tullio e si ebbero poi censimenti con periodicità quinquennale dalla fine del VI secolo a.C., decennale a partire da Augusto. La caduta dell'impero romano comportò la sospensione di tali attività per secoli, fino alla ricostituzione di organismi statali da parte dei Carolingi. Il sorgere dei Comuni, poi delle signorie, delle repubbliche marinare e degli Stati nazionali comportò una progressiva frammentazione non solo politica, ma anche amministrativa. Già dal XII secolo si ebbero rilevazioni statistiche in Italia, da Venezia alla Sicilia, con obiettivi prevalentemente fiscali. Ebbero poi crescente importanza le registrazioni su nascite, matrimoni e morti effettuate dalle parrocchie, iniziate in Italia ed in Francia fin dal XIV secolo. L'esigenza di quantificare i fenomeni oggetto di studio, ossia di analizzarli e descriverli in termini matematici, fu una tendenza tipica del XVII secolo: non fu solo l' Universo ad essere concepito come un grande libro "scritto in caratteri matematici" - come aveva affermato Galileo Galilei -, ma si diffuse anche la convinzione che fosse possibile studiare la società tramite strumenti di tipo quantitativo. In genere, le origini della statistica nella concezione più moderna, si fanno risalire a quella che un economista e matematico inglese, William Petty (1623 - 1687), chiamo "aritmetica politica", ovvero "l'arte di ragionare mediante le cifre sulle cose che riguardano il governo"; tra le cose che maggiormente stavano a cuore al governo, del resto, vi erano l'entità della popolazione e la quantità di ricchezza che essa aveva a sua disposizione, dalle quali dipendeva in ultima analisi la forza degli Stati in competizione tra loro. Demografia e calcolo del reddito nazionale furono quindi gli ambiti in cui si esercitò la creatività dei primi "aritmeti politici". Nel primo campo un autentico precursore fu John Graunt (1620 - 1674), un mercante londinese, che tramite lo studio dei registri di mortalità, riuscì per primo a rilevare l'approssimativa costanza di certi rapporti demografici e a costruire una prima e rudimentale "tavola della mortalità". Le sue Natural and Political Observations on the Bills of Mortality risalente al 1662 possono essere considerate a buon diritto come l'opera fondatrice della demografia. Il metodo statistico elaborato da Graunt per il settore demografico fu poi ripreso da William Petty, che nel suo Fuve Essays on the Political Arithmetic del 1690 espose i principi fondamentali della nuova disciplina. Nei medesimi anni, venne data alle stampe l'opera di un altro grande aritmeta politico, Gregory King (1648 - 1712), il quale nelle sue Natural and Political Observations and Conclusion upon the State and Condition of England risalente al 1698 formulò una stima della popolazione e del reddito totale dell'Inghilterra, giungendo a conclusioni ritenute abbastanza veromisili. In Francia un tentativo simile venne effettuato dal ministro del re Luigi XIV ed economista Sebastien de Vauban (1633 - 1707), che stimò la popolazione del Regno di Francia intorno ai venti milioni di abitanti - valutazione condivisa dalgi storici attuali. Ai problemi statistici si interessarono anche alcune delle menti più brillanti dell'epoca: il fisico olandese Christiaan Huygens (1629 - 1695) elaborò delle tavole di mortalità, l'astronomo inglese Edmund Halley (1656 - 1742) avanzò una serie di ipotesi sul numero di abitanti dei vari Paesi europei, mentre in Germania il grande filosofo Gottfried Leibniz (1646 - 1716) suggerì la creazione di un ufficio statale di statistica. Nel frattempo, in concomitanza con lo sviluppo di queste prime ed ancora rudimentali metodologie demografiche, ci si cominiciò a porre questo tipo di problemi anche per quanto concerneva la storia precedente: ciò indusse a guardare in modo critico e diffidente ai dati forniti da quegli autori del passato che avevano cercato di quantificare il numero di abitanti di un territorio, le dimensioni di un esercito, i morti per un'epidemia, ecc. Un contributo importante, sotto questo profilo, venne da uno dei più grandi pensatori del XVIII secolo, lo scozzese David Hume (1711 - 1776) il cui Of the Populousness of Ancient Nations diede inizio alla demografia storica. In tale testo Hume rilevò come le cifre tramandateci dagli antichi fossero particolarmente inaffidabili, non solo perché le loro stime non avevano basi solide, ma anche perché i numeri di ogni tipo contenuti negli antichi manoscritti sono stati soggetti ad un' alterazione molto maggiore di qualsiasi altra parte del testo, in quanto ogni altro tipo di alterazione modifica il senso e la grammatica ed è quindi più facilmente individuata dal lettore e dal trascrittore. In Italia venne creato un Ufficio Statistico Nazionale nel 1861, che poi diventò ISTAT nel 1926.
-
Fine articolo Statistica
APPUNTI DI STATISTICA
SCHEDA N°1: I DATI STATISTICI
La statistica si occupa dei modi di raccogliere e analizzare dati relativi ad un certo gruppo di persone (studenti di una scuola, abitanti di un quartiere, elettori di una regione, ecc) o di oggetti (automobili,dischi, libri ecc) per trarne conclusioni e fare previsioni. Le fasi fondamentali di un’indagine statistica sono quindi:
il rilevamento dei dati;
l’elaborazione dei dati.
Il gruppo preso in considerazione viene anche detto popolazione o universo. Se la rilevazione dei dati viene effettuata su tutta la popolazione, si definisce censimento. Spesso viene presa in esame solo una parte della popolazione, detta campione, scelta in modo che rappresenti l’intero gruppo.
La raccolta di tipo globale è più significativa di quella campionaria, sebbene sia molto costosa nel caso di popolazioni numerose. Per questo motivo la maggior parte delle raccolte dati è di tipo campionario. Il campione deve essere attendibile: le tecniche utilizzate per la raccolta dati possono essere l’intervista diretta o indiretta (tramite questionario). Di solito si propongono questionari anonimi con la sola richiesta del sesso e dell’età.
Una volta raccolti i questionari compilati:
si conta per sapere il numero effettivo delle unità che costituiscono il campione;
si contano le diverse risposte date a ciascuna domanda predisponendo tabelle di spoglio;
si rappresentano graficamente i dati;
si elaborano i dati con i metodi matematici più opportuni;
si interpretano i dati ed in certi casi si traggono conclusioni che possano valere per tutta la popolazione.
I metodi per ottenere risultati soddisfacenti nel procedimento di passaggio dal campione alla popolazione sono studiati da quella parte della statistica detta statistica induttiva.
Ci limiteremo a studiare alcuni degli strumenti matematici utilizzati per descrivere i dati relativi ad un certo gruppo scelto come popolazione. In questo caso si parla di statistica descrittiva.
Gli elementi di una popolazione si chiamo anche unità statistiche. E’ possibile studiare diverse caratteristiche di tali unità e ogni caratteristica rappresenta un carattere della popolazione.
I caratteri possono essere di due tipi:
qualitativi, se vengono descritti mediante parole;
quantitativi,se descritti mediante numeri;
Per esempio, se scegliamo come unità statistiche gli studenti di una scuola alcuni caratteri qualitativi sono il sesso, il paese di provenienza, il mezzo di trasporto usato per raggiungere la scuola; sono invece caratteri quantitativi l’età, il peso, la statura.
Ogni carattere viene descritto mediante le modalità con cui esso si può manifestare. Esempio: il carattere “mezzo di trasporto” ha come modalità: treno, autobus, motorino,…
Fonte : www.luigieinaudi.it
Fine articolo Statistica
La statistica è la scienza che ha come scopo lo studio dei fenomeni collettivi.
La statistica si occupa di fenomeni collettivi, non interessa il singolo individuo (inteso sia come soggetto umano che come qualsiasi unità di tipo inanimato), ma di una popolazione, di un insieme. Vede i fenomeni sempre dal punto di visto collettivo.
Correntemente ci si trova a che fare con grandi moli di dati che in qualche modo vanno classificati e sintetizzati.
La statistica si occupa dello studio del collettivo, di come raccogliere informazioni su questo collettivo e come presentarle in una forma facilmente comprensibile ad un pubblico non esperto.
Fasi principali di uno studio statistico
- Definizione del collettivo
- Raccolta e classificazione dei dati
- Misurazione e analisi
- Sintesi
Definizione del collettivo
Passo preliminare : bisogna definire con chiarezza il collettivo, a chi si riferisce lo studio statistico.
Raccolta dei dati
Sulla popolazione individuata viene fatta la raccolta dei dati che interessano e classificati nel modo che interessa.
- diretta (parziale o totale) :
- Indagini sul campo (questionari, interviste)
- Indagini su fonti primarie di dati (archivi aziendali, parrocchiali, comunali, ecc..)
- indiretta (fonti statistiche) : i dati primari sono già elaborati e siamo in
presenza di “dati statistici”.
Misurazione e analisi
Si effettuano delle misurazioni per analizzare i dati così raccolti e classificati.
Sintesi
Ne viene ricavata una sintesi.
La raccolta dei dati può essere diretta (materialmente i dati vengono reperiti sul collettivo), oppure indiretta (ci si rivolge ad una risorsa che ha già questi dati raccolti e classificati)
I dati prelevati in modo diretto sul campo sono sempre più attendibili ma su una popolazione molto vasta tale modo di reperire dati diventa troppo dispendioso in termini di tempo e soldi.
La soluzione è prendere le informazioni che interessano solo su una parte della popolazione : concetto di campione.
Indagine campionaria: non viene investita dalla ricerca tutta la popolazione di riferimento, ma solo una parte scelta perché rappresentativa della popolazione.
Sono presenti numerosissime entità deputate a raccogliere dati a fini statistici che hanno valore legale. Le più importanti fonti ufficiali dei dati statistici sono :
- ISTAT
- OCSE (OECD)
- FAO
ISTAT ha il compito di raccogliere ed elaborare dati statistici riguardanti i più diversi aspetti della vita italiana. Tra l’altro
- predispone e coordina i censimenti (della popolazione ogni 10 anni, è
una conta materiale dei soggetti, una delle poche indagini totali che
viene condotta in Italia)
- definisce la nomenclatura e le metodologie per la rilevazione e la
classificazione dei fenomeni di interesse (demografico, sociale,
economico, ecc..)
- coordina l’attività degli uffici del SISTAN (dlg 322/89)
Fasi di un’indagine statistica
- Piano della rilevazione (definire con chiarezza che cosa si deve studiare e dove)
- definizione del campo di indagine (collettivo, caratteristiche da indagare,
ecc…);
- metodo di rilevazione (diretta o indiretta);
- data di rilevazione
- materiale e personale
- Raccolta dei dati
- Spoglio e classificazione dei dati
- Elaborazione dei dati
- Interpretazione delle elaborazioni (si evincono informazioni e conclusioni dai dati classificati)
- Rapporto di sintesi (si analizzano i dati raccolti, si dà un’interpretazione che generalmente va a suffragare un’ipotesi fatta inizialmente e si pubblica)
Nomenclatura statistica.
Popolazione(collettivo) l’insieme completo degli individui che si vogliono studiare, mediante la rilevazione di uno o più caratteri.
Una popolazione può essere
- FINITA
- INFINITA
(A fini statistici è sempre meglio che la popolazione sia finita).
Campione una parte della popolazione oggetto di indagine che in qualche modo può
essere rappresentativo della popolazione da cui viene selezionato.
Unità statistica un elemento dell’insieme che si vuole studiare e che corrisponde a
caratteristiche ben precise.
Famiglia (per il censimento) un insieme di persone legate da vincolo di
matrimonio, parentela, affinità, adozione, coabitanti ed aventi dimora
abituale nello stesso luogo.
Convivenza (per il censimento) l’ insieme delle persone che senza essere legati da
vincolo di matrimonio, parentela, ecc…, vivono in comune per altri motivi
(motivi religiosi, di cura, di assistenza, militari).
Caratteri statistici.
Un collettivo può essere studiato secondo le modalità che assume il carattere statistico sotto osservazione.
I caratteri possono essere classificati secondo il diverso livello (scala) di misurazione e possono assumere diverse modalità.
Per comodità si distinguono i caratteri statistici in due tipi fondamentali:
- caratteri quantitativi o variabili
- caratteri qualitativi o mutabili.
1-caratteri quantitativi o variabili
All’interno dei caratteri quantitativi distinguiamo due sottotipi, secondo il diverso livello o scala di misurazione misurabili
- su scala di intervalli e
- su scala di rapporti.
La scala di intervalli indica tutte quelle variabili, caratteri quantitativi, che non hanno uno zero assoluto, sono costruite facendo riferimento ad altro.
Un carattere quantitativo sprovvisto di zero assoluto è quel carattere in cui nella scala di misurazione zero significa assenza di quel carattere.
Le scale ad intervalli permettono di stabilire non solo quali unità statistiche sono maggiori o minori di altre, ma stabilisce anche “di quanto” è la distanza tra esse (sono normalmente circoscritte a poche cose : scale di misurazione della temperatura, psicometriche, gradimento numerico).
Nelle scale di rapporti invece esiste lo zero assoluto ed è possibile calcolare i rapporti tra unità statistiche rispetto ai valori del carattere considerato.
CARATTERE |
SCALA DI MISURAZIONE |
Altezza |
Rapporti |
Peso |
Rapporti |
Età |
Rapporti |
Numero dei componenti |
Rapporti |
Reddito |
Rapporti |
Temperature |
Intervalli |
2-caratteri qualitativi o mutabili
I caratteri qualitativi si distinguono in ordinali e nominali o sconnessi : nel primo caso è possibile stabilire un ordine, nell’altro no.
CARATTERE |
SCALA DI MISURAZIONE |
Titolo di studio |
Ordinale |
Gradi militari |
Ordinale |
Sesso |
Nominale |
Colore degli occhi |
Nominale |
Disciplina sportiva |
Nominale |
Pratica religiosa |
Nominale |
CLASSIFICAZIONE DEI CARATTERI STATISTICI E LIVELLO DI MISURAZIONE.
|
SCALA |
OPERAZIONI CONSENTITE |
Mutabile Sconnessa |
NOMINALE |
= DIVERSO |
Mutabile Ordinabile |
ORDINALE |
< > = DIVERSO |
Variabile |
INTERVALLI |
+ - = DIVERSO < > |
variabile |
RAPPORTI |
* / + - < > = DIVERSO |
I primi due caratteri sono qualitativi, gli altri due sono quantitativi. Più si scende nella scala e più sale il livello di qualità del dato.
Se la variabile (carattere quantitativo) può assumere tutti i valori dell’intervallo di definizione si dice CONTINUA (può assumere un numero infinito di modalità).
Se può assumere solo alcuni valori dell’intervallo si dice DISCRETA o DISCONTINUA.
- ALTEZZA continua
- PESO continua
- COMPONEMTI NUCLEO FAMILIARE discreta
- NUMERO PALAZZI DI UN QUARTIERE discreta
- POSTI A SEDERE DI UN CINEMA discreta
Distribuzioni statistiche.
Ordinare e classificare i soggetti secondo un certo criterio.
Le distribuzioni statistiche derivano dall’operazione di classificazione delle unità considerate secondo le modalità di uno o più caratteri.
Se si riferisce ad un solo carattere la distribuzione statistica si definisce SEMPLICE.
Se si riferisce a 2, 3,….N caratteri allora la distribuzione statistica si definisce DOPPIA, TRIPLA,…MULTIPLA.
Se il carattere considerato è qualitativo la distribuzione statistica si chiama anche SERIE STATISTICA.
Se il carattere è quantitativo allora si parla di SERIAZIONE STATISTICA.
FREQUENZA ASSOLUTA è il numero di unità statistiche che presentano la stessa modalità
di un carattere
FREQUENZA RELATIVA è il rapporto tra le frequenze assolute e il numero totale di unità
statistiche considerate.
DISTRIBUZIONE DI FREQUENZA SECONDO IL SESSO DI 50 SOGGETTI
SESSO |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
Maschi (M) |
23 |
0.46 |
Femmine (F) |
27 |
0.54 |
totale |
50 |
1.00 |
Sesso = carattere statistico
M –F = modalità del carattere statistico
23 = numero delle unità che presentano la modalità M del carattere statistico sesso (frequenza assoluta)
0.46 = numero delle unità che presentano la modalità M del carattere statistico sesso diviso il totale dei soggetti
17 marzo 2004
Uno degli obiettivi di questa disciplina è quello di estrarre e sintetizzare le informazioni da una massa di dati che altrimenti sarebbe scarsamente interpretabile.
Questo è un altro esempio di come mettendo sottoforma tabellare un insieme di dati che sono stati raccolti in precedenza si possono trarre delle prime informazioni sul fenomeno che si sta studiando.
STATO CIVILE PERSONA DI RIFERIMENTO |
NUMERO FAMIGLIE |
FREQUENZA % |
Celibi/nubili |
551.121 |
15.1 |
Coniugati/e |
2.258.375 |
61.8 |
Separati/e |
114.870 |
3.1 |
Divorziati/e |
103.555 |
2.8 |
Vedovi/e |
625.033 |
17.1 |
TOTALE |
3.652.954 |
100.0 |
Questo è tratto dal censimento della popolazione 2001 ed è il numero di famiglie distribuite secondo lo stato civile. Come vedete risultano coniugati la maggioranza delle famiglie che sono stati sottoposti a censimento. Il numero di famiglie si chiama frequenza assoluta. Come abbiamo visto ieri risulta più utile ricorrere alle frequenze relative.
La frequenza relativa si intende la frequenza assoluta divisa per il totale. Si fa questa operazione perché prendendo ogni frequenza assoluta relativa a ciascuna modalità e rapportandola al totale si indica immediatamente il peso che ha quella modalità sull’insieme del fenomeno. In questa tabella vediamo che coniugati /e è lo stato civile più diffuso. Poi seguono i vedovi, i celibi ecc. però non abbiamo immediatamente il senso di quanto i coniugati siano più pesanti rispetto ai separati per esempio. Facendo le frequenze percentuali (551.121 : 3.652.954 = 0.15 x 100 = 15,1) lo dividiamo per 100 per evitare questo fastidioso 0 che si ripete. Quindi vediamo immediatamente che i coniugati sono non solo superiori ma rappresentano più del 50% quasi i 2/3 della famiglie censite. I celibi rappresentano il 15% di tutte le famiglie censite.
Tabella successiva.
Num ord. |
Sesso |
Altezza |
Peso |
Colore occhi |
Titolo di studio |
Num.comp. familiare |
Possesso computer |
Classe di reddito |
1 |
M |
|
|
|
L |
3 |
SI |
Fino a 30 |
2 |
M |
|
|
|
D |
2 |
SI |
Da 30 a 50 |
3 |
F |
|
|
|
D |
4 |
SI |
Fino a 30 |
4 |
M |
|
|
|
D |
5 |
NO |
Da 50 a 70 |
5 |
|
|
|
|
M |
2 |
NO |
Oltre 70 |
6 |
|
|
|
|
L |
4 |
SI |
|
7 |
|
|
|
|
M |
1 |
NO |
|
8 |
|
|
|
|
|
1 |
NO |
|
9 |
|
|
|
|
|
3 |
SI |
|
10 |
|
|
|
|
|
2 |
|
|
Abbiamo rilevato su 10 soggetti sesso, altezza, peso, colore occhi, titolo di studio conseguito, numero componenti nucleo familiare, se hanno il computer a casa, classe di reddito conseguita nell’ultimo anno.
- carattere sesso è un carattere di tipo qualitativo sconnesso, non ordinabile o nominale.
- carattere altezza espresso in centimetri è un carattere quantitativo su scala di rapporti ed è continuo nel senso che può assumere qualunque valore nell’ambito di un intervallo.
- carattere peso espresso in chilogrammi è lo stesso tipo del precedente.
- colore degli occhi è anche questo un carattere qualitativo, nominale (non è possibile dare un ordine logico) sconnesso.
- Titolo di studio conseguito è un carattere qualitativo di tipo ordinabile (è possibile mettere in sequenza l’insieme delle modalità che contraddistinguono questo carattere).
- Il numero di componenti la famiglia è un carattere quantitativo, discreto (può assumere soltanto alcuni valori nell’ambito di un intervallo, in questo caso può assumere soltanto valori interi).
- Possesso di un computer è un carattere qualitativo di tipo sconnesso, nominale esattamente come il sesso.
Quando un carattere prevede solo 2 modalità “si o no” o “maschio o femmina” si chiama carattere DICOTOMICO.
- Classe di reddito. Questa particolare tipologia di caratteri nascono raggruppati in classi. Quei caratteri quantitativi (quando ci sono parecchie modalità che si sono verificate nella rilevazione) è possibile raggruppare queste modalità in classi. In questo caso già di per se la variabile nasce già suddivisa in classi perché quando andiamo a fare delle interviste su argomenti delicati cerchiamo di formire un minimo di anonimato. Non c’è la domanda diretta “quanto guadagni l’anno?” ma una domanda meno diretta.
Se la distribuzione fosse composta da più soggetti (es.1000) bisognerebbe trovare il modo di rendere le informazioni più visibili, più immediate. Ad esempio rispetto al carattere sesso se noi siamo interessati a vedere questo carattere di quei 10 soggetti nel dettaglio ci costruiamo una distribuzione di frequenza rispetto al carattere “sesso”. Prendiamo le 2 modalità, contiamo (6 maschi e 4 femmine) vediamo la frequenza relativa e quella percentuale e si ha l’indicazione su come è composto quell’insieme.
DISTRUBUZIONE DI FREQUENZA SECONDO IL CARATTERE SESSO DI 10 SOGGETTI |
|||
SESSO |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
FREQUENZE RELATIVE PERCENTUALI |
MASCHI |
6 |
0,6 |
60 |
FEMMINE |
4 |
0.4 |
40 |
TOTALE |
10 |
1,00 |
100 |
Stesso discorso vale per quanto riguarda il numero di componenti del nucleo familiare. Se sono interessato a vedere come sono composte le famiglie dei soggetti che ho intervistato posso costruire una distribuzione di frequenza sotto il profilo del carattere “numero di componenti del nucleo familiare”
DISTRIBUZIONE DI FREQUENZA SECONDO IL CARATTERE NUMERO DI COMPONENTI DEL NUCLEO FAMILIARE DI 10 SOGGETTI |
||||
NUM. COMPONENTI |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
FREQUENZE RELATIVE PERCENTUALI |
FREQUENZE RELATIVE CUMULATE |
1 |
2 |
0,2 |
20 |
20 |
2 |
3 |
0,3 |
30 |
50 |
3 |
2 |
0,2 |
20 |
70 |
4 |
2 |
0,2 |
20 |
90 |
5 |
1 |
0,1 |
10 |
100 |
TOTALE |
10 |
1,00 |
100 |
|
Passando alle frequenze relative vediamo che il caso più frequente è quello di una coppia (dato che non avremmo visto guardando solo la tabella dei numeri).
Quella che segue è invece una tabella sull’ultimo carattere “classe di reddito” quantitativo che nasce già diviso in classi e ci consente di evidenziare con che frequenza si presentano i redditi che sono stati dichiarati.
DISTRIBUZIONE DI FREQUENZA SECONDO IL CARATTERE CLASSE DI REDDITO DI 10 SOGGETTI |
|||
CLASSE DI REDDITO |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE PERCENTUALI |
FREQUENZE RELATIVE CUMULATE |
FINO A 30 |
3 |
30 |
30 |
DA 31 A 50 |
2 |
20 |
50 |
DA 51 A 70 |
4 |
40 |
90 |
OLTRE 70 |
1 |
10 |
100 |
TOTALE |
10 |
100 |
|
Vediamo nella prima colonna che la classe più folta di redditi è quella che va da 51 a 70 milioni in cui la frequenza relativa costituisce il 40% del totale. E’ la classe che pesa di più in confronto alle altre. Quasi la metà dei soggetti intervistati ha dichiarato di prendere tra 51 e 70 milioni l’anno. In aggiunta alle frequenze relative ci sono le FREQUENZE RELATIVE CUMULATE. La frequenza cumulata è semplicemente cumulare alla frequenza attuale la frequenza successiva. Esempio la prima frequenza cumulata è 30 pari alla prima frequenza relativa percentuale; per la classe successiva si somma 30 a 20 che è la seconda frequenza relativa percentuale e si scrive 50 sulla seconda riga della colonna delle frequenze cumulate. Poi si somma la modalità 50 alla modalità 40 che è la terza della colonna frequenze relative percentuali e così via. L’ultima modalità sommata alla precedente mi deve dare un valore che deve coincidere al totale delle frequenze relative percentuali.
Tutto questo serve per dare un’ulteriore indicazione sulla base delle frequenze con cui si presentano le modalità dei caratteri che stiamo studiando per dare un’ulteriore indicazione sulla ripartizione di quel carattere. Ad esempio alla modalità 90 della colonna frequenze relative cumulate io posso dire che il 90% delle persone intervistate ha un reddito che va da 0 a 70 milioni. Oppure la seconda riga della colonna frequenze relative cumulate indica che il 50% delle persone intervistate ha dichiarato un reddito che va da 0 a 50 milioni.
Altezza, peso, età sono altre variabili che vengono suddivise in classi per l’elevato numero di modalità che frequentano e per il rischio di perdere di vista la sintesi dell’informazione. Ad esempio rilevando 100 altezze e volendo fare una sintesi, ci accorgiamo che le modalità con cui si presenta il carattere altezza sono 50, inferiori al N totale delle rilevazioni che abbiamo fatto ma sono talmente tante da non poterci garantire la comprensione immediata di quello che sta accadendo. Avendo raccolto 100 altezze vengono ordinate e si costruiscono delle classi. In questo modo si perdono delle informazioni ma nello stesso tempo riduco drasticamente il numero di modalità e ottengo una tabella con al massimo 7, 8 modalità che mi permettono di poter dire qualcosa sul tipo di fenomeno.
|
ALTEZZA |
|
|
|
|
|
1 |
170 |
|
|
|
|
|
2 |
173 |
|
|
170├ 173 |
1 |
|
3 |
173 |
|
|
|
|
|
4 |
176 |
|
|
173├ 176 |
3 |
|
5 |
182 |
|
|
|
|
|
6 |
173 |
|
|
176├ 190 |
5 |
|
7 |
180 |
|
|
|
------------- |
|
8 |
179 |
|
|
totale |
9 |
|
9 |
178 |
|
|
|
|
|
In questa tabella la modalità 170 ha 1 soggetto; la modalità 173 ha 3 soggetti ecc., quindi ci sono tante modalità con poche frequenze che lo rappresentano.
A questo punto costruisco delle classi (il segno ├ vuol dire carattere destro escluso cioè non fa parte di quella classe) 170 ├ 173; 173 ├176; 176 ├ 190.
Nella prima classe c’è un solo soggetto, nella seconda ce ne sono 3 e nella terza ce ne sono 5. Abbiamo costruito una distribuzione di frequenza in cui le modalità non sono più le singole modalità che ho rilevato ma una classe che contiene diverse modalità. Questa operazione anche se mi fa perdere delle informazioni è utile quando ci sono troppe modalità rilevate diverse tra loro. I dati in questo modo sono più interpretabili.
COME SI COSTRUISCONO LE CLASSI |
- In ogni classe devono essere rappresentati un congruo numero di soggetti. Le classi devono essere di ampiezza tale da far si che all’interno ci sia un numero sufficientemente elevato ma non troppo elevato di casi in cui rientra.
- Ogni classe deve essere di uguale ampiezza.
Si ricorre alla suddivisione in classi quando le modalità rilevate del carattere sono troppo numerose.
Obiettivo: definire delle classi in modo preciso e non ambiguo in modo che ogni unità statistica rilevata possa essere attribuita con certezze ed 1 ed 1 sola classe.
COME SI PROCEDE
- individuare il minimo ed il massimo valore assumibile dal carattere (di una modalità)
dopodiché si va a
- determinare il numero e l’ampiezza delle classi
Questa operazione si può fare solo con caratteri QUANTITATIVI o con caratteri QUALITATIVI ORDINABILI.
CONDIZIONI DA RISPETTARE
- CONTINUITA’ delle classi tutti i possibili valori compresi tra il minimo ed il massimo (dell’intervallo) devono poter essere assunti; le classi devono essere continue non devono esserci buchi tra le classi.
- CONTIGUITA’ delle classi non vi devono essere sovrapposizioni fra l’esterno superiore di 1 classe e l’estremo inferiore della classe successiva.
Esempio:
170 │-----------│175 |
In questo caso non si sa se il valore 174 appartiene alla 1° o alla 2° classe. Non ci può essere una situazione di questo genere, ma deve essere sempre in questo modo │-----------│------------│ 170 174 178 |
|
|
174 │-----------│178 |
- INCLUSIONE o ESCLUSIONE degli estremi della classe. Se il carattere è continuo è possibile includere 1 solo degli estremi (quello superiore o quello inferiore).
Esempio:
Abbiamo rilevato le seguenti altezze di 1 gruppo di 10 soggetti e le doppiamo raggruppare in classi.
164 |
192 |
182 |
170 |
173 |
168 |
174 |
163 |
173 |
175 |
1. Per prima cosa le mettiamo in ordine crescente
163 |
164 |
168 |
170 |
173 |
173 |
174 |
175 |
182 |
192 |
Queste sono le modalità.
2. Si deve calcolare il CAMPO DI VARIAZIONE (la differenza tra il massimo ed il minimo valore rilevato).
192 – 163 = 30 (sarebbe 29+1 perché si considera anche il 163)
3. Determiniamo il numero e l’ampiezza delle classi ( per esempio 3 di uguale ampiezza =10)
4. Indichiamo la INCLUSIONE o ESCLUSIONE degli estremi nelle classi formate
├── incluso l’estremo SX (inferiore) CHIUSE A SX
──┤ incluso l’estremo DX (superiore) CHIUSE A DX
├──┤ inclusi i 2 estremi (superiore ed inferiore)
──── esclusi i 2 estremi
DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE CLASSI DI ALTEZZA |
||||
Classi di altezza in cm (chiuse a sinistra) |
Frequenza assoluta |
Frequenza relativa |
Frequenza relativa % |
Ampiezza classi |
163 ├── 173 |
4 |
0.4 |
40 |
10 |
173 ├── 183 |
5 |
0.5 |
50 |
10 |
183 ├── 193 |
1 |
0.1 |
10 |
10 |
TOTALE |
10 |
1 |
100 |
30 |
Abbiamo diviso 3 classi di uguale ampiezza con l’estremo sx chiuso e l’estremo dx aperto. Prima di tutto a queste modalità attacchiamo le rispettive frequenze. Ci sono 4 soggetti da 163 a 172,9; 5 soggetti da 173 a 182,9 e 1 soggetto da 183 a 192,9. La prima cosa da fare è la somma la quale se non risulta uguale al totale delle nostre rilevazioni c’è un errore da qualche parte. Accertato che non ci siano errori si procede a trovare le frequenze relative. La classe che presenta maggiore frequenza è quella da 173 a 183 con il 50% dei casi.
L’ampiezza delle classi non si mette mai ma in questo caso è per dimostrare l’esempio.
Usualmente si mettono classi di uguale ampiezza ma possiamo anche decidere di costruirci degli intervalli di ampiezza diversa secondo le nostre esigenze se ci sono delle classi più rappresentative per il tipo di studio che stiamo conducendo e ci servono delle ampiezze più ampie o più piccole.
DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE CLASSI DI ALTEZZA |
||||
Classi di altezza in cm (chiuse a sinistra) |
Frequenza assoluta |
Frequenza relativa |
Frequenza relativa % |
Ampiezza classi |
163 ├── 173 |
4 |
0.4 |
40 |
10 |
173 ├── 176 |
4 |
0.4 |
40 |
3 |
176 ├── 193 |
2 |
0.2 |
20 |
17 |
TOTALE |
10 |
1 |
100 |
30 |
C’è una classe di ampiezza più piccola. Abbiamo deciso di farla così perché è la classe che ci interessa di più ed in cui ci sono maggiori frequenze percentualmente e ci permette di fare maggiori considerazioni. Le classi precedente e successiva hanno ampiezza decisamente più ampia (una di 10 e l’altra di 17) perché sono classi che ci interessano di meno.
Fino qui abbiamo visto caratteri di tipo continuo. Vediamo caratteri discreti (numero componenti nucleo familiare, numero di appartamenti, numero di fabbriche in un territorio ecc.) che possono essere contati uno per uno ed assumono un numero finito di valori nell’ambito di un intervallo.
Supponiamo di aver fatto una rilevazione su 10 famiglie ed abbiamo verificato quanti componenti ci sono all’interno di ognuna.
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Unità |
2 |
1 |
4 |
2 |
2 |
3 |
3 |
5 |
5 |
2 |
componenti |
Mettiamo la rilevazione in ordine crescente
2 |
1 |
4 |
5 |
10 |
6 |
7 |
3 |
8 |
9 |
Unità |
1 |
2 |
2 |
2 |
2 |
3 |
3 |
4 |
5 |
5 |
componenti |
Calcolo il CAMPO DI VARIAZIONE (la differenza tra il massimo ed il minimo valore rilevato)
5-1=5 (4+1).
Dividiamo in 2 classi di ampiezza diversa perché il campo di variazione è dispari.
Una classe va da 1 a 3 e l’altra da 4 a 5. In questo caso conviene fare classi chiuse a sx e a dx. Sono contigue, tra 3 e 4 non c’è niente e sono carattere discreti. Fino a 5 perché nell’intervista è stato specificato che il massimo numero di componenti del nucleo familiare è 5.
DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE NUMERI COMPONENTI NUCLEO FAMILIARE |
||||
CLASSI CHIUSE |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
FREQUENZE RELATIVE % |
AMPIEZZA CLASSI |
1├──┤3 |
7 |
0.7 |
70 |
3 |
4├──┤5 |
3 |
0.3 |
30 |
2 |
TOTALE |
10 |
1 |
100 |
5 |
Potrei anche costruirmi delle classi chiuse a sx ed aperte a dx rispettando la distribuzione che ho.
DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE NUMERI COMPONENTI NUCLEO FAMILIARE |
||||
CLASSI APERTE A DX |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
FREQUENZE RELATIVE % |
AMPIEZZA CLASSI |
1├── 4 |
7 |
0.7 |
70 |
3 |
4├── 6 |
3 |
0.3 |
30 |
2 |
TOTALE |
10 |
1 |
100 |
5 |
Comunque anche se si dicono le cose in maniera diversa la distribuzione è la stessa.
TABELLE DOPPIE E MULTIPLE |
Abbiamo visto la tabella semplice in cui c’è un carattere riportato su varie modalità e in cui contiamo le frequenze. Ci sono diversi modi di presentare diversi caratteri relativi agli stessi soggetti, alle stesse unità statistiche per mettere in un’unica tabella una serie di informazioni.
REGIONE |
PIL PRO CAPITE |
SPESA PRO CAPITE PER SPETTACOLI |
Questa tabella (non l’ho trascritta tutta) che si chiama tabella doppia, riporta per una serie di Regioni due diverse informazioni il prodotto interno lordo pro capite e la spesa pro capite per spettacoli. Riporta 2 informazioni abbastanza diverse che possono essere utile per chi le esamina per fare le sue considerazioni. Per ciascun individuo, unità statistica vengono riportate una affianco all’altra una serie di informazioni anche completamente diverse come materia. Queste si chiamano le tabelle doppie o multiple a seconda se ci sono più colonne.
Diverso il caso in cui io metto in diretta relazione 2 caratteri. Supponiamo che abbia rilevato diversi dati ad esempio titolo di studio e classe di reddito. Voglio studiare contemporaneamente come si presentano le modalità di titolo di studio e le modalità classe di reddito. Non mi limito a guardare semplicemente come si presenta o la classe di reddito o il titolo di studio, ma li voglio vedere in contemporanea. Per esempio voglio vedere quanti sono i soggetti che hanno scuola media superiore come titolo di studio e guadagnano tra 30 e 50 milioni.
Costruisco una tabella a doppia entrata. Supponiamo di avere due caratteri statistici qualunque e li chiamiamo A e B. Il carattere A può assumere certe modalità che chiameremo A1, A2,…..Ar , (il numero indica la modalità es. titolo di studio 1= media; 2=diploma; 3=laurea). Lo stesso dicasi per il carattere B che vede come ultima modalità Bs perché le modalità sono diverse da A (che ne ha 3 mentre B nel caso del reddito ne ha 4).
Nella tabella metto sulla testata le modalità di un dei due caratteri, in questo caso B, e sulla fiancata le modalità dell’altro carattere A.
A B |
b 1 |
b 2 |
--------- |
b j |
--------- |
b s |
Totale riga |
a 1 |
n 1 1 |
n 1 2 |
|
n 1 j |
|
n 1 s |
n 1. |
a 2 |
n 2 1 |
n 2 2 |
|
n 2 j |
|
n 2 s |
n 2. |
-------- |
|
|
|
|
|
|
|
a i |
n i 1 |
n i 2 |
|
n i j |
|
n i s |
n i.. |
-------- |
|
|
|
|
|
|
|
a r |
n r 1 |
n r 2 |
|
n r j |
|
n r s |
n r. |
TOTALE |
n .1 |
n . 2 |
---------- |
n . j |
---------- |
n .s |
n .. (N) |
n sono le frequenze cioè i numeri con cui si presentano i soggetti che abbiamo intervistato che presentano la modalità A e B contemporaneamente.
Ad esempio n11 sono i soggetti che presentano la modalità 1 del carattere A e la modalità 1 del carattere B
In fondo a ciascuna riga ci sono delle n indicate con 1 seguito da un puntino ed è il numero di soggetti intervistati che presentano la modalità A1 e non ci interessa di quali modalità assume del carattere B. Cioè per esempio ci saranno i soggetti ch hanno un reddito fino a 30 milioni a prescindere dal titolo di studio che hanno conseguito.
La seguente tabella mostra le frequenze doppie cioè dei soggetti che presentano contemporaneamente una particolare modalità del carattere CLASSE DI REDDITO ed una particolare modalità del carattere TITOLO DI STUDIO.
TITOLO DI STUDIO |
M |
D |
L |
AMPIEZZA CLASSE |
CLASSE DI REDDITO |
|
|
|
|
Fino a 30 |
1 |
1 |
1 |
3 |
Da 31 a 50 |
|
1 |
1 |
2 |
Da 51 a 70 |
|
2 |
2 |
4 |
Oltre 70 |
1 |
|
|
1 |
Totale colonna |
2 |
4 |
4 |
10 |
25/03/2004
Un’informazione più è sintetica più è comprensibile.
Il modo corretto per approcciare i dati è :
- costruire distribuzioni di frequenza
- fare dei grafici
- (il modo più preciso) individuare un indicatore di sintesi che si chiama media.
![]()
Analitiche (caratteri quantitativi)
Medie
Lasche, non analitiche o di posizione (caratteri qualitativi)
Media aritmetica: individua il valore rappresentativo (centrale) di un carattere.
Bisogna però anche tener conto di come questo valore si spalma rispetto a tutte le unità statistiche in esame; per questo scopo esistono degli indici:
![]()
INDICI DI
VARIABILITà
(variabili quantitative) INDICI DI MUTABILITà
(caratteri qualitativi)
VARIABILITA’
Variabilità: Attitudine di un carattere di assumere diverse modalità.
Esempio: DISTRIBUZIONE: A 5 7 8 4 6 M=6
B 6 6 6 6 6 M=6
Nei due casi la media è sempre 6 ma nel secondo caso non c’è variabilità.
Nel primo, la diversa attitudine che può assumere il carattere, viene misurata con indicatori o indici.
Nel caso in cui, fossero sottoposte a studio statistico due popolazioni molto ampie, per descriverle sinteticamente ci riferiremmo non solo al valore medio, ma anche all’indice di variabilità per vedere la concentrazione delle modalità (su una delle due delle popolazioni ci potrebbe essere più variabilità).
Costruzione degli indici
Tutti gli indici di variabilità o mutabilità, devono soddisfare alcuni requisiti formali di coerenza.
- quando la variabilità e nulla, l’indice di variabilità deve assumere valore 0
- l’indice di variabilità deve aumentare all’aumentare della variabilità
- l’indice di variabilità non può assumere valori negativi (la variabilità o c’è o non c’è)
- L’indice di variabilità non si deve modificare se tutte le frequenze vengono moltiplicate o divise per una costante.
Ci sono migliaia di modi per costruire un indice di variabilità; Uno che negli anni ha resistito e che tuttora è ampiamente utilizzato è lo scarto quadratico medio (s. q. m.).
LO SCARTO QUADRATICO MEDIO.
![]()
s =
N
con
N =
i = 1
Scarto = faccio la somma degli scarti di ciascuna modalità con la media
aritmetica.
Quadratico = perché gli scarti sono elevati al quadrato.
Medio = perché facendo la somma degli scarti al quadrato poi si fa la media
(divido per N).
Quella presentata è la formula più generica: moltiplico la somma degli scarti per la frequenza con cui si presenta la modalità.
s = (sigma minuscolo) indica lo scarto quadratico medio.
= frequenza delle modalità; (nel caso di modalità che si presentano con una sola frequenza n(base i) scompare).
= è la modalità che si presenta con una certa frequenza.
S = simbolo di somma
K = numero delle modalità che si presentano.
N = totale della popolazione
Esempio
Età Modalità Frequenza
![]()
6 6 2
6
7 7 1
n 8 k 8 2
8
9 9 1
Ho 6 modalità, di ciascuna faccio lo scarto della media quadratica, lo moltiplico per il numero delle frequenze con cui la modalità si presenta e divido per n (numero totale della popolazione).
Se con un’operazione preliminare individuo la frequenza con cui si presentano le modalità, ottengo un numero k di modalità diverso da n.
Individuando la frequenza delle modalità, raggruppo le modalità e rendo più semplice il calcolo successivo.
La formula senza indice si chiama SIGMA QUADRATO o VARIANZA (usato fino a qualche anno fa soprattutto in Italia, oggi in disuso e sostituita dallo scarto quadratico medio).

N
Con la varianza indico la variabilità al quadrato, mentre con lo scarto quadratico medio indico la variabilità con numeri reali ed elimino “il quadrato” che da un’indicazione amplificata della variabilità.
L’indice di variabilità indica quanto si spalma mediamente il fenomeno in esame su diversi valori ed è espresso con la stessa unità di misura con cui è espresso il fenomeno.
VARIABILE PESO (in kg)
|
|
52 |
2 |
56 |
1 |
59 |
1 |
60 |
1 |
74 |
1 |
76 |
1 |
81 |
3 |
Totale |
10 |
Di cui viene calcolata la media aritmetica
M = 52*2 + 56*1 + 59*1 + 60*1 + 74*1 + 76*1 + 81*3 = 67.2
10
Procedimento :
- si calcolano i singoli scarti dalla media aritmetica
- si elevano gli scarti al quadrato e si moltiplicano per le rispettive frequenze
- si sommano le quantità ottenute al punto b e si divide la somma ottenuta per il totale delle frequenze
- si fa la radice quadrata di quanto ottenuto
|
|
|
(52 – 67.2) |
2 |
462.08 |
(56 – 67.2) |
1 |
125.44 |
(59 – 67.2) |
1 |
67.24 |
(60 – 67.2) |
1 |
51.84 |
(74 – 67.2) |
1 |
46.24 |
(76 – 67.2) |
1 |
77.44 |
(81 – 67.2) |
3 |
571.32 |
(56 – 67.2) |
10 |
1401.6 |
s = ![]()
In media lo spostamento delle modalità dalla media aritmetica è di 11.8 kg (à il fenomeno ha questa variabilità).
Se fosse stato 0 avrebbe voluto dire che le modalità erano concentrate su un unico valore.
Questo indice è ASSOLUTO : il minimo vale 0 e cresce senza un massimo definito, dipende dal fenomeno in esame.
Proprietà della media aritmetica
- La somma degli scarti dalla media aritmetica è sempre 0.
- La somma degli scarti dalla media aritmetica costituisce un minimo.
![]()
![]()
A è un numero diverso dalla media aritmetica.
Lo scarto della variabilità in questo modo indica non solo la variabilità media del fenomeno, ma la indica col numero più piccolo possibile, non c’è spreco.
Se i dati sono raggruppati in classi si prende come
il valore centrale di ciascuna classe.
Classe di reddito |
|
|
|
--| 30 |
24 * |
1 |
(24 - 64.1) |
30 --| 50 |
40 |
1 |
(40 - 64.1) |
50 --| 70 |
60 |
4 |
(60 - 64.1) |
70 --| 90 |
80 |
3 |
(80 - 64.1) |
oltre 90 |
97 * |
1 |
(97 - 64.1) |
totale |
|
10 |
4096.9 |
s = ![]()
Come per la media nel caso di dati raggruppati in classi, lo s.q.m. NON è PRECISO.
Lo s.q.m. può essere calcolato più velocemente con la seguente formula :
s = ![]()
M = media aritmetica
= media quadratica tutte le modalità sono elevate al quadrato e messe sotto radice (non ha utilizzo pratico, è utile solo per alcune formulazioni).

N
Come la media lo s.q.m. è espresso nella stessa unità di misura della variabile.
VARIANZA s.q.m. elevato al quadrato

N
DEVIANZA numeratore della varianza
Dev = 
Per la devianza vale un’importante proprietà, nota come
PRINCIPIO DI SCOMPOSIZIONE DELLA DEVIANZA
Dato un collettivo suddiviso in 2 o più gruppi, la devianza del collettivo (Dev T) è uguale alla somma delle devianze dei singoli gruppi (Dev W) più la devianza tra le medie dei gruppi (Dev B).
Ciascun termine della Dev B deve essere pesato con la numerosità del relativo gruppo.
T = totale
W = within (entro)
B = between (tra)
Dev(T) = Dev(W) + Dev(B)
Si ha un collettivo di 5 persone con la seguente distribuzione di reddito :
2 3 4 6 10
la media aritmetica è M = 5
e la devianza totale è
Dev(T) = (2 – 5)
+ (3 – 5)
+ (4 - 5)
+ (6 - 5)
+ (10 - 5)
=40
Dividiamo il collettivo in 2 gruppi e siano le relative distribuzioni dei redditi le seguenti:
gruppo A 2 6 10
gruppo B 3 4
per il gruppo A
= 6
Dev
= (2 – 6)
+ (6 – 6)
+ (10 – 6)
= 32
per il gruppo B
= 3.5
Dev
= (3 – 3.5)
+ (4 – 3.5)
= 0.5
La Dev W complessiva sarà : Dev W = Dev
+ Dev
= 32.5
La devianza tra le medie dei due gruppi sarà:
DevB = (
- M)
*
+ (
- M)
*
=
(6 – 5)
* 3 + (3.5 – 5)
* 2 = 7.5
DevT = DevW + DevB = 32.5 +7.5 = 40
31 marzo 2004
Abbiamo visto che quando abbiamo a che fare con un carattere di tipo QUANTITATIVO ci sono diversi modi per misurare la VARIABILITA’. E’ importante che quando usiamo un indice di variabilità (qualsiasi costruiamo) dobbiamo ricordare che la variabilità deve essere sempre = 0 quando non c’è variabilità, e che cresce al crescere della variabilità e può dare solo valori positivi perché la variabilità o c’è o non c’è, non può essere negativa.
Tra i tanti tipi di variabilità quello più utilizzato è lo S.Q.M. (scarto quadratico medio) ed è probabilmente quello che più corrisponde a quello che effettivamente si fa. Si chiama così perché è la somma degli scarti di ciascuna modalità della media aritmetica (scarto elevato al quadrato).
Se non abbiamo a che fare con un carattere quantitativo la cosa si complica un po’ per quanto riguarda la misura della variabilità o MUTABILITA’ (nel caso di caratteri qualitativi). Si ragiona più o meno come si fa con la media cioè con caratteri quantitativi utilizzeremo un indice, un indicatore quantitativo con cui si possono fare i conti (vedi SQM). Se abbiamo a che fare con caratteri qualitativi come abbiamo utilizzato mediane, quartili, percentili, mode, ecc. per calcolare un valore medio, così per trovare la mutabilità che può assumere questo carattere utilizziamo degli indicatori che si rifanno all’ORDINE o alla FREQUENZA del carattere.
E’ importante ricordare che quando si ha a che fare con caratteri qualitativi, ad esempio per trovare la moda o la mediana questo si può fare soltanto se questi caratteri hanno il requisito dell’ordinabilità altrimenti non è passibile di essere sottoposto a mediana o quartile o percentile (modalità che divide in N parti la distribuzione ordinata).
DIFFERENZA INTERQUARTILICA |
E’ una misura di MUTABILITA’ usata nei casi in cui si ha a che fare con caratteri qualitativi ordinabili. Come per lo scarto quadratico medio noi ci agganciamo alla media aritmetica per vedere la variabilità che c’è, nel caso di caratteri qualitativi ordinabili ci agganciamo al concetto di percentile. Invece di fare gli scarti con la mediana, possiamo utilizzare dei punti di riferimento per vedere quanta parte di distribuzione cade tra questi punti di riferimento. Si può vedere che tra il minimo valore più piccolo ed il più grande abbiamo il 100% dei casi, la totalità della popolazione.
Prendiamo il campo di variazione che ci permette di avere l’informazione maggiore, cioè tra il 1° quartile (è la modalità che lascia alla sua sinistra tutte le modalità più piccole o uguali a se stessa) e il 3° percentile (lascia alla sua sinistra il 75% di modalità inferiori o uguali a se stessa). Così individuiamo lo spazio dove va a cadere il 50% dei casi centrali. Questo di dice quanto è concentrato quel fenomeno, nella parte centrale della distribuzione. Lo S.Q.M. per i caratteri quantitativi ci da un’indicazione di quanto è concentrata quella distribuzione intorno alla media. In mancanza di un valore medio analitico (numero) intorno al quale misurare la variabilità media, l’unico modo che abbiamo per vedere se questa distribuzione è concentrata o meno nel punto centrale è quello di prendere i 2 quartili (1° e 3°) e fare la differenza (75% e 25%) e viene fuori il 50% dei casi che sono concentrati nella zona centrale. Più le modalità sono simili e più è concentrata la distribuzione, viceversa più sono diverse tra loro e meno sono distribuite nel campo centrale.
ESEMPIO CARATTERE QUANTITATIVO
STATURE |
FREQ. |
FREQ.CUM. |
150 |
1 |
1 |
155 |
3 |
4 |
160 |
6 |
10 |
163 |
1 |
11 |
165 |
4 |
15 |
170 |
6 |
21 |
175 |
4 |
25 |
|
25 |
|
Come nel caso della mediana, percentili, che può essere usata anche per caratteri quantitativi così la differenza interquartilica può essere usata anche per caratteri quantitativi. Abbiamo rilevato la statura di 25 soggetti e costruito la distribuzione di frequenza in cui ci sono le frequenze cumulate. Individuiamo qual è la posizione del 1° e del 3° quartile.
Q1 = 1*N/4 = 25/4 = 6,25 sta tra quelli che misurano cm 160
Q3 = 3*N/4 = 3*25/4 = 18,75 corrisponde a cm 170
170 – 160 = 10
La differenza tra le modalità che corrisponde al 3° quartile e la modalità che corrisponde al 1° quartile è 10 centimetri. Sulla base di quanto fatto fino qui posso affermare che il 50% della popolazione presenta una altezza compresa tra 160 e 170 centimetri con una variabilità (o dispersione) di 10 centimetri. Se fosse stata una misura tra 180 e 160 il 50% della popolazione tra il 1° e 3° quartile avrebbe presentato una dispersione maggiore, cioè di un numero maggiore di modalità.
Prendiamo un carattere di tipo qualitativo ordinale “titolo di studio”. Abbiamo rilevato 16 soggetti
TITOLO DI STUDIO |
FREQ.ASS. |
FREQ.CUM. |
Elementare |
1 |
1 |
Medie |
3 |
4 |
Superiori |
6 |
10 |
Laurea |
2 |
12 |
Dottorato di ricerca |
4 |
16 |
|
16 |
|
Abbiamo trovato le frequenze cumulate; poi la posizione che occupa il 1° quartile
Q1 = 1*N/4 = 16/4 = 4 corrisponde alla scuola media
Q3 = 3*N/4 = 3*4 = 12 corrisponde alla laurea
Possiamo dire che il 50% della popolazione ha un titolo di studio tra la media e la laurea. Si può dire che c’è una contenuta variabilità tra i titoli di studio. Questa misura non essendo frutto di procedimento analitico (non ci sono calcoli) è un po’ grezza ma nel caso dei caratteri qualitativi ordinabili è l’unico strumento che abbiamo.
In pratica la DIFFERENZA INTERQUARTILICA è una misura delle modalità che mi serve per cercare di individuare la variabilità all’interno di una distribuzione dove le modalità sono di carattere qualitativo ordinale. Può esserci utile, come abbiamo visto per le medie di posizione, anche in qualche caso quando abbiamo a che fare con carattere di tipo quantitativo in cui per avere una indicazione migliore della variabilità può essere utile anche calcolare la differenza interquartilica.
Se invece abbiamo a che fare con dei caratteri qualitativi nominali non possiamo avvalerci di misure legate alla mediana o ai quartili. L’unica cosa a cui possiamo aggrapparci è la frequenza con cui si presenta una modalità cioè alla MODA.
Per calcolarci una misura di variabilità in caso di carattere qualitativi ordinali si ricorre ad una categoria particolare di indicatori che si chiamano INDICI DI ETEROGENEITA’, sono indici che ci indicano quanto il fenomeno è eterogeneo. Maggiore è il valore che assumono e maggiore è l’eterogeneità e minore l’omogeneità.
Devono soddisfare le seguenti condizioni:
- Essere uguali a 0 solo se il collettivo è OMOGENEO rispetto al carattere considerato
- Crescere all’aumentare della ETEROGENEITA’ fra le modalità
- Assumere solo valori maggiori o uguali a 0 (non può essere negativo)
Ne esistono molti ma ne vediamo uno tra i più usato: l’indice S di Gini che si costruisce in questo modo:
![]()
1 meno la sommatoria per i che va da 1 a P delle n con i diviso N dove “n” sono il numero delle frequenze di “i” modalità che sono previste, N sono le frequenze totali.
- C’è massima OMOGENEITÀ quando le frequenze sono concentrate su un’unica modalità. Quindi ni vale sempre “0” quando vale N, per cui la quantità assume valore 1 quindi 1 – 1 = 0 ni = N
- Si avrà massima ETEROGENEITA’ quando le frequenze saranno spalmate su tutte le modalità.
Supponiamo di avere 3 colori bianco, verde giallo
BIANCO |
VERDE |
GIALLO |
TOTALE |
3 |
5 |
2 |
10 |
0 |
0 |
10 |
10 |
Nel secondo caso il collettivo è più omogeneo perché presenta un unico colore rispetto al primo. Man mano che la distribuzione dei vari colori si spalma sulle varie modalità diventa più eterogeneo rispetto ai colori. Nel caso che tutte le frequenze siano “0” ed una sola prende tutte le frequenze del collettivo ni = 10 che diviso N 10 = 1. Quindi nel caso che il collettivo presenti OMOGENEITA’ rispetto a quel carattere l’indice assume valore “0”.
n1=n2=………….=np=N/P
Nel caso di massima eterogeità l’indice S sarà:
![]()
L’S di Gini è un indice assoluto di eterogeneità basato sempre sulle frequenze però non presenta il massimo dei valori. Se noi lo agganciamo al precedente che è il massimo abbiamo un indice relativo di eterogeneità:
l’indice relativo (di eterogeneità) sarà pertanto: ![]()
ESEMPIO
COLORE OCCHI |
|
|
X |
n |
ni/N |
Azzurri |
2 |
1/5 |
Castani |
3 |
3/10 |
Neri |
3 |
3/10 |
Verdi |
2 |
1/5 |
|
10 |
|
Sono 10 soggetti. Divido le varie frequenze per il totale (ni/N).
![]()
questo 0,74 è il valore di indice assoluto di eterogeneità.
Il massimo (in questo caso abbiamo 4 classi) e diventa 1 meno un quarto
![]()
poi dividiamo
che è l’indice molto elevato di eterogeneità. Questo corrisponde a quello che abbiamo davanti perché le frequenze non sono disuguali per tutte le classi ma sono molto simili quindi siamo molto vicini alla massima eterogeneità.
Per semplificare se abbiamo 4 modalità ed 8 casi per avere il massimo di eterogeneità dovremmo avere 2 casi per ogni modalità. Nel caso di massima eterogeneità vediamo che il massimo è dato da
![]()
se rapporto il mio indice che ho costruito prima e che deve essere assoluto lo rapporto al massimo, lo relativizzo,diventa un indice relativo che mi varierà tra 0 ed 1.
- Quindi più il valore si avvicina ad 1 e più saremo in condizioni di eterogeneità
- Più si avvicina a 0 e più avremo condizioni di omogeneità
RAPPORTI STATISTICI |
Si parla di caratteri quantitativi. Si indica “rapporto” perché si mettono a confronto 2 quantità di 2 variabili. Per fare questo confronto possiamo utilizzare:
- la loro differenza (si può fare con caratteri quantitativi misurabili su scala di intervalli – il carattere non possiede lo zero assoluto -
X-Y
- il loro rapporto (per tutti gli altri tipi di caratteri quantitativi)
![]()
Se noi facciamo con gli stessi caratteri due raffronti diversi facendo la loro differenza o il loro rapporto i risultati possono dare delle informazioni molto diverse.
|
Punti |
Reti fatte |
Reti subite |
Fatte-subite |
Fatte/subite |
SQUADRA A |
15 |
24 |
8 |
16 |
3 |
SQUADRA B |
15 |
40 |
20 |
20 |
2 |
Prendiamo 2 squadre di calcio. Mettiamo i punti in classifica e le reti fatte e subite. Facendo la differenza tra reti fatte e reti subite otteniamo una prevalenza della squadra B sulla squadra A. Se invece facciamo il loro rapporto vediamo che la situazione si inverte. Le informazioni possono essere ben diverse.
Della differenza non ci occupiamo più e ci occupiamo solo di RAPPORTI.
Un rapporto statistico è un quoziente tra 2 termini tra i quali esiste un legame logico e può essere utilizzato per comparazioni sia spaziali che temporali. Siccome metto a confronto queste due quantità posso utilizzare questo confronto per fare delle valutazioni per distribuzioni nel tempo (tra un periodo ed un altro) oppure nello spazio (da uno stato all’altro, da una regione all’altra). Ci sono molti modi di mettere in relazione dei dati. Si usa classificare i rapporti statistici secondo il legame logico che esiste tra le modalità che vengono messe in rapporto l’una all’altra.
CLASSIFICAZIONE DEI RAPPORTI STATISTICI SECONDO IL LEGAME LOGICO ESISTENTE FRA NUMERATORE E DENOMINATORE |
|
A – RAPPORTI CHE SI SEMPLIFICANO Danno luogo ad un concetto analogo a quello espresso da uno dei due termini.
|
|
B- RAPPORTI CHE SI RISOLVONO Danno luogo ad un concetto diverso da quello espresso dai 2 termini del rapporto.
|
1) Rapporti di durata 2) Rapporti di ripetizione |
A- Rapporti che si semplificano.
La scelta del denominatore viene fatta in relazione al significato più logico che si vuole attribuire al rapporto.
A.1. I rapporti medi.
Quando noi andiamo a fare una Media mettiamo in relazione tutte le modalità. Mettiamo al numeratore la quantità del carattere che si sta studiando ed al denominatore la numerosità del collettivo al quale viene riferito il carattere che stiamo studiando. Per esempio se stiamo studiando il reddito lo riferiamo al collettivo a cui ci stiamo riferendo e quindi avremo un rapporto Medio. Il concetto che viene fuori è analogo al numeratore, cioè il reddito medio sarà il reddito.
Prendiamo per esempio il carattere “numero di laureati”.
- numero laureati in Italia in un anno accademico
- collettivo di riferimento :
- totale università italiane
- popolazione di una regione
Se facciamo un rapporto tra il carattere A e B i) otteniamo un numero (sempre di laureati) che indica quanti laureati si sono registrati mediamente nelle università italiane.
Se invece lo rapportiamo alla popolazione di una regione otterremo sempre un numero medio di laureati ma rispetto all’unità geografica regione.
Quando sentiamo parlare di reddito medio pro capite abbiamo un reddito diviso per tutta la popolazione di riferimento. Quanto si vede “consumo medio per abitante” viene preso il consumo a livello nazionale e viene diviso per il numero di abitanti.
Il 2 ed il 3 del gruppo A li vedremo in seguito.
A.4. I rapporti di composizione
In questo caso mettiamo in relazione una parte di soggetti con il totale dei soggetti. Mi da una indicazione di come si compone quel fenomeno. E’ il rapporto più utilizzato. Serve per indicare quale è il peso di una modalità sul totale. Questi rapporti hanno delle peculiarità. Siccome si rapporta una parte al tutto l’unità di misura è la stessa quindi quello che viene è un numero puro, una percentuale non ha una unità di misura.
Sono numeri compresi tra 0 ed 1.
Siccome si rapporta una parte al tutto è indicato sempre in modo percentuale.
Si mette in rapporto una parte del fenomeno e la si divide per il totale cioè quando si vuole evidenziare il peso di una modalità rispetto alle altre.
Vediamo due tabelle dell’ISTAT su una indagine sulla condizione lavorativa a 3 anni dalla loro laurea o diploma.
Questa indica i diplomati per sesso e tipo di diploma maturità
DIPLOMA |
MASCHI |
FEMMINE |
TOTALE |
Professionale |
1.196 |
10.173 |
2.369 |
Tecnico |
16.021 |
9.420 |
25.441 |
Liceale |
30.677 |
36.851 |
67.478 |
Magistrale |
530 |
60841 |
7.371 |
Altri |
576 |
752 |
1.328 |
TOTALE |
48.950 |
55.037 |
103.987 |
Viene diviso per maschi e per femmine in base al tipo di diploma conseguito. Questa tabella ci dice poco. Allora ci facciamo un rapporto di composizione all’interno di ciascuna modalità sesso, cioè rapportiamo il numero di persone che hanno conseguito il tipo di diploma al totale, e lo facciamo per tutte le modalità.
LAUREATI |
MASCHI |
FEMMINE |
TOTALE |
Professionale |
2,4 |
2,1 |
2,3 |
Tecnico |
32,7 |
17,1 |
24,5 |
Liceale |
62,6 |
67,0 |
64,9 |
Magistrale |
1,1 |
12,4 |
7,1 |
Altri |
1,2 |
1,4 |
1,3 |
TOTALE |
100 |
100 |
100 |
Se il totale viene 100 è giusto.
Quando facciamo dei rapporti di composizione (rapportiamo ogni modalità al totale) deve venire un numero tra 0 e 1 ed il totale viene sempre 1 che espresso in forma percentuale è 100.
Se noi facciamo una costruzione in questo modo vediamo subito che la percentuale più frequente di diploma conseguito sia per i maschi che per le femmine è quello liceale, in particolare nella femmine pesa di più rispetto ai maschi. In successione viene per i maschi la scuola tecnica con 32,7 (circa 1/3) mentre è inesistente la scuola magistrale che invece per le femmine rappresenta il 12%.
A.3 Rapporti di coesistenza
In questi rapporti si mettono a confronto le frequenze di una modalità con quelle di un’altra modalità. Ci è utile per evidenziare immediatamente il peso di una modalità non rispetto al totale ma rispetto ad una modalità antagonista. Anche questa serve per ricavare più informazioni possibili dai dati che abbiamo a disposizione.
- Sono numeri puri (mettono in relazione due frequenze)
- Possono assumere valori maggiori di 1 (perché posso avere una modalità che è molto più frequente dell’altra modalità)
- Se calcoliamo su tutte le modalità questo rapporto, normalmente la loro somma non è di norma = 100
Facciamo un esempio riprendendo la tabella precedente. In questo caso mettiamo in rapporto per ciascun tipo di diploma conseguito la frequenza dei maschi sulla frequenza delle femmine.
DIPLOMA |
MASCHI |
FEMMINE |
% |
Professionale |
1.196 |
10.173 |
102,0 |
Tecnico |
16.021 |
9.420 |
170,0 |
Liceale |
30.677 |
36.851 |
83,1 |
Magistrale |
530 |
60841 |
7,7 |
Altri |
576 |
752 |
76,6 |
TOTALE |
48.950 |
55.037 |
88,9 |
Vediamo ad esempio nei totali (48.950:55.073) il rapporto maschi su femmine è l’88% e vuol dire che c’è un numero inferiore di maschi rispetto alle femmine che ha conseguito il diploma. Si ragiona in modo percentuale. Se il risultato del rapporto è inferiore a 100 vuol dire che i maschietti sono meno delle femmine. Se il rapporto da un numero superiore a 100 vuol dire che i maschi sono in numero superiore alle femmine. Si mettono in rapporto le quantità. Se le quantità sono uguali il rapporto è 1 se sono di più i maschi verrà 1,qualche cosa, se sono inferiori il numero tenderà verso lo 0.
Se mettiamo in relazione ciascun tipo di diploma conseguito dai maschi e ciascun tipo di diploma conseguito dalle femmine possiamo fare un tipo di osservazione che, nel caso del professionale sono leggermente inferiori i maschi, nel caso della scuola tecnica sono molto di più i maschi, nel caso del liceo i maschi sono un po’ meno ecc.
Queste tabelle ci permettono di trarre delle conclusioni su quale è la prevalenza di una delle due modalità sull’altra rispetto al carattere che stiamo studiando.
Un altro modo è mettere in relazione i vari tipi di diploma tra di loro. Esempio potremmo vedere quanto pesa di più il liceo rispetto ad altre categorie, cioè metto in relazione le frequenze del liceo con le altre modalità.
Diploma |
Maschi |
Femmine |
Totale |
Professionale |
25,6 |
31,4 |
28,5 |
Tecnico |
1,9 |
3,9 |
2,7 |
Liceo |
1,0 |
1,0 |
1,0 |
Magistrale |
57,8 |
5,4 |
9,2 |
Altri |
53,2 |
49,0 |
50,8 |
Chiaramente il liceo : liceo mi da 1 (30.627:30.627)
Il liceo rispetto alla scuola tecnica sarà 30.627:16.021=1,9 (per quanto riguarda i maschi)
01/04/2004
COESISTENZA : rapportiamo la frequenza di una modalità al totale e
![]()
abbiamo immediatamente l’idea del peso di questa modalità nell’ambito
Rapporti di della distribuzione.
COMPOSIZIONE: rapportiamo le frequenze di una modalità alle
frequenze di un’altra modalità per avere un’idea del peso di una modalità rispetto ad un’altra
POPOLAZIONE PER CLASSI DI ETA’, INDICI DI VECCHIAIA E DIPENDENZA.
Anni |
Classi di età |
Indice di vecchiaia (a) |
Indice di dipendenza |
|||
|
0-14 |
15-64 |
65 e oltre |
|
degli anziani (b) |
Totale (c) |
1951 |
26.1 |
65.7 |
8.2 |
31.4 |
12.5 |
52.2 |
1961 |
24.5 |
66.0 |
9.5 |
38.8 |
14.4 |
51.5 |
1971 |
24.4 |
64.3 |
11.3 |
46.3 |
17.6 |
55.5 |
1981 |
21.5 |
65.3 |
13.2 |
61.4 |
20.2 |
53.1 |
Dalla tabella emerge che la popolazione giovane diminuisce piuttosto rapidamente, la popolazione lavorativa rimane pressoché stabile e che la popolazione in età da pensione cresce velocemente.
Tale tipo di rapporto ci dà un’idea della composizione della popolazione e può essere utile per programmare previdenze per determinate classi sociali.
Indice di vecchiaia (a)
Rapporto percentuale tra la popolazione in età da 65 anni in poi e quella della classe 0-14 : mette in relazione diretta due modalità e dà un’idea precisa di quanto la popolazione anziana pesi rispetto a quella in età scolare.
Questo indice è usato largamente in tutto il mondo, più è alto questo indice più è vecchia la popolazione; è un rapporto di coesistenza.
Indice di dipendenza degli anziani (b)
Rapporto percentuale tra la popolazione in età da 65 anni in poi e quella della classe 15-64 :
dà un’idea di quanto la popolazione anziana pesi rispetto a quella in età lavorativa.
Indice di dipendenza totale (c)
Rapporto percentuale tra la somma della popolazione in età 0-14 e quella in età da 65 anni in poi, e la classe 15-64 : in questo modo abbiamo la misura di quanto le popolazioni non attive da punto di vista lavorativo pesano sulla popolazione che lavora.
RAPPORTI DI DERIVAZIONE (molto usati)
Sono espressi nell’ unità di misura
del numeratore.
Punti logici comuni
- Il denominatore è il presupposto logico del a tutti i rapporti di
numeratore (il denominatore deve essere la base derivazione
assolutamente logica per poter essere il punto di
appoggio del numeratore).
LIVELLO TERRITORIALE |
TASSO DI I.V.G. Per 1000 donne in età feconda nella loro provincia di residenza |
TASSO DI MORTALITA’ INFANTILE |
TASSO GENERICO DI MORTALITA’ |
TASSO DI MORTALITA’ PER MALATTIE CARDIO-CIRCOLATORIE |
Anno |
1998 |
1997 |
1999 |
1997 |
Piemonte |
9.9 |
5.1 |
11.7 |
4.9 |
Valle d’Aosta |
10.6 |
5.9 |
10.7 |
4.3 |
Liguria |
11.2 |
5.5 |
13.8 |
5.6 |
Lombardia |
9.1 |
3.9 |
9.7 |
5.9 |
I.V.G. interruzione volontaria di gravidanza
Età feconda 15/49 anni
X 1000 (i rapporti di composizione vengono spesso moltiplicati x 100) per comodità visiva questi dati vengono moltiplicati x 1000, ma deve essere chiaramente specificato.
TASSO DI I.V.G. vengono messi in rapporto due fenomeni: il tasso di I.V.G. per 1000 donne (denominatore) e il numero delle donne in età feconda (numeratore).
TASSO DI MORTALITà INFANTILE vengono messi in rapporto due fenomeni: il numero dei nati vivi e i bambini che muoiono con età 0 anni, cioè non hanno ancora compiuto 1 anno (numeratore).
Questi tipi di tasso hanno una caratteristica comune : al numeratore c’è un numero che indica un fenomeno e al denominatore c’è un aggancio logico affinché il risultato abbia un senso.
TASSI (o quozienti) GENERICI O SPECIFICI
Sono una particolare classe di rapporti, della quale fanno parte i tassi
- di natalità
- di mortalità
- di nuzialità.
Si differenziano tra loro per il fatto che al denominatore si trova il presupposto generico (generale) o specifico rispetto ad una certa modalità.
Quoziente generico di mortalità
Una popolazione A è composta nel 1999 (a metà anno per convenzione) da N individui. Nel corso dell’anno si sono verificati m decessi.
Il quoziente generico di mortalità è costituito dal rapporto
m
Qg =
N
Supponiamo di conoscere della popolazione A anche la struttura in età; classificando i decessi utilizzando la stessa struttura della popolazione possiamo calcolare i quozienti specifici.
Età (in classi) |
Popolazione (a metà anno) |
Decessi (numero) |
Quozienti specifici di mortalità per classi di età |
0 – 14 |
500 |
2 |
4.0 |
14 – 29 |
2000 |
8 |
4.0 |
29 – 44 |
2000 |
12 |
6.0 |
44 – 59 |
1000 |
10 |
10.0 |
59 – 74 |
500 |
20 |
40.0 |
74 – oltre |
100 |
15 |
150.0 |
totale |
6100 |
67 |
11.0 |
Dai quozienti specifici si può risalire al quoziente generico relativo alla popolazione nel complesso, tramite una media di tutti i quozienti specifici, ciascuno ponderato con la relativa popolazione.
Il quoziente generico risente quindi sia delle variazioni della mortalità specifica che della variazione della struttura per età della popolazione.
Lo studio dei quozienti specifici risulta molto utile nel confronto tra 2 o più popolazioni rispetto al fenomeno preso in esame.
QUOZIENTI STANDARDIZZATI
Sono costruiti in modo tale da eliminare l’influenza che la diversa struttura di uno o più caratteri di specificazione (sesso, età, titolo di studio) ha nella determinazione del fenomeno osservato su 2 o più popolazioni o sulla stessa popolazione in momenti diversi.
ES. : Fenomeno osservato : mortalità
Caratteri di specificazione : sesso ed età
Per eliminare l’influenza della diversa struttura per età delle 2 popolazioni scegliamo una struttura per età TIPO alla quale riferire i calcoli per tutte e due le popolazioni. Questa particolare struttura per età (popolazione tipo o popolazione standard) può essere scelta con una certa libertà :
- una delle due popolazioni (A o B)
- una media delle due popolazioni
- una terza popolazione (C) come riferimento
Supponiamo di prendere come nostra popolazione standard la seguente :
Età (in classi) |
Popolazione standard |
0-14 |
500 |
14-29 |
2500 |
29-44 |
3000 |
44-59 |
3000 |
59-74 |
2500 |
74-oltre |
500 |
totale |
12000 |
Assumiamo che la struttura per età delle 2 popolazioni sia quella riportata in tabella.
Se applichiamo alla popolazione standard i quozienti di mortalità specifici della popolazione A e della popolazione B , otteniamo i quozienti di mortalità specifici che si otterrebbero nel caso in cui le 2 popolazioni A e B avessero la stessa struttura per età.
Età |
Popolazione standard |
Quoziente specifico di mortalità x classi di età. Popolazione A |
Morti attese popolazione A |
Quoziente specifico di mortalità x classi di età. Popolazione B |
Morti attese popolazione B |
0-14 |
500 |
4.0 |
2 |
2.5 |
1 |
14-29 |
2500 |
4.0 |
10 |
3.3 |
8 |
29-44 |
3000 |
6.0 |
18 |
5.0 |
15 |
44-59 |
3000 |
10.0 |
30 |
9.0 |
27 |
59-74 |
2500 |
40.0 |
100 |
35.0 |
88 |
74-oltre |
500 |
150.0 |
75 |
125.0 |
63 |
totale |
12000 |
|
235 |
|
202 |
Rapporti che si risolvono
Danno luogo ad un concetto diverso dai due fenomeni messi in rapporto.
a)rapporti di durata
mettono in relazione la consistenza di un fenomeno in un dato periodo con il flusso che la movimenta.
Es.:
- Consistenza depositi bancari / flussi di versamenti e prelevamenti
- Consistenza di magazzino / flusso di acquisti e vendite
- Consistenza di una popolazione / flusso naturale e migratorio
Di frequente si fa riferimento alle consistenze e ai flussi MEDI del periodo.
Movimento di ricorsi in materia di pensioni presso la Corte dei Conti - 1994 |
Dipendenti inizio dell’anno |
Presentati nell’anno |
Esaminati nell’anno |
Pendenti a fine anno |
Civili |
79733 |
10113 |
2185 |
87661 |
Militari |
54335 |
3030 |
1835 |
55530 |
Di guerra |
133086 |
2808 |
4483 |
131441 |
totale |
267154 |
15951 |
8503 |
274632 |
Pensioni civili
Consistenza media = (situazione iniziale + situazione finale) / 2
(79733 + 87661) / 2 = 83697
Flusso medio del periodo = (presentati + esauriti) / 2
(10113 + 2185) / 2 = 61491
RAPPORTO DI DURATA = 83687 / 6149 = 13.61 (in anni)
b)rapporti di ripetizione
indicano la velocità con il quale il fenomeno esaminato si rinnova nel corso di un periodo.
E’ espresso dal reciproco del rapporto di durata.
Rapporto di ripetizione = 1 / 13.61 = 0.07
7 aprile 2004
Chiarimento sull’esercitazione. Riprendiamo la scomposizione della devianza.
La devianza è il numeratore della varianza. Cioè la varianza non divisa per la numerosità si chiama devianza. La devianza così come è costruita non ha alcuna utilità pratica dal punto di vista operativo. Viene utilizzata per vedere nel dettaglio quello che avviene singolarmente nei gruppi e tra i gruppi.
Ad esempio prendiamo tutti i presenti in questa aula, dividiamo in due sottogruppi (quello di destra e quello di sinistra) possiamo analizzare nel dettaglio senza rifare tutte le volte le addizioni se abbiamo a disposizione sufficienti elementi dell’uno e dell’altro basandoci su questo principio di scomposizione della varianza. Abbiamo detto che la devianza totale si può spaccare in 2 pezzi:
- devianza within quella all’interno di ciascun gruppo;
- devianza between che misura la differenziazione-distanza tra i due gruppi.
Possiamo raggiungere il nostro obiettivo di arrivare ad un calcolo della varianza complessiva come medie delle varianze within e della varianza between.
Esempio tabella esercitazione.
Gruppo A |
Gruppo B |
126 |
122 |
132 |
125 |
140 |
128 |
144 |
140 |
150 |
144 |
158 |
145 |
161 |
149 |
164 |
150 |
173 |
153 |
176 |
156 |
Formula scomposizione della devianza
DEV(T)=DEV(W)+DEV(B)

![]()
La devianza totale di questi due gruppi è data dallo scarto di ciascun elemento dalla propria media aritmetica del gruppo A elevato al quadrato moltiplicato per la propria numerosità, più la sommatoria degli scarti di ciascun elemento dalla propria media del gruppo B al quadrato moltiplicato per la propria numerosità. Queste due insieme rappresentano la devianza between. La devianza within è quella che compare come scarto tra le due medie “Ma” ed “Mb”. Quindi M per k che va da 1 a 2 (in questo caso sono 2 gruppi) M di a meno M di b al quadrato. Questa è la formula della scomposizione della devianza.
Facendo opportune manipolazioni abbiamo una situazione di questo genere. Se mi riferisco al conto della varianza anziché della devianza, cioè ponderando e dividendo per le numerosità riesco ad avere una situazione in cui la varianza within è indicata come media delle varianze all’interno dei gruppi e la varianza between è indicata come media delle medie aritmetiche dei 2 gruppi. Quindi avendo a disposizione le varianze within, le medie dei 2 gruppi, le due numerosità e quella complessiva, partendo da questi elementi posso costruirmi la varianza complessiva.
Altro chiarimento sull’esercitazione
120├─┤130
131├─┤140
141├─┤150 |
Questa suddivisione andrebbe bene se i numeri fossero discreti (cioè se nell’ambito di un intervallo potrebbero assumere solo alcuni valori). Siccome questo è un carattere continuo (nell’arco di un intervallo può assumere tutti i valori – 130,1 130,2 130,3 ecc.) messo così ci sono dei buchi tra 130 e 131. |
Una regola da seguire quando si fa la suddivisione in classi, queste devono essere contigue, non ci devono essere buchi e non si devono sovrapporre.
Lo stesso vale per le rappresentazioni grafiche.
Tabella su indagine fatta negli USA pubblicata nel marzo 2004. Tratta lo stipendio di persone impiegata come biostatitici. Sono stati usati i percentili come indicativo di quanto prendono queste persone, invece di prendere i valori medi. Questo metodo non risente dei valori estremi.
Un ulteriore esempio di uso di rapporti statistici. Tabella situazione sociale comune di Bologna 1994 costruita da un questionario su: a) partito politico per cui si simpatizza; b) parere sulla natalità.
Ci sono le frequenze assolute cioè il numero degli intervistati. Le frequenze relative si costruiscono con un rapporto di composizione rapportando una parte di tabella al tutto. Oppure considerando separatamente ogni singola colonna (o ogni singola riga), le frequenze assolute per singola colonna vengono rapportate al totale della colonna stessa. Per esempio da questi dati posso vedere per coloro che hanno dato una risposta favorevole ad una alta natalità la relativa appartenenza politica.
NUMERI INDICE |
L’ultimo argomento per quanto riguarda i rapporti statistici. Sono un particolare tipo di rapporto che mette in relazione una quantità o una intensità di un fenomeno, rilevato in un certo momento, con l’intensità dello stesso fenomeno rilevato in un altro momento. Rispetto agli altri rapporti visti fino ad ora in questo caso non abbiamo un rapporto di una parte al tutto. Si può fare anche sotto il profilo spaziale nel senso che si prende una intensità di un fenomeno un una certa regione e lo rapportiamo all’intensità dello stesso fenomeno in un’altra regione.
Esempio tabella “Indice fatturato di una industria”. C’è sempre una dicitura che dice “base ” in questo caso “1995 base 100” che indica che si sta utilizzando come base del numero indice l’anno 1995.
MESE |
1999 |
2000 |
2001 |
Gennaio |
87,7 |
95,1 |
|
Febbraio |
98,1 |
|
|
Marzo |
118 |
|
|
Aprile |
104 |
|
|
Maggio |
104 |
|
|
Giugno |
117 |
|
|
Luglio |
121 |
|
|
Agosto |
64,9 |
|
|
Settembre |
|
|
|
Ottobre |
|
|
|
Novembre |
|
|
|
Dicembre |
|
|
|
NUMERI INDICE: rapporti che misurano le variazioni di una fenomeno in 2 diverse circostanze normalmente di tempo più raramente di luogo.
In base all’ordine temporale abbiamo 2 tipi di indice:
- NUMERI INDICI A BASE FISSA: quando si rapportano tutti i valori rilevati in un dato periodo di tempo ad una relazione fissa che considerano come base del mio numero indice. Per esempio se ho rilevato un certo fatturato di una industria a cadenza annuale (1995-1996-1997-1998 ecc.) mi posso costruire degli indici del fatturato industria di vari anni con base 1995, cioè prenderò il fatturato rilevato nei vari singoli anni e volta per volta lo rapporterò a quello registrato nel 1995. Il risultato che si ottiene (essendo un rapporto) è 1 che percentualizzato diventa 100.
- NUMERI INDICE A BASE MOBILE: si ottengono rapportando ciascuna rilevazione a quella immediatamente precedente. Per esempio il fatturato dell’industria del 1996 lo rapporto al 1995 e avrò il numero indice del 1996; quello del 1997 lo rapporto al 1996 e avrò il numero indice a base mobile del 1997.
Nella pratica i numeri indice si indicano con la lettera I e alla sinistra in basso si mette l’anno base, sulla destra in basso si indica l’anno che sto studiando in quel momento.
se metto b=1995 ed i=1999
vuol dire che sto calcolando l’indice di base 1995 dell’anno 1999. Dato che Xi è il fatturato del 1999 e Xb è il fatturato del 1995 si mettono in rapporto questi 2. Il risultato può essere un numero inferiore o superiore ad 1. Si moltiplica tutto per cento perché normalmente è espresso in forma percentualizzata.
Costruendo i numeri indici abbiamo numeri relativi, numeri puri in cui non c’è più riferimento all’unità di misura né ai numeri grossi di partenza.
Tabella energia elettrica consumata a livello nazionale negli anni 1999, 2000, 2001 (impossibile da copiare!!!!!!!)
Parto dai numeri assoluti e mi costruisco dei numeri relativi prendendo ad esempio gennaio 1999 uguale a 100 e mi costruisco il rapporto prendendo e rapportando ciascun elemento a gennaio 1999. Ottengo una serie di numeri in cui vedo subito come è cambiata la situazione e l’andamento. Quando ci sono dei numeri inferiori a 100 vuol dire che c’è stato un calo; quando ci sono dei numeri superiori a 100 vuol dire che c’è stato un aumento.
Per farci un’idea vediamo un’altra tabella. Prendiamo come base una rilevazione che non compare. 1995=100
E’ normale che si faccia così sempre che il fenomeno che stiamo studiando nell’arco di tempo considerato (dall’anno base ad oggi) non abbia avuto forti salti, cioè quando andiamo a costruirci dei numeri indice facciamo in modo di andare a scegliere come base la rilevazione di un periodo non anomalo anche qualche anno prima. Nel giro di 3 o 4 anni la base viene cambiata per via dell’inflazione poiché la base non è più sufficientemente adeguata a darci una indicazione seria di quello che sta avvenendo.
INDICE FATTURATO INDUSTRIA A BASE GENERALE. BASE 1995=100 |
|||
MESE |
1999 |
2000 |
2001 |
G |
87,7 |
95,1 |
110 |
F |
98,1 |
119 |
119 |
M |
118 |
134 |
138 |
A |
104 |
109 |
117 |
M |
104 |
126 |
130 |
G |
117 |
130 |
136 |
L |
121 |
131 |
133 |
A |
64,9 |
76,7 |
76,5 |
S |
121 |
131 |
|
O |
116 |
130 |
|
N |
117 |
129 |
|
D |
123 |
128 |
|
Se noi utilizziamo questa serie di numeri indice vediamo che da gennaio a febbraio c’è stato un calo rispetto al 1995=100, mentre invece nel periodo sett-dic c’è stato un fatturato superiore al periodo base. I numeri indice a base fissa sono sicuramente quelli più utilizzati.
I NUMERI INDICI A BASE MOBILE: come base non indichiamo più una base generica X ma una base variabile che varia in funzione dell’indice dell’anno o del mese di riferimento. Sono costruiti rapportando le quantità o l’intensità di un fenomeno verificate in un certo periodo all’intensità rilevate nel periodo immediatamente precedente.
i – 1 I i (i=1, ………, t)
i – 1 I i = ![]()
--------------------------------------------
Possiamo avere una serie di numeri di indici a base fissa e vedere cosa succede alla stessa serie a base mobile. Prendo l’indice a base fissa e ho il numero del tempo “i” e del tempo “i-1” (quello immediatamente precedente) sapendo che l’indice a base fissa tempo “i” è data dalla quantità, dalla densità del fenomeno tempo “i” rapportata al tempo base “b”,

Xi = indice base fissa
Xb = indice che si vuole cambiare
Le basi possono cambiare perché diventano vecchie quindi non più rappresentative quindi si possono sostituire. Per sostituire le basi si usa il COEFFICIENTE DI RAPPORTO.
Un indice a base fissa “b” è indicato così
![]()
se noi cambiamo base con un indice di base “c” possiamo passare da quelli con la vecchia base a quelli con la nuova base moltiplicando tutti per questo coefficiente di rapporto. Al denominatore sostituisco Xb (la vecchia base) con Xc (la nuova base). Il denominatore Xi rimane fisso.
![]()
CRbà c=![]()
In questo modo posso passare rapidamente dalla vecchia base alla nuova base.
Questo coefficiente mi serve come rapporto, come fattore di conversione dalla vecchia base alla nuova base.
dove Xb è l’indice che si vuole cambiare
cambiando base in C
![]()
si moltiplicano per il coefficiente i vecchi numeri
![]()
vecchia base su nuova base moltiplico *100 e poi moltiplico tutti i numeri indice vecchi per questo numero ed ottengo tutto nella nuova base.
Il nuovo numero mi indica il nuovo indice “I” rispetto alla nuova base “c”.
Questi qui si chiamano anche NUMERI INDICE SEMPLICI perché noi prendiamo il singolo carattere, il singolo fenomeno e ci calcoliamo il numero indice di quel fenomeno rispetto agli anni precedenti. Se invece passiamo ad un'altra serie di indici che si chiamano NUMERI INDICE SINTETICI O COMPLESSI che utilizziamo spesso per quanto riguarda gli effetti economici (inflazione) vediamo che si prende in considerazione non il singolo bene, ma una serie di beni. Si cerca di trovare un bilanciamento adeguato tra l’insieme dei beni che prendiamo in considerazione, il periodo o l’anno base, e siccome dobbiamo tirare fuori da questo insieme un indice sintetico dobbiamo trovare la media più appropriata (abbiamo detto che le medie sono indici sintetici).
Ecco i vari passaggi.
- SCELTA DEI BENI: i beni devono essere rappresentativi della realtà che si deve studiare, esaminare. Esempio dei prezzi al consumo= l’insieme dei beni che vengono presi, rilevati devono essere rappresentativi del consumo medio di una famiglia tipo.
- SCELTA DELLA BASE: deve essere un periodo normale, una circostanza normale dove non ci siano stati casi particolari. Non appena ci si rende conto che ci stiamo discostanto dalla situazione che avevamo previstosi deve cambiare base.
- SCELTA DELLA MEDIA: si utilizza molto spesso una media aritmetica ponderata di questi indici semplici perché questa media presenta diversi vantaggi tra cui essere calcolata con estrema rapidità ed estrema semplicità.
- SCELTA DEL SISTEMA DI PONDERAZIONE: la ponderazione serve a dare un peso a ciascuno di questi beni e serve perché non sempre i beni che andiamo a considerare rivestono lo stesso peso.

Si possono costruire diversi numeri indice sintetici per quanto riguarda i prezzi di tutti i tipi (di vendita, al dettaglio, all’ingrosso) oppure possiamo costruirci dei numeri indici sintetici delle quantità cioè come variano le quantità di questi prodotti che prendiamo in considerazione.
Ci sono diversi sistemi di ponderazione.
Uno è quello che si chiama PONDERAZIONE VALORI
p 01 *q 01
cioè si prende il prezzo e la quantità del bene (indicato con “i” quindi iesimo) al tempo 0 (con zero si indica l’anno base).
Questo indice si chiama INDICE DI LASPEYRES
In pratica per l’indice dei prezzi si prende un prezzo del bene “iesimo” a tempo 1 e a tempo zero e li moltiplichiamo per il valore a tempo base, il tutto viene rapportato alla sommatoria complessiva dei valori del bene considerato. Questo è un modo di ponderazione.
Al numeratore nella parentesi abbiamo il valore prezzo per quantità rilevato a tempo zero (cioè a tempo base) di ciascun bene. Al denominatore abbiamo il prezzo per la quantità rilevato a tempo zero cioè a tempo base.
Stesso discorso si può fare con le quantità.

Noi possiamo vedere delle variazioni e fare un numero indice non soltanto dei prezzi ma anche delle quantità. Cioè rilevo delle quantità in diversi periodi vedo come queste variano e sulla base di queste quantità pondero i valori e questo mi da una indicazione di come si stanno movendo, quello che consumo.
Le proprietà dell’INDICE DI LASPEYRES le vedere sul libro se non sono chiare ne riparliamo.
POTERE DI ACQUISTO
Per potere d’acquisto indichiamo la quantità di un bene K che ha un certo prezzo, che noi riusciamo a comprare con una quantità di moneta. Supponiamo che un certo bene costa 12 € al kg, e supponendo che la mia disponibilità di moneta sia di 100 €, il mio potere d’acquisto rispetto al bene K sarà indicato con 100 (quantità di moneta che ho disponibile) diviso il prezzo unitario di quel bene.
![]()
Per prezzo unitario sarà 12 € per un kg. Quindi in questo caso il risultato di questo divisione non è un numero puro ma è in chilogrammi. Vuol dire che io posso acquistare 8,34 kg con questa quantità di moneta. Questo l’anno scorso. Per vedere quest’anno che è successo, quindi per misurare la variazione del mio potere d’acquisto mi calcolo la quantità di bene che potevo comprarmi l’anno scorso (al tempo 1) con la mia quantità di moneta. Suppongo costante la mia quantità di moneta (al tempo 2) e vedo che essendo passato il prezzo da P1 a P2, vedo quanto bene mi posso comprare quest’anno con la stessa quantità di moneta.
M = P * Q
Allora mi prendo il mio potere d’acquisto al tempo 2 lo rapporto a quello del tempo 1 e quindi basta che io prendo il prezzo unitario al tempo 1 e lo rapporto al tempo 2 e immediatamente ho quanto è variato il mio potere d’acquisto.
![]()
Al tempo 1 il prezzo era 12 € al kg supponiamo che al tempo 2 fosse di 15 € al kg faccio il rapporto passo per passo e vediamo che mentre al tempo 1 potevo comprare 8,33 kg al tempo 2 ne posso comprare solo 6,67 kg

Quindi facendo questo tipo di rapporto, essendo inferiore ad 1 (0,80*100=80%) vuol dire che il mio potere d’acquisto è diminuito del 20%.
Ricapitolando tutti i numeri indici che sono particolari tipi di rapporto vengono utilizzati per mettere in evidenza la variazione intervenuta in un certo periodo di tempo di un bene o una serie di ben, il tutto più o meno ponderato a seconda che io abbia bisogno di evidenziare soltanto la variazione della quantità, di un prezzo singolo oppure ponderato se io voglio costruirmi un indicatore complessivo di una situazione che prende in considerazione una pluralità di beni.
a senso perché mette in relazione una certa quantità ad un'altra. Di questi indicatori ne posso costruire migliaia quando mi servono e come mi servono per poter mettere in evidenza particolari situazioni.
14/04/2004
RELAZIONI STATISTICHE
Il caso più comune è quando ci si trova di fronte a due o più caratteri statistici e si vuole capire che tipo di relazione c’è tra di loro.

La rappresentazione grafica con assi cartesiani e punti è la più usata per rappresentare relazioni statistiche tra caratteri quantitativi.
Se si nota che al crescere (o al diminuire) di una variabile anche l’altra cresce (o diminuisce) si dice che le due variabili hanno un andamento CONCORDE.
Se si nota che al crescere di una variabile l’altra tende a diminuire si dice che le due variabili hanno un andamento DISCORDE.
Per studiare il collegamento tra due caratteri quantitativi (variabili) si parla di CORRELAZIONE tra i due fenomeni.
Il concetto di correlazione specifica una simmetria : se si dice che la variabile X è correlata alla variabile Y , implicitamente si dice anche che la variabile Y è correlata alla variabile X.
La correlazione implica la INTERDIPENDENZA fra due variabili, ma non la DIPENDENZA dell’una dall’altra : cioè, c’è un collegamento tra le due variabili ma non un legame.
Date due variabili X e Y, se al crescere (decrescere) di X si osserva che Y cresce (decresce), si dirà che tra X e Y esiste una CORRELAZIONE POSITIVA (NEGATIVA).
Se al crescere (decrescere) di X, Y cresce (decresce) seguendo un andamento più o meno rettilineo, si dice che le due variabili sono correlate LINEARMENTE, e in un grafico questo andamento viene bene rappresentato da una retta.

In analisi statistica ci sono anche delle correlazioni di tipo superiore, curvilineo ad esempio, ma non sono usati molto. Se i punti dunque tendono a distribuirsi intorno ad una retta, si parla di correlazione lineare; se i punti invece si pongono in modo tale da costruire una curva crescente, c’è comunque un collegamento tra i due caratteri ma non lineare, bensì di ordine superiore.
Parlo di correlazione lineare molto alta se la retta che faccio passare tra i punti tende a coincidere con i punti; la correlazione è molto bassa se vedo che i punti si sparpagliano intorno a questa retta.
COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS-PEARSON.
Quando le variabili cominciano ad essere molte, non è più semplice individuare la correlazione, per cui si usa un indice. Ne esistono molti di indici ma uno dei più comuni è il COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS–PEARSON.
Il coefficiente di correlazione lineare di Bravais-Pearson è dato dal rapporto di una quantità (covarianza) e il prodotto dello s.q.m. di una variabile per lo s.q.m. dell'altra variabile.
r = simbolo che indica questo coefficiente
= covarianza
Questa formula ricorda molto da vicino la varianza che è l’ indice di variabilità indicato dalla sommatoria degli scarti di ciascuna modalità dalla media aritmetica e tutto al quadrato.
La covarianza invece è la somma del prodotto degli scarti di ciascuna modalità della I^ variabile dalla media aritmetica, per gli scarti di ciascuna modalità della II^ variabile dalla propria media aritmetica, diviso la numerosità.
La media aritmetica rappresenta il punto di baricentro della distribuzione, il punto centrale; tanto è vero che la proprietà principale della media aritmetica è che la somma degli scarti dalla media aritmetica è sempre 0.
dove
![]()

è la covarianza.
Questa formula è più semplice per fare i calcoli: la sommatoria dei prodotti delle modalità dei due caratteri meno N volte (numerosità) il prodotto della media di x e della media di y.
Se il risultato di questa somma è negativo vuol dire che sono prevalenti i punti di discordanza e i due caratteri avranno un andamento discorde; se invece la somma è positiva, vuol dire che sono prevalenti i punti di concordanza.
Questo è un indice molto grezzo di “correlazione”, perché legato alle unità di misura di tutti e due i caratteri. E’ utile però per darci un’idea di come COVARIANO le variabili in esame. E’ importante per il segno ma non per il valore.
Il coefficiente di correlazione lineare r rapporta la covarianza al suo massimo (Schwartz).
Qualsiasi indice di variabilità dove rispondere a certi requisiti teorici:
- se non c’è variabilità l’indice deve assumere valore 0
- gli indicatori di variabilità assoluta variano da 0 ad infinito
- se sono indici di variabilità relativa variano da 0 a 1.
Per quanto riguarda la covarianza, avendo due caratteri che possano avere andamento concorde o discorde, l’indice di variabilità varierà in questo modo:
![]()
-x 0 + y
L’indice assume valore 0 quando c’è un perfetto bilanciamento tra i segni positivi ed i segni negativi.
Con questo indice di correlazione :
costruisco un indicatore (r) che è un numero puro
–1 <= r <= +1 :
costruisco un indice relativo perché lo rapporto al suo massimo, e può assumere un valore tra –1 e +1 (tanto più il valore si avvicina a –1 tanto più i due i due caratteri sono incorrelati tra di loro linearmente; più il valore si avvicina a +1 e più i due caratteri tendono a distribuirsi su una retta (positivamente o negativamente)).
Più il valore tende ad avvicinarsi a 0 e più i due caratteri sono in correlati linearmente.
Esempio : calcoliamo il coefficiente di correlazione lineare per le due variabili peso e altezza.
X |
Y |
52 |
155 |
52 |
155 |
52 |
180 |
59 |
180 |
60 |
165 |
74 |
174 |
76 |
164 |
81 |
196 |
81 |
196 |
81 |
196 |
Innanzitutto calcoliamo la media aritmetica di x e di y :
Mx = 66.8 My = 174.1
Calcoliamo i rispettivi s.q.m. ed il loro prodotto:
σx = 12.27 σy = 16.08 σx * σy = 197.35
Calcoliamo la covarianza :
X |
Y |
(x – Mx) |
(y – My) |
(x – Mx) * (y – My) |
|
52 |
155 |
52-66.8 |
155-174.1 |
-14.80 * -19.10 |
282.68 |
52 |
155 |
52-66.8 |
155-174.1 |
-14.80 * -19.10 |
282.68 |
52 |
180 |
52-66.8 |
180-174.1 |
-14.80 * 5.90 |
-87.32 |
59 |
180 |
59-66.8 |
180-174.1 |
-7.80 * -14.10 |
109.98 |
60 |
165 |
60-66.8 |
165-174.1 |
-6.80 * -9.10 |
61.88 |
74 |
174 |
74-66.8 |
174-174.1 |
7.20 * -0.10 |
-0.72 |
76 |
164 |
76-66.8 |
164-174.1 |
9.20 * -1010 |
-92.92 |
81 |
196 |
81-66.8 |
196-174.1 |
14.20 * 21.90 |
310.98 |
81 |
196 |
81-66.8 |
196-174.1 |
14.20 * 21.90 |
310.98 |
81 |
196 |
81-66.8 |
196-174.1 |
14.20 * 21.90 |
310.98 |
|
|
|
|
|
|
Tot. |
|
0 |
0 |
0 |
1489.2 |
![]()
![]()
La somma degli scarti dalla media aritmetica deve
essere 0.
Cov(x,y) = 1489.2 / 10 = 148.92
r = 148/92 / 197.35 = 0.7546 questo numero è significativo ed indica che c’è una correlazione lineare piuttosto marcata
La covarianza da il segno del coefficiente di correlazione ed essendo il coefficiente un numero molto vicino a 100 vuol dire che c’è un maggior numero di punti concordi.
Lo stesso esempio adesso viene eseguito con la formula di calcolo più veloce:
X |
Y |
|
|
X * Y |
52 |
155 |
2704 |
24025 |
8060 |
52 |
155 |
2704 |
24025 |
8060 |
52 |
180 |
2704 |
32400 |
9360 |
59 |
180 |
3481 |
25600 |
9440 |
60 |
165 |
3600 |
27225 |
9900 |
74 |
174 |
5476 |
30276 |
12876 |
76 |
164 |
5776 |
26896 |
12464 |
81 |
196 |
6561 |
38416 |
15876 |
81 |
196 |
6561 |
38416 |
15876 |
81 |
196 |
6561 |
38416 |
15876 |
|
|
|
|
|
688 |
1741 |
46128 |
305695 |
177788 |
Numerosità = 10
Medie = 66.8 174.1 4612.8 30569.5 11778.8
s.q.m. = 12.27 16.0838
cov(x,y) = 148.92
r = 148.92 / (12.27 * 16.08) = 0.7546
CORRELAZIONE SPURIA E COEFFICIENTE DI CORRELAZIONE PARZIALE.
Altro esempio: r = - 0,51
Se avessimo a disposizione solo questo dato, potremmo dedurre che:
- i due fenomeni non sono molto correlati;
- hanno un andamento discorde perché il segno è negativo.
Quando si analizzano due fenomeni lo si fa per avanzare delle ipotesi o per verificarne: bisogna prestare molta attenzione.
Se noi rileviamo una forte correlazione tra due fenomeni non è detto che il legame esistente sia di correlazione. Mi viene data una falsa indicazione perché i due fenomeni anche se fortemente correlati potrebbero non essere in alcun modo collegati = CORRELAZIONE SPURIA, si ha quando due fenomeni non hanno un collegamento logico tra di
loro ma presentano forti valori degli indici di correlazione.
Esempio.
Un’indagine ha rilevato una forte correlazione tra il Q.I. dei soggetti femminili intervistati e l’età del menarca. Sotto il profilo medico scientifico potrebbe non essere vero che uno sviluppo precoce sia collegato al Q.I.
Un’analisi più approfondita ha rivelato che un terzo fattore, l’appartenenza ad una certa classe sociale, influenzava entrambe le variabili. Le ragazze appartenenti ad una classe sociale elevata avevano un tenore di vita migliore, in particolare sotto il profilo nutrizionale: questo elemento induce un inizio precoce del ciclo mestruale.
Questo terzo elemento che prima non veniva identificato ha legato due fattori apparentemente non legati. Di questi casi ce ne sono moltissimi. E’ importante sempre verificare che i due fenomeni siano collegabili, anche se attraverso una terza entità.
Esempio.
In una grande città è stata rilevata una correlazione tra il passaggio di automobili su un ponte e il livello del fiume sottostante: il traffico è più intenso nei momenti di picco delle maree che coincidono con l’inizio e la fine della giornata.
Per individuare la presenza di una terza entità che influenza le altre due, e quindi di una correlazione spuria tra diverse variabili oggetto di indagine, ci sono molti modi; un sistema molto semplice ma efficace è il coefficiente di correlazione parziale.
Dato un insieme di variabili x1, x2,……. Xn (con n > 2) e calcolati tutti i coefficienti di correlazione lineare tra le diverse variabili
rij i <> j
si calcolano i coefficienti di correlazione parziale del primo ordine

(r12.3 vuol dire che misuro la correlazione tra la prima e la seconda variabile non considerando gli effetti della terza variabile)
e dove possibile i coefficienti di correlazione parziale di ordine superiore, per esempio il secondo

Esempio.
In una ricerca effettuata in alcune città degli Stati Uniti sono stati rilevati fra gli altri i valori delle seguenti variabili:
- composizione razziale (indice = % di abitanti di colore)
- livello di povertà (indice = % di abitanti con reddito < 3000$)
- popolosità (numero di abitanti)
- livello di criminalità (indice = crimine denunciati per 1000 abitanti)
|
Composizione razziale |
Povertà |
Popolosità |
Tasso criminalità |
Composizione razziale |
1 * |
0.51 |
0.41 |
0.36 |
Povertà |
0.51 |
1 |
0.29 |
0.60 |
Popolosità |
0.41 |
0.29 |
1 |
0.49 |
Tasso criminalità |
0.36 |
0.60 |
0.49 |
1 |
* il coefficiente di correlazione lineare tra una variabile e se stessa è = 1.
Esaminiamo i valori calcolati :
- il tasso di criminalità presenta una marcata correlazione positiva con il livello di povertà e con la popolosità
- la composizione razziale è significativamente correlata con il livello di povertà e con la popolosità
![]()
Livello di povertà
![]()
Tasso di criminalità Composizione razziale
Popolosità
Questa situazione fornisce una prima indicazione sulla possibile presenza di una correlazione spuria fra tasso di criminalità e composizione razziale.
Calcolando il coefficiente di correlazione parziale del primo ordine tra tasso di criminalità e composizione razziale, rimovendo gli effetti della variabile povertà e della variabile popolosità separatamente
![]()
![]()
La riduzione sostanziale dei due coefficienti di regressione parziale si conferma nell’ipotesi che abbiamo fatto di presenza di correlazione spuria tra composizione razziale e tasso di criminalità.
Il fatto che
tende a 0 ci rivela che la variabile livello di povertà influenza fortemente il coefficiente di correlazione tra composizione razziale e tasso di criminalità.
Calcolando il coefficiente di correlazione parziale tra composizione razziale e tasso di criminalità del secondo ordine si ottiene
.
Possiamo concludere che la correlazione rilevata inizialmente fra composizione razziale e tasso di criminalità è spuria ed è determinata dall’influenza di povertà (principalmente) e di popolosità sulle due variabili.
Non vi è quindi un legame diretto tra la composizione razziale e il tasso di criminalità rilevato nelle diverse città.
27/04/04
RETTA DI REGRESSIONE
L’ esempio che segue riguarda il contenuto di carbonio e di nicotina in 100g di tabacco. Si vuole vedere se c’è dipendenza (nel senso che l’ammontare di una sostanza aumenta o diminuisce con una certa relazione) di una delle due sostanze dall’altra.
Con la retta di regressione ipotizziamo l’esistenza di una relazione funzionale di una variabile dall’altra possiamo cioè ricostruire i valori di una variabile in funzione dell’altra variabile
secondo un modello matematico.
CO Y |
NICOTINA X |
|
x*y |
|
|
|
6 |
0.4 |
0.1 |
|
|
|
|
8 |
0.4 |
0.1 |
|
|
|
|
6 |
0.5 |
0.2 |
|
|
|
|
9 |
0.5 |
0.2 |
|
|
|
|
9 |
0.7 |
0.4 |
|
|
|
|
11 |
0.7 |
0.4 |
|
|
|
|
9 |
0.8 |
0.6 |
|
|
|
|
15 |
0.8 |
0.6 |
|
|
|
|
11 |
0.8 |
0.6 |
|
|
|
|
15 |
0.9 |
0.8 |
|
|
|
|
13 |
1.1 |
1.2 |
|
|
|
|
16 |
1.1 |
1.2 |
|
|
|
|
12 |
1.2 |
1.4 |
|
|
|
|
18 |
1.2 |
1.4 |
|
|
|
|
13 |
1.3 |
1.6 |
|
|
|
|
17 |
1.3 |
1.6 |
|
|
|
|
14 |
1.4 |
1.8 |
|
|
|
|
22 |
1.4 |
1.8 |
|
|
|
|
224 |
16.6 |
17.3 |
227 |
224 |
209.465 |
314.444 |
Numerosità = 18
Media y = 12.44 Media x = 0.92
Varianza x = 0.11
Covxy = 1.13
Ipotizziamo che ci sia dipendenza della variabile y (carbonio) dalla variabile x (nicotina). Identifichiamo y come variabile dipendente dalla x secondo una relazione di tipo lineare.
Per identificare questa retta che tende a stimare i valori delle y in funzione della x (intesa come variabile indipendente) abbiamo bisogno di una serie di valori che sono il frutto di un processo di stima dato dal metodo dei minimi quadrati.
Occorrono :
- la media delle due variabili
- la covarianza tra le due variabili
- la varianza della variabile x (indipendente).
Per stimare i due parametri servono :
- l’intercetta
- il coefficiente angolare della retta.
B1 (coefficiente angolare) = 10.3 (covxy / varx)
B0 (intercetta) = 2.99 (My - B1 * Mx)
= B0 + B1 * x = 2.985 + 10.26 * x (l’asterisco a fianco della y vuol dire y teorico)
= 209.46 / 314.4 = 0.67


Abbiamo ipotizzato l’esistenza di una relazione di tipo lineare tra le due variabili e abbiamo individuato una retta col metodo dei minimi quadrati.
Tra le numerose proprietà che presenta questo metodo c’è n’è una particolarmente importante: la retta stimata col metodo dei minimi quadrati è la migliore retta possibile ai fini dell’accostamento ai punti.
Ma non è detto che la retta sia la migliore interpolante tra i due punti: verifico cioè quanta variabilità mi spiega questa retta di regressione e per il principio della scomposizione della devianza posso rapportare la devianza alla devianza totale.
Devianza dovuta alla regressione + devianza residua – devianza
dovuta all’errore.
Rapportiamo una parte al tutto RAPPORTO DI SCOMPOSIZIONE , varia da 0 a 1.
Utilizzando questa proprietà possiamo costruire un indice
che mette in relazione la devianza dovuta alla regressione alla devianza totale.
σ= 1 le rette sono coincidenti con andamento crescente
σ= -1 le rette sono coincidenti con andamento decrescente
σ= 0 le rette sono disposte perpendicolarmente
Se la devianza dovuta alla regressione è 0 il rapporto sarà 0 e la retta non spiega nulla.
Se invece la variabilità dovuta alla regressione è completamente spiegata dalla retta di regressione (i punti si trovano tutti sulla retta), il rapporto è = 1.
Normalmente non ci si trova mai in questi due casi estremi.
Quando siamo di un 60% al di sopra dello 0 la retta è una buona interpolante.
= 0.67
La retta indica una buona interpolazione, ma i punti tendono a discostarsi abbastanza dalla retta.
(La variabilità dei punti intorno alla retta non è bassissima.)
2 RETTE DI REGRESSIONE
Possiamo ipotizzare la presenza di due rette di regressione esistenti sullo stesso piano : una retta di regressione in cui la variabile dipendente sia y e una in cui la variabile dipendente sia x.
Le due rette di regressione assumeranno normalmente una posizione sforbiciata tra di loro dove ci sarà un punto in cui si incrociano e che fa da perno, e che sarà il valore medio della x e della y.
Queste rette possono tendere a sovrapporsi o ad allargarsi fino a raggiungere un punto di perfetta perpendicolarità tra di loro. Tendono a sovrapporsi quando la correlazione sarà perfetta tra di loro, nel senso che tenderanno a disporsi in un’unica retta. Se invece la correlazione tende a diminuire (tende verso 0) le rette di regressione saranno perpendicolari e il coefficiente di correlazione lineare sarà = 1 (le due rette di regressione sono coincidenti e hanno un andamento crescente).
![]()
= -1 le due rette sono coincidenti ma hanno un andamento decrescente
![]()
= 0 le due rette sono posizionate perpendicolarmente sul piano, nel punto medio della x e della y, ed hanno un’angolazione nulla rispetto all’asse.
(Effetto della somministrazione di un farmaco sulla quantità di latte che viene prodotto in un allevamento di mucche.)
Grammi di farmaco x |
Litri di latte y |
Stime y Y* |
Dev. Tot.
|
Dev. Regressione
|
(y – y*) |
65 |
62 |
63.76 |
157.64 |
116.64 |
3.08 |
75 |
65 |
66.45 |
91.31 |
65.61 |
2.12 |
65 |
72 |
69.16 |
6.53 |
29.16 |
8.09 |
55 |
72 |
71.86 |
6.52 |
7.29 |
0.02 |
45 |
76 |
74.56 |
2.09 |
1.81 |
2.09 |
35 |
77 |
77.26 |
5.98 |
7.28 |
0.07 |
25 |
80 |
79.96 |
29.64 |
29.16 |
0.00 |
15 |
84 |
82.66 |
89.20 |
65.81 |
1.81 |
5 |
83 |
85.36 |
71.31 |
116.64 |
5.55 |
|
|
|
|
|
|
385 |
671 |
671.03 |
460.22 |
437.40 |
22.82 |
Vediamo come questi dati possono essere rappresentati graficamente. All’aumentare della quantità di farmaco somministrato, la quantità di latte raccolto tende a diminuire (andamento discorde).
Ipotizziamo che ci sia una dipendenza della produzione di latte dalla quantità di farmaco somministrato. Calcoliamo i dati che ci servono (covarianza, varianza x, media x , media y)
Mx = 45 My = 74.56
σ
= 666.67
σxy = -180
Si nota che la covarianza assume valore negativo.
Somma del prodotto degli scarti di ciascuna modalità delle x dalla propria media per il corrispondente valore delle y dalla propria media
(x – My)*(y – Mx) indicatore piuttosto grezzo della concordanza o discordanza. E’ importante della covarianza che ci da il segno di come si muovono questi scarti
se + / + = +
se - / - = +
se + / - = -
Se la covarianza ha valore positivo vuol dire che c’è una andamento concorde (crescente o decrescente), se ha valore negativo vuol dire che c’è un andamento discorde.
Y* = 86.7 –0.27 * x (retta di regressione)
COEFFICIENTE ANGOLARE : questo valore negativo indica che la retta è
angolata negativamente rispetto all’asse delle x. L’angolo della retta è
superiore a 90°.
DEV R (regressione) DEV E (errore) 437.40
![]()
![]()
![]()
= = 1 - = = 0.9504
![]()
DEV T (totale) DEV T (totale) 460.22
La devianza è spiegata dalla regressione
Indica un ottimo
accostamento ai dati
reali
REGRESSIONE MULTIPLA
Nella realtà si verifica molto spesso che una variabile non è dipendente da un’altra, ma da altre.
L’effetto congiunto di queste variabili indipendenti confluisce nel determinare il valore della variabile dipendente. Anziché avere a che fare con una sola variabile indipendente se ne trovano N.
Y = B0 + B1 * X1 + B2 * X2 +………BK * XK
Dal punto di vista tecnico non c’è molta differenza con la regressione semplice, ma la situazione si complica dal punto di vista dell’interpretazione, perché queste variabili normalmente interagiscono tra di loro. E’ vero che il valore della y dipende dal valore di x1 e x2; ma è vero anche che x1 è in qualche modo influenzato da x2 e x3.
![]()
E’ difficile individuare la responsabilità di ognuna delle variabili sulle altre.
Se abbiamo a che fare con poche variabili possiamo procedere all’analisi dell’INTERDIPENDENZA e calcolare i coefficienti di correlazione lineare parziali per mantenere distinti gli effetti delle diverse variabili.
CURVA DI GAUSS (o a campana, o normale)
Solo per fenomeni quantitativi.
200
Q. i. |
F |
60-70 |
26 |
70-80 |
56 |
80-90 |
145 |
90-100 |
230 |
100-110 |
235 |
110-120 |
182 |
120-130 |
82 |
130-140 |
31 |
140-150 |
13 |
totale |
1000 |
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
150
100
50
0
60-70 70-80 80-90 90-100 100-110 110-120 120-130 130-140
I dati hanno un andamento piuttosto regolare: quelli con q.i. molto basso sono relativamente pochi; quelli con q.i. molto alto sono pochi; in mezzo ci sono quelli con q.i. medio.
Vengono fatte delle stime, delle ipotesi per avere supporti scientifici maggiori.
La distribuzione è rappresentata bene dal diagramma a forma di campana o Curva di Gauss.
Ma in questa rappresentazione non si individuano bene i valori intermedi (ad esempio 75) : cerchiamo quindi di individuare una funzione matematica che possa restituire una buona approssimazione di questa distribuzione vera.
Distribuzione normale = forma a campana
Questo tipo di distribuzione è molto frequente (vedi tabella primo bacio 23 marzo).
Le due distribuzioni hanno un andamento molto simile e qualcuno si è accorto che la gran parte dei fenomeni tende a distribuirsi in questo modo.
La curva di Gauss
- è SIMMETRICA RISPETTO AL VALORE MEDIO
- se prendiamo il valore medio della distribuzione e tracciamo una linea verticale la distribuzione normale si divide in due parti uguali.
- La media, la moda e la mediana coincidono.
- L’area sottostante la curva rappresenta il 100% dei casi possibili (forzatura della realtà)
Per costruire la curva sono necessari solo la media e lo s.q.m. della distribuzione.
La curva varia da –
a +
: le due punte della curva non toccano mai l’asse delle ascisse per cui sono in grado di comprendere tutti i casi possibili, anche quelli più infrequenti.
e ![]()
FUNZIONE DI DENSITà DI FREQUENZA : indica per ciascun punto sull’asse
dell’ascisse la relativa ordinata (consente di costruire la curva punto per punto).
Ma si usa con maggiore frequenza la sua CUMULATA detta FUNZIONE DI RIPARTIZIONE.
e ![]()
Questa funzione mi dà l’area sottostante la curva fino ad
un certo punto : rappresenta la frequenza dei punteggi inferiore
ad un certo valore.
frequenze
x Media
Se sommo i punti prima di x avrò tutte le frequenze inferiori a x
corrispondenti a quest’area del grafico (quella sottostante la curva e
delimitata dalla linea tratteggiata).
Approssimare la distribuzione rilevata empiricamente attraverso una curva teorica ci consente di migliorare la stima dei valori che non abbiamo.
TEOREMA DI BIENAYME-CEBICEV
Questo teorema assicura che qualunque sia la forma della distribuzione nell’intervallo
M ± kσ
una certa percentuale di casi è compresa tra la media di + o – k volte lo scarto quadratico medio.
K = un qualunque numero intero positivo.
La percentuale che cade in questo intervallo non è inferiore a 1 –
.
Ipotizziamo che : M = 101.99 σ = 16.24 k = 2
101.99 ± (16.24 * 2)
Il teorema ci dice che, avendo ipotizzato k=2, nell’intervallo
- 134.47
cade una percentuale di casi non inferiore al 75% del totale.
Questo teorema serve tutte le volte che devo dare un’indicazione di consistenza / frequenza di casi che cadono in un certo intervallo (è molto frequente).
Se la distribuzione ha una forma normale (vedi esempio che segue) la percentuale diventerà del 95% circa, migliorando la precisione della stima.
Q. i. |
F |
F* |
60-70 |
26 |
20 |
70-80 |
56 |
63 |
80-90 |
145 |
142 |
90-100 |
230 |
221 |
100-110 |
235 |
238 |
110-120 |
182 |
177 |
120-130 |
82 |
91 |
130-140 |
31 |
33 |
140-150 |
13 |
8 |
totale |
1000 |
994 |
04/05/2004
Elementi di calcolo delle probabilità
Elementi di campionamento
Elementi di inferenza statistica
La statistica descrittiva non fa nessuna ipotesi di campionamento. Con l’inferenza statistica invece si vede come la variabile statistica, il carattere statistico riguarda l’intera popolazione. Il concetto di probabilità fa da cerniera tra caratteri statistici e variabili casuali.
La probabilità è legata al concetto di caso e di conoscenza parziale, interviene in tutte quelle situazione in cui non siamo in grado di descrivere un certo evento. Succede quando alcuni eventi che erano fino a quel momento indipendenti, coincidono.
In tutte le situazioni in cui fatti osservabili non sono prevedibili, il loro verificarsi e’ incerto e interviene dunque il calcolo delle probabilità. L'origine stessa della vita sembra sia stata originata dalla coincidenza assoluta (intersezione) di una serie di eventi casuali, fino ad allora totalmente indipendenti.
Non sarà mai possibile verificare empiricamente a posteriori in modo completo la probabilità di un evento casuale, ma sarà possibile stimarla empiricamente dandone una valutazione approssimativa.
La probabilità è un punto fisso attorno al quale fluttua, in modo imprevedibile (il caso non ha memoria) la frequenza relativa.
Esistono diverse definizioni ossia diverse procedure empiriche per stimare una probabilità.
Probabilità di un evento: esempio “lancio di una moneta” (esperimento prova)
Risultati= evento, frequenza evento
Frequenze relative= numero delle Testa/croce uscite sui lanci fatti.
Grafico
CENNI DI CALCOLO DELLE PROBABILITà.
La probabilità e il calcolo delle probabilità costituiscono la premessa indispensabile per introdurre l'altra branca della STATISTICA (oltre la STATISTICA DESCRITTIVA), ossia la STATISTICA INFERENZIALE.
L'inferenza statistica intesa come quel complesso di tecniche statistiche che permettono in base ai risultati relativi ad un gruppo di osservazioni ed esperimenti (detto CAMPIONE), di trarre conclusioni la cui validità per un collettivo più ampio è espressa in termini probabilistici.
La probabilità può essere considerata come l'elemento di passaggio, la cerniera di collegamento tra la variabile statistica e la variabile casuale.
Il calcolo delle probabilità nasce nel 1600 (Pascal Bayes; di cui i predecessori erano stati Cardoso, Keplero, Galileo). Tuttavia fino al 19° sec. esso si sviluppa indipendentemente dai due indirizzi della statistica universitaria e degli aritmetici politici (CAP 8 –p.341).
Diverse definizioni di probabilità.
- Probabilità a priori è la prima definizione di probabilità ed e’ è quella classica.
La probabilità di un evento casuale (incerto, non prevedibile) è il rapporto tra il numero dei casi favorevoli al verificarsi dell' evento e il numero dei casi possibili purchè siano tutti ugualmente possibili.
Ad es. la probabilità P(E=esce il 6) nel lancio di un dado a 6 facce è
P(E) = 1/6 = 0,16 (casi favorevoli; casi possibili = le 6 facce del
dado)
Tale definizione si basa sul principio di "indifferenza" o ragione non sufficiente non sufficienti :
non sempre possiamo definire a priori i casi ugualmente possibili, specialmente in
ambito sociale.
- La probabilità a posteriori e la DEFINIZIONE FREQUENTISTA i cui fondamenti sono
già esposti nell'ARS CONJECTANDI di Bernoulli (postume del 1715) in cui viene
esposta per la prima volta la LEGGE EMPIRICA del caso (la legge dei grandi numeri),
mala definizione viene data da VON MIESES (1883-1953).
La probabilità di un evento E è il limite cui tende la frequenza relativa dell'evento E (data dal rapporto tra il numero delle volte che si è verificato E e il numero totale delle prove, quando il numero delle prove tende ad infinito).
La legge empirica del caso afferma che al crescere del numero delle prove la frequenza relativa tende alla probabilità.
Limiti: impossibilita’ di ripetere le prove nelle stesse condizioni oppure la non ripetibilità delle prove per dati eventi (es. incidenti nucleari).
Prova :qualsiasi esperimento casuale (di cui sono definite(?)le condizioni) i cui esiti sono osservabili.
- Definizione SOGGETTIVISTA ( par. 8.2.8) la probabilità di un evento E è il grado di fiducia che un soggetto coerente attribuisce al verificarsi dell’evento su base alle conoscenze, informazioni di cui dispone ed è un numero reale compreso tra 0 e 1.
- Definizione ASSIOMATICA (un assioma è una proposizione che non si dimostra ma che è considerata vera) di probabilità è dovuta a AN KOLMOGOROV (1809-1887) in termini di insieme di teoria della misura in modo tale da consentire la costruzione parziale della teoria delle probabilità prescindendo dal significato da attribuire al termine di probabilità.
- Il concetto di base su cui si fonda la definizione assiomatica è quello di spazio degli eventi (elementari che permettono di costruire tutti gli altri eventi). Ω (omega) detto anche spazio campionario ossia l’insieme discreto o continuo dei risultati possibili di una prova.
DEFINIZIONE ASSIOMATICA DI PROBABILITA’
Evento casuale = è un risultato di una prova
Ω= tutti i possibili risultati di una prova
Se si definisce un evento casuale un sottoinsieme di Ω, ad ogni evento casuale E è possibile associare un numero REALE p(E) (p di e) chiamato probabilità, tale che
- 0 <= p(E) <= 1 (la probabilità è un numero reale compreso tra 0 ed 1, estremi inclusi) (ASSIOMA DI NORMALIZZAZIONE).
- Se E è un evento certo p(E) = 1.
(es. p(Ω) = 1; se E è un evento impossibile p(E) = 0)
- Se E1 e E2 sono eventi disgiunti e incompatibili, ossia che si escludono a vicenda (il verificarsi dell'uno esclude il verificarsi dell'altro)la probabilità di E1 o E2 è data da p(E1 o E2) = p(E1) + p(E2)
detto assioma dell' ADDITIVITA’, ossia la probabilità di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi.
LO SPAZIO CAMPIONARIO E IL DIAGRAMMA DI EULERO-VEN
Es: se si lancia un dado, lo spazio degli eventi elementari è dato da Ω = {1,2,3,4,5,6}. Tale spazio è un insieme discreto. Lo spazio degli eventi Ω può essere rappresentato col diagramma di Eulero-Ven.
1
5 2
3 6
4
6
5

Ω Ω
Quello cerchiato è il risultato della prova; quello fuori dal cerchio è il NON E’
NON E’ 1= ![]()
esempi di eventi
E1 esce il 4, l'evento complementare di E1 ossia ‘non E’ si indica E1 ed in questo caso è
= {1,2,3,5,6}.
Nota : E1 +
1 = E1 U
1 = Ω -> p(E1) + p(E1) = p(Ω) = 1
di cui 1 - p(E1) = p(
1)
E2 esce un numero
3: l'evento complementare di E2 è
2 = {4,5,6}
PAG.348 – TEOREMI DELLE PROBABILITA’ TOTALI. Per eventi incompatibili e compatibili.
La somme logica di eventi (unione) E1 o E2 o …Es e’ il teorema delle probabilita’ totali per eventi incompatibili.
- Eventi incompatibili = il verificarsi dell’uno esclude il verificarsi dell’altro. Sono eventi disgiunti : E1 …. E2 = 0
Ad esempio determinare la probabilita’ che lanciando una moneta si presenti: E1 = testa o E2 = croce
P (e1 o E2) = P (E1….E2) = P (E1)+P(E2)= 1 fratto 2 + 1 fratto 2 = 1


DIAGRAMMA DI EULERO VEN
E1=T E2=C
- In questo esempio E1⋂E2 = ∅ (l’intersezione dei 2 eventi e’ uguale all’insieme vuoto: non ci sono punti in comune perche’ gli eventi sono disgiunti, incompatibili.
- In questo esempio E1⋃E2=Ω (l’unione dei due eventi coincide con lo spazio campionario e degli eventi) Ω e la probabilita’ che si verifichi l’evento testa o l’evento croce è uguale alla probabilità dello spazio campionario.
- Eventi compatibili : il verificarsi dell’uno non esclude il verificarsi dell’altro. Sono eventi congiunti: E1⋂E2≠0
Es: nel lancio di un dado i due veventi E1=esce 2 o E2= esce un numero pari


Ω
E1 E2
1 2 4
6
3 5
Teorema delle probabilita’ totali per eventi compatibili.
Considerati 2 eventi compatibili E1, E2 la probabilita’ di E1 o E2 (E1⋃E2) e’ data da


E1 E1⋂E2 E2
P(E1 o E2) = P(E1⋃E2)=P(E1)+P(E2)-P(E1⋂E2) (tolgo l’intersezione con i 2 eventi considerati compatibili.
L’evento E1 è compreso nell’evento E2 (numeri pari). Quando i 2 eventi sono compatibili lo spazio campionario cambia in quanto si restringe un po’.
TEOREMI DELLE PROBABILITA’ COMPOSTE |
Il prodotto logico (intersezione) di Eventi (E1, E2 e Es) E1⋂E2⋂Es
A) PER EVENTI DIPENDENTI
Il cui verificarsi dipende (accresce o ne diminuisce la probabilità) dal verificarsi di un altro evento – se domani piove (A) prendo l’ombrello (B)
P(A⋂B)=P(A)*P(B/A) che si legge: P di A e B è uguale a P di A per P di B condizionata da A.
P(B/A) è la probabilità condizionata dell’evento B subordinato al verificarsi dell’evento A ed è uguale a
casi favorevoli al verificarsi di A⋂B
P(B/A)=
Casi favorevoli al verificarsi di A
Se P(A) ≠0 (se la probabilità di A è diversa da zero)
B) PER EVENTI INDIPENDENTI
Il cui verificarsi non è influenzato dal verificarsi di un altro evento
Es. domani piove (A) a pranzo mangio pollo (B)
P(A⋂B)=P(A)*P(B)
Perchè in tale caso P(B/A)=P(B)
12/05/2004
Il campione si può costruire in due modi
NON PROBABILISTICO :
tra i non probabilistici c’è il campione a valanga (es. dai clienti di un negozio estraiamo un numero casuale)
CASUALE :
devo avere la lista delle n unità statistiche dalla quale estraggo con tecnica casuale il campione
![]()
![]()
![]()
SEMPLICE RAGIONATO (è il campione non
probabilistico più usato)
STRATIFICATI possono
coesistere
![]()
A STADI PER QUOTA (le variabili di
controllo sono considera-
te separatamente)
PER DEFINIZIONE (le variabili di controllo sono considerate incrociate)
E’ molto importante la differenza fra strato e stadio : con il campione stratificato diminuisce la variabilità, diminuisce il σ (sigma) della popolazione, perché divido la popolazione in tante sub-popolazioni (classi).
Inoltre con il campione a strati evito di costruire la lista delle n unità statistiche (in alcuni casi può essere un’operazione molto difficile da attuare) per tutti i passaggi che devo compiere.
Differenza tra casuale e non probabilistico l’inferenza la applico solo al campione casuale.
Universi
(universo dei campioni) insieme di tutti i possibili campioni casuali di numerosità n che posso estrarre da una popolazione P secondo un dato piano di campionamento.
(universo con ripetizione)
, N popolazioni elevate alla numerosità del campione scelto per sapere il numero massimo possibile di tutti i campioni di quella popolazione.
![]()
= (universo in blocco) N = 
n
= (universo esaustivo, senza ripetizione)
Se un campione casuale è rappresentativo della popolazione vuol dire che non è distorto (e non che riproduce le caratteristiche della popolazione, perché essendo un campione casuale questo non è garantito).
CAMPIONI CASUALI, INFERENZA STATISTICA E TEORIA DEI CAMPIONI.
I risultati di campioni ottenuti con metodo di campionamento casuale consentono di trarre conclusioni non certe (ossia in termini probabilistici) sul valore stima (puntuale o per intervalli) di particolari parametri della popolazione o sulla verifica di specifiche ipotesi (tramite test statistici) che sono l’oggetto dell’inferenza statistica; questa si applica solo a campioni casuali, i quali a loro volta possono essere di diverso tipo a seconda della strategia più o meno complessa ossia del piano di campionamento scelto, in base agli scopi della ricerca, che è l’oggetto della teoria dei campioni.
Stima e Verifica sono i due momenti che caratterizzano
l’inferenza statistica.
(pag. 399)
Inferenza statistica i problemi oggetto dell’inferenza:
- Stima puntuale di un unico valore numerico, come ad esempio la media aritmetica, tramite la scelta di uno stimatore avente date proprietà.
- Stima in un intervallo di confidenza (insieme di valori) tramite la scelta di un livello di confidenza P% che contiene il valore del parametro θ di P.
- Verifica di ipotesi statistiche tramite test statistici (parametrici e non parametrici).
Campioni alcune definizioni :
- Parametro (
) : si indica, come termine generico, con la lettera greca theta, o comunque nello specifico sempre con una lettera greca (σ , μ).
E’ il valore caratteristico della popolazione P (es. una ,media, una frequenza, un indice di variabilità).
- Statistiche (statistics): (
) (stime di un parametro) si indica con una theta segnata con cappello.
E’ il risultato di una funzione delle n osservazioni campionarie su un dato campione (x1, x2, ….xn), ossia una data n-pla (i possibili campioni).
Le x sono minuscole perché indicano un preciso
campione degli n possibili.
Theta segnato = funzione di x1, x2, ecc… (diventa cruciale la scelta di h)
ad esempio per la media :

- Stimatore : è una funzione
(dove le X sono grandi perché il campione varia)delle n osservazioni campionarie per il calcolo delle “statistiche”.
Esempio:
lo stimatore per la media aritmetica è
Sommatoria per i che va da 1 a n delle x con i (indice) diviso n
Si noti che la n-pla
varia al variare dei campioni
nell’universo dei campioni.
- Spazio campionario : (per valori continui) l’insieme di tutti i possibili campioni di numerosità n estraibili dalle N unità statistiche di una P mediante scelta casuale.
Se P è finita si parla di Universo dei campioni (per valori discreti : cioè tutti gli elementi sono numerabili; è una popolazione teorica).
DISTRIBUZIONE CAMPIONARIA DELLA STATISTICA
: LA V.C.C. (variabile casuale campionaria)
La variabile casuale campionaria è anche detta V.A.C. : variabile aleatoria campionaria.
Al variare dei campioni nell’universo dei campioni la statistica
(ad esempio media aritmetica, una percentuale, ecc..) assume valori diversi per cui è possibile costruire la sua distribuzione campionaria (come si distribuisce nell’universo dei campioni) che definisce una v.c.c.
Esempio pag.400
Si consideri la popolazione P costituita da N = 5 S.p.A. e il carattere x = investimenti nel 1990 (in milioni di lire) e come parametro θ di P la media aritmetica μ :
Società (N) |
Investimenti (x) |
A |
140 |
B |
150 |
C |
120 |
D |
180 |
E |
160 |
μ = 150 (media)
σ = 20 (s.q.m)
=400 (varianza)
DISTRIBUZIONE CAMPIONARIA DELLA STATISTICA
: LA V.C.C.
.
Si fissi una numerosità n=2 per il campione e si decida che esso sia un campione casuale semplice con ripetizione. Si consideri per ciascuno di essi la statistica
“investimento medio” (in milioni); pertanto nell’
si avrebbero i seguenti investimenti medi
:
. Sono 25 i possibili campioni
bernoulliani di numerosità 2:
N = 5 A,B,C,D,E
(tabelle 73 e 74 pag.401)
In questo esempio abbiamo la media vera che nella realtà non abbiamo quasi mai. Dei campioni (25) possibili molti hanno un valore che si discosta dalla media e potrebbe capitarci uno di questo.
ERRORE DI CAMPIONAMENTO : nell’esempio solo 5 campioni hanno la stima del parametro uguale al valore vero (150, la media); tutti gli latri hanno un errore di campionamento.
L’errore di campionamento è RANDOM (casuale) e dalla curva di Gauss sappiamo anche come si distribuisce : molto frequente vicino alla moda, meno frequente man mano che ci si allontana dal valore vero.
Quanto più dunque ci allontaniamo dal picco centrale, tanto più diminuisce la possibilità di errore.
Si noti che soltanto 5 campioni si 25 hanno un valore
, tutti gli altri contengono un errore di campionamento che dipende da quel particolare campione estratto misurabile dagli scarti
(media campione – media popolazione) che riferiti a tutti i valori
della distribuzione campionaria della v.c.c.
costituiscono la variabile casuale
.
Tali errori sono di tipo casuale (random).
Pertanto la variabile casuale
tende all’aumentare della numerosità n del campione (< di 30 unità statistiche = piccolo campione) ad una distribuzione di tipo normale (Gauss)
n C
C2
![]()
![]()
-30 -10 -5 5 10 30
TEOREMA DEL LIMITE CENTRALE.
Siano x1,x2,….xn, n variabili casuali indipendenti di media μ e varianza
(in altre parole sia x1,x2,….xn un campione bernoulliano estratto da una popolazione con funzione di densità non necessariamente normale di media μ e varianza
) al crescere di n la distribuzione della media
![]()
![]()

C 3
C30
0 μ ![]()
tende alla distribuzione normale con media μ (media della popolazione vera) e varianza
N-1 è il fattore di correzione per popolazioni finite (con un numero finito di elementi).
nell’universo bernoulliano;
nell’universo in blocco.
Nelle applicazioni per n >= 30 si ha una buona approssimazione alla distribuzione normale.Si può attuare la trasformazione della variabile casuale
nella variabile standardizzata Y :
![]()
![]()
Variabile media – media
s.q.m.
à ![]()
che all’aumentare di n tende ad una variabile casuale normale standardizzata con media μ = 0 e
= 1 N(0,1).
È lo standard error (misura compatta dell’errore)
Se aumento la numerosità (radice quadrata di n) diminuisce σ e quindi l’errore. Si potrebbe diminuire σ con il campionamento stratificato e quindi diminuire anche l’errore.
25/05/2004
LA NUMEROSITà
Il test del χ2 può essere utilizzato anche per verificare l’ipotesi che la distribuzione empirica sia stata estratta da una popolazione teorica (ad es. normale). In tal caso prende il nome di test di omogeneità e l’espressione è :

in cui
sono le k frequenze assolute della distribuzione empirica;
sono le k frequenze teoriche.
Si noti che i gradi di libertà g sono uguali a g = k – ν – 1 in cui k ?????? delle classi (??????); ν = i parametri della distribuzione teorica (es. per la distribuzione normale i parametri sono ν = 2 [μ ; σ]).
Esempio
Su un campione di 400 famiglie con 2 figli si è osservata la seguente distribuzione rispetto al sesso dei figli
![]()
MM MF FF tot.
80 220 100 400
Si vuole verificare l’ipotesi nulla
: che la probabilità di un figlio maschio sia uguale a quella di una figlia femmina e inoltre che l’evento sesso del nascituro sia indipendente dal sesso del figlio già nato.
La distribuzione teorica sarebbe dunque la seguente
![]()
MM MF FF tot.
100 200 100 400
Applicando il test di omogeneità si calcola la statistica-test
![]()
Prefissando quindi α= 0.05 e sapendo che i gradi di libertà sono g=K-1= 3-….. si trova sulle tavole il valore teorico del
(manca la formuletta perchè non l'ho capita)
χ2 α = 0,05; g = 2 = 5,991
Poichè χ2 (empirico) = 6 > α = 0,05;g = 2=5,991 si rifiuta l'ipotesi nulla
;
prefissando invece α =0.01 e g=2 si ha che χ2 (empirico) = σ > α = 0,05;g = 2=5,991
Si accetta quindi l'ipotesi nulla di uguale probabilità di nascita di un maschio o di una femmina e dell'indipendenza rispetto al sesso del figlio già nato.
(esercizi di statistica pag. 359-378)
COME SI CALCOLA LA NUMEROSITà CAMPIONARIA PER LA STIMA DI UNA MEDIA NEL CASO DEL CAMPIONAMENTO CASULAE SEMPLICE.
La numerosità di un campione è funzione del parametro che si vuole stimare o dell' ipotesi che si vuole verificare.
Nella determinazione della numerosità campionaria infatti occorre distinguere :
- stima per attributi : calcolo della numerosità del campione per la stima di una frequenza
- stima per variabili : per la stima di una media.
Nella pratica spesso è necessario calcolare la numerosità del campione per le stime di entrambi i parametri; in tal caso si calcola la numerosità per ciascuno e poi si sceglierà quella più elevata.
Nel caso di piani di campionamento piu’ complessi del campione casuale semplice (ad es. stratificato, proporzionale, ecc..) si può impiegare per la scelta della numerosità campionaria finale il DEFF (Design effect)
Occorre inoltre distinguere se la numerosita’ qualunque sia il parametro da stimare si riferisca a:
- campioni bernoulliani o con ripetizione ossia campioni di n elementi estratti da una popolazione ??????????????ad una popolazione infinita.
- campioni senza ripetizione(in blocco, esaustivo) estratti da una popolazione finita.
PICCOLI CAMPIONI N< 30 ; GRANDI CAMPIONI > 30.
Se la varianza del carattere x non è nota, nella popolazione P una stima di
può essere distinta:
- sulla base di esperienze precedenti
- mediante una piccola indagine pilota preliminare
- nell'ipotesi di non avere altre informazioni si può dimostrare che un limite superiore per σ è dato da
.
Questa stima è molto pessimistica e porta a campioni con numerosità elevata si può allora supporre che max
e si può assumere a titolo cautelativo che min σ = 0; si può allora considerare cone stima di σ la media aritmetica :

quindi la varianza è ![]()
CALCOLO DELLA NUMEROSITà CAMPIONARIA PER LA STIMA DI UNA MEDIA μ DI p.
Il caso di un campione bernoulliano .
Si suppone di estrarre da una popolazione normale un campione bernoulliano di numerosità n e che la sua media campionaria sia (essendo
l'errore di campionamento) un valore assoluto da cui è affetta la media si può porre tale differenza
formula con il δ =[ x - μ|
indicando con δ l'errore che siamo disposti ad accettare. Si vuole minimizzare la probabilità di avere campioni con un errore maggiore di δ ad un livello di rischio prefissato che indicherà come al solito con δ ossia ![]()
questa disuguaglianza si può anche scomporre
![]()
da cui standardizzando e con facili passaggi si ricava l'espressione della numerosità campionaria n ?????? prefissato:il livello di rischio ?????? l'errore assoluto δ : supponendo nota la varianza del carattere x nella popolazione P e

Esempio.
Si determini l'ampiezza del campione bernoulliano necessario per stimare la durata media di ascolto tv domenicale tra gli abitanti ???????????????????????????????????????????????????????????????????????????? una precisione di 2 minuti ed un'attendibilità del 95%. Si stima la varianza mediante un'indagine ?????????????????????alle seguenti durate di ascolto in minuti
- 120 120 105 120 120 180 60 90 45 120 105 105 120
La media e la varianza corretta del campione bernoulliano sono rispettivamente
x = 112 min ; s = 1281.43
Pertanto la numerosità del campione bernoulliano è

La grandezza del campione è dovuta ??????????????????????? un alto livello di precisione δ+-2 minuti e un'elevata variabilità.
Il caso di un campione in blocco.
Nel caso di un campione senza ripetizione si può quindi considerare ????????? per il calcolo della numerosità campionaria l'espressione

in cui si tiene conto del fattore di correzione per popolazioni finite perchè la frazione di campionamento è ??????????
Esempio
Si consideri una popolazione P di N=200 unità statistiche e si voglia calcolare la numerosità campionaria in blocco per stimare l'ascolto tv medio domenicale, sapendo che tale ascolto ha uno s.q.m. di 36 minuti e prefissando un livello di significatività P = 1 - α = 0.95.
α = 0.05
e un errore δ ?????????
Pertanto la numerosità campionaria è data da

Fonte : www.sociologia.uniroma1.it Appunti di Pieri
-
Fine articolo Statistica
- Fine articolo Statistica tutto di tutto
Statistica tutto di tutto
Collegamenti utili gratuiti
Disclaimer : gli obiettivi di questo sito sono il progresso delle scienze e delle arti utili in quanto pensiamo che siano molto importanti per il nostro paese i benefici sociali e culturali della libera diffusione di informazioni utili. Tutte le informazioni e le immagini contenute in questo sito vengono qui utilizzate esclusivamente a scopi didattici, conoscitivi e divulgativi. Le informazioni di medicina e salute contenute nel sito sono di natura generale ed a scopo puramente divulgativo e per questo motivo non possono sostituire in alcun caso il consiglio di un medico (ovvero un soggetto abilitato legalmente alla professione). In questo sito abbiamo fatto ogni sforzo per garantire l'accuratezza dei tools, calcolatori e delle informazioni, non possiamo dare una garanzia o essere ritenuti responsabili per eventuali errori che sono stati fatti, i testi contenuti nel sito sono di proprietà dei rispettivi autori. Se trovate un errore su questo sito o se trovate un testo o tool che possa violare le leggi vigenti in materia di diritti di autore, comunicatecelo via e-mail e noi provvederemo tempestivamente a rimuoverlo.