Esempi di statistica descrittiva e inferenziale/Le donne in USA
Caricamento librerie
modifica library(ggplot2)
library(dplyr)
library(statsr)
library(scales)
Parte 1: Dati
modificaIl "General Social Surveys" è un questionario sottoposto a persone intervistate di 18 anni o più che parlavano in inglese all'interno degli Stati Uniti d'America. In totale le interviste sono state 57.061 che rappresentano meno del 10% della popolazione Americana . Tali interviste sono state fatte tra il 1972 e il 2014 e ciascuna contiene 114 variabili di cui alcune numeriche ed altre categoriali. L'analisi fatta è osservazionale e non sperimentale quindi non si possono stabilire relazioni casuali tra le variabili.
Parte 2: Domanda di ricerca
modificaE' vero che il reddito familiare delle donne americane è inferiore a quello degli uomini negli anni in cui i dati sono stati raccolti? E' vero che la percentuale di donne americane che hanno i seguenti titoli di studio 'Lt High School','High School','Junior College','Bachelor' è maggiore degli uomini sempre negli anni in cui i dati sono stati raccolti? E' verò che la percentuale di donne con il titolo 'Graduate' è minore degli uomini...?
La variabili trattate nell'analisi statistica sono :
- coninc: reddito familiare in dollari (variabile numerica)
- sex: sesso del rispondente (variabile categorica con valori : Female e Male)>
- degree: Titolo di studio di livello superiore del rispondente (variabile categorica con valori : Lt High School,High School,Junior College,Bachelor,Graduate)
Parte 3: Esplorazione dei dati
modificaConsideriamo la relazione esistente tra reddito familiare in dollari e il sesso del rispondente:
gss %>% filter(!is.na(coninc),!is.na(sex)) %>%
ggplot(aes(coninc,fill=sex)) +
geom_histogram (bins=30,color='black')+
xlab("Family income in costant dollars") +
ylab("Total number of respondents") +
ggtitle("Family income of the respondent based on gender") +
scale_fill_discrete(name="Sex")
gss %>%
filter(!is.na(sex),!is.na(coninc)) %>%
ggplot(aes(sex,coninc)) +
geom_boxplot()+
ylab("Family income in costant dollars") +
xlab("Sex")
Entrambe le distribuzioni sono distorte a destra con numerosi outliers, inoltre la mediana negli uomini è maggiore di quella delle donne.
Per la media c'è una differenza statistica significativa ? Per rispondere alla domanda si condurrà un test delle ipotesi...
I grafici che indicano la percentuale di laureati e liceali in base al sesso sono i seguenti:
gss %>%
filter(!is.na(sex),degree=='Graduate') %>%
ggplot(aes(sex,fill=sex)) +
geom_bar(aes(y=(..count../sum(..count..))))+
scale_y_continuous(labels = percent_format())+
ylab("Percentage of Graduate respondents") +
xlab("Sex")
gss %>%
filter(!is.na(sex),degree=='High School') %>%
ggplot(aes(sex,fill=sex)) +
geom_bar(aes(y=(..count../sum(..count..))))+
scale_y_continuous(labels = percent_format())+
ylab("Percentage of High School respondents") +
xlab("Sex")
Come si può vedere dal grafico a barre nel campione, la percentuale di donne con il diploma è maggiore di quella degli uomini, mentre la percentuale di donne che hanno una laurea è inferiore a quella degli uomini. Ma questo è generalmente vero per le donne statunitensi negli anni in cui è stato fatto il sondaggio?
Per rispondere a questa domanda troverò gli intervalli di confidenza...
Parte 4: Inferenza
modificaLe ipotesi per verificare se il reddito familiare medio degli uomini statunitensi è maggiore di quello delle donne è:
H0: mu_Male = mu_Female HA: mu_Male> mu_Female
Ogni osservazione nel gruppo degli uomini non ha una corrispondenza speciale con esattamente un'osservazione nel gruppo delle donne, quindi i dati non sono accoppiati . Lavoriamo con un campione casuale di osservazioni che sono meno del 10% di un ampio insieme di dati di tutt gli Stati Uniti negli anni di indagine, quindi le osservazioni in ciascun gruppo sono indipendenti. Le dimensioni dei campioni sono 25146 per gli uomini e 31915 per le donne , quindi le dimensioni del campione sono molto grandi. Ci possiamo rilassare sul requisito della distribuzione quasi normale e possiamo usare la distribuzione t, sebbene ognuna delle 2 distribuzioni è fortemente distorta.
g<- gss %>%
filter(!is.na(sex),!is.na(coninc))
inference(y = coninc, x = sex, data = g, statistic = "mean", type = "ht", null=0,
alternative = "greater", method = "theoretical")
Response variable: numerical Explanatory variable: categorical (2 levels) n_Male = 23043, y_bar_Male = 48763.6453, s_Male = 36916.3394 n_Female = 28189, y_bar_Female = 41020.2199, s_Female = 34728.8358 H0: mu_Male = mu_Female HA: mu_Male > mu_Female t = 24.2541, df = 23042 p_value = < 0.0001
Rifiutiamo l'ipotesi nulla H0 essendo p_value <0,05. I dati forniscono una prova evidente che il reddito familiare dichiarato dagli uomini statunitensi è maggiore di quello dichiarato dalle donne statunitensi .
inference(y = coninc, x = sex, data = g, statistic = "mean", type = "ci", null=0,
alternative = "greater", method = "theoretical")
Response variable: numerical, Explanatory variable: categorical (2 levels) n_Male = 23043, y_bar_Male = 48763.6453, s_Male = 36916.3394 n_Female = 28189, y_bar_Female = 41020.2199, s_Female = 34728.8358 95% CI (Male - Female): (7117.6505 , 8369.2002)
Siamo sicuri al 95% che il reddito familiare dichiarato dagli uomini statunitensi sia tra 7177 e 8369 dollari in più rispetto a quello dichiarato dalle donne .
Ora valutiamo se esiste un'associazione tra il livello di istruzione e il sesso attraverso il test di indipendenza CHI QUADRO.
Le condizioni necessarie per eseguire il test CHI QUADRO sono: Indipendenza: i campioni sono sia casuali, non correlati e provenienti da meno del 10% della popolazione, quindi l'indipendenza tra le osservazioni è ragionevole.
g<- gss %>%
filter(!is.na(sex),!is.na(degree))
inference(y = sex, x = degree, data = g, statistic = "proportion", type = "ht",
alternative = "greater", method = "theoretical")
Response variable: categorical (2 levels) Explanatory variable: categorical (5 levels) Observed: y x Male Female Lt High School 5153 6669 High School 12340 16947 Junior College 1272 1798 Bachelor 3822 4180 Graduate 2091 1779
Expected: y x Male Female Lt High School 5204.962 6617.038 High School 12894.410 16392.590 Junior College 1351.652 1718.348 Bachelor 3523.101 4478.899 Graduate 1703.874 2166.126
H0: degree and sex are independent HA: degree and sex are dependent chi_sq = 254.3489, df = 4, p_value = 0
Dal momento che p-value = 0 <0,05, rifiutiamo l'ipotesi nulla. Vi è una forte evidenza che esiste un'associazione tra livello di istruzione e sesso .
g<- gss %>%
filter(!is.na(sex),degree=='Graduate')
inference(y = sex, data = g, statistic = "proportion", type = "ci",
method = "theoretical",success = 'Female')
Single categorical variable, success: Female n = 3870, p-hat = 0.4597 95% CI: (0.444 , 0.4754)
Quindi siamo sicuri al 95% che la percentuale di donne statunitensi che hanno il titolo di "Graduate" è compresa tra il 44,4% e il 47,5%, che è comunque inferiore al 50%, quindi le donne statunitensi con "Graduate" sono meno degli uomini con un livello di confidenza del 95%.
for (deg in c('Lt High School','High School','Junior College','Bachelor')) {
print(deg)
g<- gss %>%
filter(!is.na(sex),degree==deg)
inference(y = sex, data = g, statistic = "proportion", type = "ci",
method = "theoretical",success = 'Female')
}
[1] "Lt High School" Single categorical variable, success: Female n = 11822, p-hat = 0.5641 95% CI: (0.5552 , 0.5731) [1] "High School" Single categorical variable, success: Female n = 29287, p-hat = 0.5787 95% CI: (0.573 , 0.5843) [1] "Junior College" Single categorical variable, success: Female n = 3070, p-hat = 0.5857 95% CI: (0.5682 , 0.6031) [1] "Bachelor" Single categorical variable, success: Female n = 8002, p-hat = 0.5224 95% CI: (0.5114 , 0.5333)
Invece siamo fiduciosi al 95% che la percentuale di donne statunitensi che hanno un 'Lt High School', 'High School', 'Junior College', 'Bachelor' sia sempre più del 50% rispetto agli uomini, quindi le donne statunitensi con queste qualifiche sono sempre più degli uomini con un livello di confidenza del 95%.