Esempi di statistica descrittiva e inferenziale/Le donne in USA: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} === Caricamento librerie === <syntaxhighlight lang="rsplus"> library(ggplot2) library(dplyr) library(statsr) library(scales)...
 
Riga 86:
 
== Parte 4: Inferenza ==
Le ipotesi per verificare se il reddito familiare medio degli uomini statunitensi è maggiore di quello delle donne è:
 
H0: mu_Male = mu_Female
HA: mu_Male> mu_Female
 
Ogni osservazione nel gruppo degli uomini non ha una corrispondenza speciale con esattamente un'osservazione nel gruppo delle donne, quindi i dati non sono accoppiati . Lavoriamo con un campione casuale di osservazioni che sono meno del 10% di un ampio insieme di dati di tutt gli Stati Uniti negli anni di indagine, quindi le osservazioni in ciascun gruppo sono indipendenti. Le dimensioni dei campioni sono 25146 per gli uomini e 31915 per le donne , quindi le dimensioni del campione sono molto grandi. Ci possiamo rilassare sul requisito della distribuzione quasi normale e possiamo usare la distribuzione t, sebbene ognuna delle 2 distribuzioni è fortemente distorta.
 
<syntaxhighlight lang="rsplus">
{{avanzamento|50%|7 aprile 2020}}
g<- gss %>%
filter(!is.na(sex),!is.na(coninc))
 
inference(y = coninc, x = sex, data = g, statistic = "mean", type = "ht", null=0,
alternative = "greater", method = "theoretical")
 
</syntaxhighlight>
 
Response variable: numerical
Explanatory variable: categorical (2 levels)
n_Male = 23043, y_bar_Male = 48763.6453, s_Male = 36916.3394
n_Female = 28189, y_bar_Female = 41020.2199, s_Female = 34728.8358
H0: mu_Male = mu_Female
HA: mu_Male > mu_Female
t = 24.2541, df = 23042
p_value = < 0.0001
 
 
'''Rifiutiamo l'ipotesi nulla H0 essendo p_value <0,05. I dati forniscono una prova evidente che il reddito familiare dichiarato dagli uomini statunitensi è maggiore di quello dichiarato dalle donne statunitensi .'''
 
 
<syntaxhighlight lang="rsplus">
inference(y = coninc, x = sex, data = g, statistic = "mean", type = "ci", null=0,
alternative = "greater", method = "theoretical")
</syntaxhighlight>
 
Response variable: numerical, Explanatory variable: categorical (2 levels)
n_Male = 23043, y_bar_Male = 48763.6453, s_Male = 36916.3394
n_Female = 28189, y_bar_Female = 41020.2199, s_Female = 34728.8358
95% CI (Male - Female): (7117.6505 , 8369.2002)
 
 
'''Siamo sicuri al 95% che il reddito familiare dichiarato dagli uomini statunitensi sia tra 7177 e 8369 dollari in più rispetto a quello dichiarato dalle donne .'''
 
Ora valutiamo se esiste un'associazione tra il livello di istruzione e il sesso attraverso il test di indipendenza CHI QUADRO.
 
Le condizioni necessarie per eseguire il test CHI QUADRO sono:
Indipendenza: i campioni sono sia casuali, non correlati e provenienti da meno del 10% della popolazione, quindi l'indipendenza tra le osservazioni è ragionevole.
 
<syntaxhighlight lang="rsplus">
g<- gss %>%
filter(!is.na(sex),!is.na(degree))
 
inference(y = sex, x = degree, data = g, statistic = "proportion", type = "ht",
alternative = "greater", method = "theoretical")
</syntaxhighlight>
 
'''Dal momento che p-value = 0 <0,05, rifiutiamo l'ipotesi nulla. Vi è una forte evidenza che esiste un'associazione tra livello di istruzione e sesso .'''
 
{{avanzamento|5075%|78 aprile 2020}}
 
[[Categoria:Esempi di statistica descrittiva e inferenziale|donne in USA]]