Esempi di statistica descrittiva e inferenziale/I tumori: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} ==Caricamento librerie== <syntaxhighlight lang="rsplus"> library(dplyr) library(ggplot2) library(statsr) </syntaxhighlight> =... |
Nessun oggetto della modifica |
||
Riga 8:
== Parte 1: Dati ==
'''Caricamento e visualizzazione sommaria di ciascuna variabile:'''
Riga 67:
==Parte 3: Esplorazione dei dati==
<syntaxhighlight lang="rsplus">
cancer %>%
ggplot(aes(bmi)) +
geom_histogram(bins = 10, fill="darkgreen", col="black")
cancer %>%
filter(!is.na(smoking))%>%
ggplot(aes(cancer, fill=smoking)) +
geom_bar()
cancer %>%
ggplot(aes(y=bmi, fill=gender)) +
geom_boxplot()
</syntaxhighlight>
[[File:Bmi istogramma.png|frame|centro]]
[[File:Cancro smoking.png|frame|centro]]
[[File:Bmi gender.png|frame|centro]]
==Parte 4: Statistica inferenziale ==
Creo una variabile fruitveg che somma le porzioni di frutta e verdura e un'altra variabile che assume i 2 valori "Vegetali > 5" e "Vegetali < 5"
<syntaxhighlight lang="rsplus">
cancer <-cbind(cancer, fruitveg=cancer$fruit+cancer$veg)
cancer <-cbind(cancer, five_a_day=ifelse(cancer$fruitveg>=5,"Vegetali > 5","Vegetali < 5"))
cancer$fruitveg <- as.factor(cancer$fruitveg)
cancer$five_a_day <- as.factor(cancer$five_a_day)
table(cancer$five_a_day)
</syntaxhighlight>
'''tramite la funzione inference si nota che non c'è associazione o dipendenza tra il consumo di almeno 5 porzioni di frutta e verdura oppure no e il fatto di avere il cancro, infatti vale l'ipotesi nulla essendo il p-value=0.0616 > 0.05: '''
<syntaxhighlight lang="rsplus">
inference(x=five_a_day, y = cancer, data = cancer, statistic = "proportion", type = "ht", alternative = "twosided", method = "theoretical",success = "Cancro Si")
</syntaxhighlight>
Response variable: categorical (2 levels, success: Cancro Si)
Explanatory variable: categorical (2 levels)
n_Vegetali < 5 = 44, p_hat_Vegetali < 5 = 0.2955
n_Vegetali > 5 = 22, p_hat_Vegetali > 5 = 0.0909
H0: p_Vegetali < 5 = p_Vegetali > 5
HA: p_Vegetali < 5 != p_Vegetali > 5
z = 1.8693
p_value = 0.0616
Alla stessa conclusione si arriva tramite il test del Chi quadro. Essendo il p-value=0.1193 vale l'ipotesi nulla quindi non c'è associazione o dipendenza tra il mangiare almeno 5 porzioni di frutta e verdura e avere il cancro oppure no:
<syntaxhighlight lang="rsplus">
chisq.test(x=cancer$five_a_day, y = cancer$cancer)
</syntaxhighlight>
Pearson's Chi-squared test with Yates' continuity correction
data: cancer$five_a_day and cancer$cancer
X-squared = 2.4265, df = 1, p-value = 0.1193
|