Esempi di statistica descrittiva e inferenziale/I tumori: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} ==Caricamento librerie== <syntaxhighlight lang="rsplus"> library(dplyr) library(ggplot2) library(statsr) </syntaxhighlight> =...
 
Nessun oggetto della modifica
Riga 8:
 
== Parte 1: Dati ==
Il dataset _cancer-data-for-MOOC-1-_1_.csv_ è formato da 66 osservazioni su pazienti e dalle seguenti 9 variabili:
*'''patient_id''': Id del paziente
*'''age''': età del paziente
*'''gender''': sesso
*'''bmi''': BMI indice di massa corporea
*'''smoking''':indica se il paziente fuma, non fuma o non si sa
*'''fruit''': porzioni di frutta giornaliere che il paziente mangia
*'''veg''': porzioni di verdura giornaliere che il paziente mangia
*'''cancer''': indica se ha paziente ha il cancro oppure no
 
'''Caricamento e visualizzazione sommaria di ciascuna variabile:'''
Riga 67:
 
==Parte 3: Esplorazione dei dati==
<syntaxhighlight lang="rsplus">
cancer %>%
ggplot(aes(bmi)) +
geom_histogram(bins = 10, fill="darkgreen", col="black")
 
cancer %>%
filter(!is.na(smoking))%>%
ggplot(aes(cancer, fill=smoking)) +
geom_bar()
 
cancer %>%
ggplot(aes(y=bmi, fill=gender)) +
geom_boxplot()
 
</syntaxhighlight>
 
[[File:Bmi istogramma.png|frame|centro]]
 
[[File:Cancro smoking.png|frame|centro]]
 
[[File:Bmi gender.png|frame|centro]]
 
==Parte 4: Statistica inferenziale ==
 
Creo una variabile fruitveg che somma le porzioni di frutta e verdura e un'altra variabile che assume i 2 valori "Vegetali > 5" e "Vegetali < 5"
 
<syntaxhighlight lang="rsplus">
cancer <-cbind(cancer, fruitveg=cancer$fruit+cancer$veg)
cancer <-cbind(cancer, five_a_day=ifelse(cancer$fruitveg>=5,"Vegetali > 5","Vegetali < 5"))
 
cancer$fruitveg <- as.factor(cancer$fruitveg)
cancer$five_a_day <- as.factor(cancer$five_a_day)
 
table(cancer$five_a_day)
</syntaxhighlight>
 
'''tramite la funzione inference si nota che non c'è associazione o dipendenza tra il consumo di almeno 5 porzioni di frutta e verdura oppure no e il fatto di avere il cancro, infatti vale l'ipotesi nulla essendo il p-value=0.0616 > 0.05: '''
 
<syntaxhighlight lang="rsplus">
inference(x=five_a_day, y = cancer, data = cancer, statistic = "proportion", type = "ht", alternative = "twosided", method = "theoretical",success = "Cancro Si")
</syntaxhighlight>
 
Response variable: categorical (2 levels, success: Cancro Si)
Explanatory variable: categorical (2 levels)
n_Vegetali < 5 = 44, p_hat_Vegetali < 5 = 0.2955
n_Vegetali > 5 = 22, p_hat_Vegetali > 5 = 0.0909
H0: p_Vegetali < 5 = p_Vegetali > 5
HA: p_Vegetali < 5 != p_Vegetali > 5
z = 1.8693
p_value = 0.0616
 
 
Alla stessa conclusione si arriva tramite il test del Chi quadro. Essendo il p-value=0.1193 vale l'ipotesi nulla quindi non c'è associazione o dipendenza tra il mangiare almeno 5 porzioni di frutta e verdura e avere il cancro oppure no:
 
<syntaxhighlight lang="rsplus">
chisq.test(x=cancer$five_a_day, y = cancer$cancer)
</syntaxhighlight>
 
 
Pearson's Chi-squared test with Yates' continuity correction
 
data: cancer$five_a_day and cancer$cancer
X-squared = 2.4265, df = 1, p-value = 0.1193