Esempi di statistica descrittiva e inferenziale/I tumori: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} ==Caricamento librerie== <syntaxhighlight lang="rsplus"> library(dplyr) library(ggplot2) library(statsr) </syntaxhighlight> =...
(Nessuna differenza)

Versione delle 17:39, 5 apr 2020

Indice del libro

Caricamento librerie

 library(dplyr)
 library(ggplot2)
 library(statsr)

Parte 1: Dati

Il dataset _cancer-data-for-MOOC-1-_1_.csv_ è formato da 66 osservazioni su pazienti e dalle seguenti 9 variabili:
*patient_id: Id del paziente
*age: età del paziente
*gender: sesso
*bmi: BMI indice di massa corporea
*smoking:indica se il paziente fuma, non fuma o non si sa
*fruit: porzioni di frutta giornaliere che il paziente mangia
*veg: porzioni di verdura giornaliere che il paziente mangia
*cancer: indica se ha paziente ha il cancro oppure no

Caricamento e visualizzazione sommaria di ciascuna variabile:

 cancer <- read.csv("cancer-data-for-MOOC-1-_1_.csv")

 cancer$cancer[cancer$cancer==0]<- "Cancro No"
 cancer$cancer[cancer$cancer==1]<- "Cancro Si"

 cancer$smoking [cancer$smoking==0]<- "No"
 cancer$smoking[cancer$smoking==1]<- "Si"
 cancer$smoking[cancer$smoking==2]<- "Non so"

 cancer$gender <- as.factor(cancer$gender)
 cancer$smoking <- as.factor(cancer$smoking)
 cancer$cancer <- as.factor(cancer$cancer)

 summary(cancer)
  patient_id         age        gender      bmi       
 Min.   : 1.00   Min.   :39.00   0:33   Min.   :10.81  
 1st Qu.:17.25   1st Qu.:54.00   1:33   1st Qu.:21.41  
 Median :33.50   Median :61.00          Median :24.78  
 Mean   :33.50   Mean   :61.02          Mean   :24.22  
 3rd Qu.:49.75   3rd Qu.:69.75          3rd Qu.:27.30  
 Max.   :66.00   Max.   :89.00          Max.   :40.62  
  smoking      exercise     fruit            veg       
 No    :26   Min.   :0   Min.   :0.000   Min.   :0.000  
 Non so:21   1st Qu.:0   1st Qu.:0.000   1st Qu.:2.000  
 Si    :18   Median :1   Median :1.000   Median :3.000  
 NA's  : 1   Mean   :1   Mean   :1.015   Mean   :2.985  
             3rd Qu.:2   3rd Qu.:2.000   3rd Qu.:4.000  
             Max.   :2   Max.   :4.000   Max.   :9.000  
      cancer  
Cancro No:51  
Cancro Si:15  
  

Nel dataset c'è solo un valore mancante nella variabile smoking:

colSums(is.na(cancer))
           

Parte 2: Domanda di ricerca

Si vuole valutare se c'è un'associazione tra il consumo di almeno 5 porzioni di frutta e verdura e il fatto di avere il cancro o no. Inoltre si vuole sapere se l'indice di massa corporea varia in media tra chi ha il cancro e chi no.

Parte 3: Esplorazione dei dati

Parte 4: Statistica inferenziale