Esempi di statistica descrittiva e inferenziale/I tumori: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} ==Caricamento librerie== <syntaxhighlight lang="rsplus"> library(dplyr) library(ggplot2) library(statsr) </syntaxhighlight> =... |
(Nessuna differenza)
|
Versione delle 17:39, 5 apr 2020
Caricamento librerie
library(dplyr)
library(ggplot2)
library(statsr)
Parte 1: Dati
Il dataset _cancer-data-for-MOOC-1-_1_.csv_ è formato da 66 osservazioni su pazienti e dalle seguenti 9 variabili: *patient_id: Id del paziente *age: età del paziente *gender: sesso *bmi: BMI indice di massa corporea *smoking:indica se il paziente fuma, non fuma o non si sa *fruit: porzioni di frutta giornaliere che il paziente mangia *veg: porzioni di verdura giornaliere che il paziente mangia *cancer: indica se ha paziente ha il cancro oppure no
Caricamento e visualizzazione sommaria di ciascuna variabile:
cancer <- read.csv("cancer-data-for-MOOC-1-_1_.csv")
cancer$cancer[cancer$cancer==0]<- "Cancro No"
cancer$cancer[cancer$cancer==1]<- "Cancro Si"
cancer$smoking [cancer$smoking==0]<- "No"
cancer$smoking[cancer$smoking==1]<- "Si"
cancer$smoking[cancer$smoking==2]<- "Non so"
cancer$gender <- as.factor(cancer$gender)
cancer$smoking <- as.factor(cancer$smoking)
cancer$cancer <- as.factor(cancer$cancer)
summary(cancer)
patient_id age gender bmi Min. : 1.00 Min. :39.00 0:33 Min. :10.81 1st Qu.:17.25 1st Qu.:54.00 1:33 1st Qu.:21.41 Median :33.50 Median :61.00 Median :24.78 Mean :33.50 Mean :61.02 Mean :24.22 3rd Qu.:49.75 3rd Qu.:69.75 3rd Qu.:27.30 Max. :66.00 Max. :89.00 Max. :40.62 smoking exercise fruit veg No :26 Min. :0 Min. :0.000 Min. :0.000 Non so:21 1st Qu.:0 1st Qu.:0.000 1st Qu.:2.000 Si :18 Median :1 Median :1.000 Median :3.000 NA's : 1 Mean :1 Mean :1.015 Mean :2.985 3rd Qu.:2 3rd Qu.:2.000 3rd Qu.:4.000 Max. :2 Max. :4.000 Max. :9.000 cancer Cancro No:51 Cancro Si:15
Nel dataset c'è solo un valore mancante nella variabile smoking:
colSums(is.na(cancer))
Parte 2: Domanda di ricerca
Si vuole valutare se c'è un'associazione tra il consumo di almeno 5 porzioni di frutta e verdura e il fatto di avere il cancro o no. Inoltre si vuole sapere se l'indice di massa corporea varia in media tra chi ha il cancro e chi no.