Esempi di statistica descrittiva e inferenziale/La malattia mentale
Caricamento librerie
modifica library(ggplot2)
library(dplyr)
library(statsr)
library(hashmap)
Parte 1 : Dati
modificaIl dataset scaricabile da qui : https://osmihelp.org/research è ricavato da un sondaggio del 2014, che misura le attitudini verso la salute mentale e la frequenza di disturbi mentali in ambienti di lavoro tecnologici. E' costituito da 1259 records contenenti ognuna 27 risposte, confluite nelle seguenti 27 variabili:
- Timestamp: Data della registrazione
- Age: Età del rispondente
- Gender: Sesso
- Country: Paese del rispondente
- state: Se vivi negli Stati Uniti, in quale stato o territorio risiedi?
- self_employed: Sei un lavoratore autonomo ?
- family_history: Hai una storia familiare di malattia mentale?
- treatment: Hai cercato un trattamento farmacologico o psicoterapeutico per problemi di salute mentale?
- work_interfere: Se hai un problema di salute mentale, questo interferisce con il tuo lavoro?
- no_employees: Quanti impiegati ha la tua azienda o organizzazione?
- remote_work: Lavori in remoto al di fuori dell'ufficio per almeno il 50% del tempo?
- tech_company: Il tuo datore di lavoro è principalmente un'azienda oppure un' organizzazione tecnologica?
- benefits: Il tuo datore di lavoro offre benefits per la salute mentale?
- care_options: Conosci le possibilità di assistenza per la salute mentale offerte dal tuo datore di lavoro??
- wellness_program: Il tuo datore di lavoro ha mai discusso di salute mentale nell'ambito di un programma di benessere per i dipendenti?
- seek_help: il tuo datore di lavoro fornisce risorse per saperne di più sui problemi di salute mentale e su come chiedere aiuto?
- anonymity: il tuo anonimato è protetto se scegli di utilizzare le risorse per la salute mentale o contro l'abuso di sostanze?
- leave: quanto è facile per te prendere un congedo medico per un problema di salute mentale??
- mentalhealthconsequence: Pensi che discutere di un problema di salute mentale con il tuo datore di lavoro avrebbe conseguenze negative?
- physhealthconsequence: Pensi che discutere di un problema di salute fisica con il tuo datore di lavoro avrebbe conseguenze negative?
- coworkers: Saresti disposto a discutere di un problema di salute mentale con i tuoi colleghi?
- supervisor: Saresti disposto a discutere un problema di salute mentale con i tuoi diretti supervisori?
- mentalhealthinterview: Faresti emergere un problema di salute mentale con un potenziale datore di lavoro in un'intervista?
- physhealthinterview: faresti emergere un problema di salute fisica con un potenziale datore di lavoro in un'intervista?
- mentalvsphysical: ritieni che il tuo datore di lavoro prenda in considerazione la salute mentale tanto seriamente quanto la salute fisica?
- obs_consequence: hai sentito parlare o hai osservato conseguenze negative per i colleghi con problemi di salute mentale sul posto di lavoro?
- comments: eventuali note o commenti aggiuntivi
Essendo l'analisi osservazionale e non sperimentale non è possibile stabilire relazioni di causalità tra le variabili
Parte 2 : Domanda di ricerca
modificaAnalizzando esclusivamente le variabili treatment, family_history, work_interfere e gender si vuole valutare :
- se esiste una relazione di dipendenza tra l'avere una storia familiare di malattia mentale e avere un disturbo mentale sottoposto a trattamento farmacologico o psicoterapico
- se esiste una relazione di dipendenza tra l'avere un disturbo mentale sottoposto a trattamento farmacologico o psicoterapico e avere difficoltà lavorative
- se esiste una relazione di dipendenza tra l'avere un disturbo mentale sottoposto a trattamento farmacologico o psicoterapico e la propria sfera sessuale
Parte 3 : Esplorazione dei dati
modificaCome si vede dal seguente grafico nel campione il numero di persone in trattamento farmacologico o psicoterapico che hanno una storia familiare di malattia mentale è maggiore di chi è sano mentalmente:
survey %>%
ggplot(aes(treatment, fill=family_history))+
geom_bar()
Come si vede dal seguente grafico nel campione chi ha un problema di salute mentale ha maggiori problemi in ambito lavorativo:
survey %>%
filter(!is.na(work_interfere)) %>%
ggplot(aes(treatment, fill=work_interfere))+
geom_bar()
Si crea una nuova variabile sex, a partire dalla variabile gender, che può assumere soltanto 3 valori : Maschio, Femmina e Trans e si valuta se c'è una relazione di dipendenza fra questa variabile e treatment (trattamemento per la malattia mentale)
male_str <- c("male", "m", "male-ish", "maile", "mal", "male (cis)", "make", "male ", "man","msle", "mail", "malr","cis man")
trans_str <- c("trans-female", "something kinda male?", "queer/she/they", "non-binary","nah", "all", "enby", "fluid", "genderqueer", "androgyne", "agender", "male leaning androgynous", "guy (-ish) ^_^", "trans woman", "neuter", "female (trans)", "queer", "ostensibly male, unsure what that really means" )
female_str <- c("cis female", "f", "female", "woman", "femake", "female ","cis-female/femme", "female (cis)", "femail")
df <- data.frame(str=male_str,gender="Maschio")
df <- rbind(df,data.frame(str=trans_str,gender="Trans"))
df <- rbind(df,data.frame(str=female_str,gender="Femmina"))
map <-hashmap(as.character(df$str),as.character(df$gender))
n<-nrow(survey)
v<- rep(NA,n)
for (i in 1:n) {
v[i]<-map[[tolower(survey[i,3])]]
}
survey <- cbind(survey,sex=v)
Parte 4 : Inferenza
modifica g<- survey %>%
filter(!is.na(treatment),!is.na(family_history))
inference(y = treatment, x = family_history, data = g, statistic = "proportion", type = "ht", alternative = "less", method = "theoretical" ,success = "Yes")
Response variable: categorical (2 levels, success: Yes) Explanatory variable: categorical (2 levels) n_No = 767, p_hat_No = 0.3546 n_Yes = 492, p_hat_Yes = 0.7419 H0: p_No = p_Yes HA: p_No < p_Yes z = -13.4094 p_value = < 0.0001
Essendo il p-value<0.0001 si rifiuta l'ipotesi nulla quindi c'è associazione o dipendenza tra l'avere una storia familiare di malattia mentale e avere una malattia mentale.
g<- survey %>%
filter(!is.na(treatment),!is.na(work_interfere))
inference(y = treatment, x = work_interfere, data = g, statistic = "proportion", type = "ht", alternative = "greater", method = "theoretical" ,success = "Yes")
Response variable: categorical (2 levels) Explanatory variable: categorical (4 levels) Observed: y x No Yes Never 183 30 Often 21 123 Rarely 51 122 Sometimes 107 358
Expected: y x No Yes Never 77.49347 135.50653 Often 52.38995 91.61005 Rarely 62.94070 110.05930 Sometimes 169.17588 295.82412
H0: work_interfere and treatment are independent HA: work_interfere and treatment are dependent chi_sq = 294.8374, df = 3, p_value = 0
Come si vede dal test dei Chi quadro applicato alle variabili treatment e work_interfere, non vale l'ipotesi nulla essendo p_value=0<0.05 e quindi le 2 variabili sono associate o dipendenti. In pratica i disturbi mentali interferiscono con il lavoro
g<- survey %>%
filter(!is.na(treatment),!is.na(sex))
inference(y = treatment, x = sex, data = g, statistic = "proportion", type = "ht", alternative = "greater", method = "theoretical" ,success = "Yes")
Response variable: categorical (2 levels) Explanatory variable: categorical (3 levels) Observed: y x No Yes Femmina 77 170 Maschio 540 448 Trans 4 15
Expected: y x No Yes Femmina 122.318182 124.681818 Maschio 489.272727 498.727273 Trans 9.409091 9.590909
H0: sex and treatment are independent HA: sex and treatment are dependent chi_sq = 49.8411, df = 2, p_value = 0
Come si vede dal test dei Chi quadro applicato alle variabili treatment e sex, non vale l'ipotesi nulla essendo p_value=0<0.05 e quindi le 2 variabili sono associate o dipendenti. In pratica i disturbi mentali interferiscono con la sfera sessuale