Esempi di statistica descrittiva e inferenziale/La malattia mentale

Caricamento librerie

modifica
 library(ggplot2)
 library(dplyr)
 library(statsr)
 library(hashmap)

Parte 1 : Dati

modifica

Il dataset scaricabile da qui : https://osmihelp.org/research è ricavato da un sondaggio del 2014, che misura le attitudini verso la salute mentale e la frequenza di disturbi mentali in ambienti di lavoro tecnologici. E' costituito da 1259 records contenenti ognuna 27 risposte, confluite nelle seguenti 27 variabili:

  • Timestamp: Data della registrazione
  • Age: Età del rispondente
  • Gender: Sesso
  • Country: Paese del rispondente
  • state: Se vivi negli Stati Uniti, in quale stato o territorio risiedi?
  • self_employed: Sei un lavoratore autonomo ?
  • family_history: Hai una storia familiare di malattia mentale?
  • treatment: Hai cercato un trattamento farmacologico o psicoterapeutico per problemi di salute mentale?
  • work_interfere: Se hai un problema di salute mentale, questo interferisce con il tuo lavoro?
  • no_employees: Quanti impiegati ha la tua azienda o organizzazione?
  • remote_work: Lavori in remoto al di fuori dell'ufficio per almeno il 50% del tempo?
  • tech_company: Il tuo datore di lavoro è principalmente un'azienda oppure un' organizzazione tecnologica?
  • benefits: Il tuo datore di lavoro offre benefits per la salute mentale?
  • care_options: Conosci le possibilità di assistenza per la salute mentale offerte dal tuo datore di lavoro??
  • wellness_program: Il tuo datore di lavoro ha mai discusso di salute mentale nell'ambito di un programma di benessere per i dipendenti?
  • seek_help: il tuo datore di lavoro fornisce risorse per saperne di più sui problemi di salute mentale e su come chiedere aiuto?
  • anonymity: il tuo anonimato è protetto se scegli di utilizzare le risorse per la salute mentale o contro l'abuso di sostanze?
  • leave: quanto è facile per te prendere un congedo medico per un problema di salute mentale??
  • mentalhealthconsequence: Pensi che discutere di un problema di salute mentale con il tuo datore di lavoro avrebbe conseguenze negative?
  • physhealthconsequence: Pensi che discutere di un problema di salute fisica con il tuo datore di lavoro avrebbe conseguenze negative?
  • coworkers: Saresti disposto a discutere di un problema di salute mentale con i tuoi colleghi?
  • supervisor: Saresti disposto a discutere un problema di salute mentale con i tuoi diretti supervisori?
  • mentalhealthinterview: Faresti emergere un problema di salute mentale con un potenziale datore di lavoro in un'intervista?
  • physhealthinterview: faresti emergere un problema di salute fisica con un potenziale datore di lavoro in un'intervista?
  • mentalvsphysical: ritieni che il tuo datore di lavoro prenda in considerazione la salute mentale tanto seriamente quanto la salute fisica?
  • obs_consequence: hai sentito parlare o hai osservato conseguenze negative per i colleghi con problemi di salute mentale sul posto di lavoro?
  • comments: eventuali note o commenti aggiuntivi

Essendo l'analisi osservazionale e non sperimentale non è possibile stabilire relazioni di causalità tra le variabili


Parte 2 : Domanda di ricerca

modifica

Analizzando esclusivamente le variabili treatment, family_history, work_interfere e gender si vuole valutare :

  • se esiste una relazione di dipendenza tra l'avere una storia familiare di malattia mentale e avere un disturbo mentale sottoposto a trattamento farmacologico o psicoterapico
  • se esiste una relazione di dipendenza tra l'avere un disturbo mentale sottoposto a trattamento farmacologico o psicoterapico e avere difficoltà lavorative
  • se esiste una relazione di dipendenza tra l'avere un disturbo mentale sottoposto a trattamento farmacologico o psicoterapico e la propria sfera sessuale

Parte 3 : Esplorazione dei dati

modifica

Come si vede dal seguente grafico nel campione il numero di persone in trattamento farmacologico o psicoterapico che hanno una storia familiare di malattia mentale è maggiore di chi è sano mentalmente:

 survey %>%
  ggplot(aes(treatment, fill=family_history))+
  geom_bar()
 

Come si vede dal seguente grafico nel campione chi ha un problema di salute mentale ha maggiori problemi in ambito lavorativo:


 survey %>%
  filter(!is.na(work_interfere)) %>%
  ggplot(aes(treatment, fill=work_interfere))+
  geom_bar()
 

Si crea una nuova variabile sex, a partire dalla variabile gender, che può assumere soltanto 3 valori : Maschio, Femmina e Trans e si valuta se c'è una relazione di dipendenza fra questa variabile e treatment (trattamemento per la malattia mentale)

 male_str <- c("male", "m", "male-ish", "maile", "mal", "male (cis)", "make", "male ", "man","msle", "mail", "malr","cis man") 
 trans_str <- c("trans-female", "something kinda male?", "queer/she/they", "non-binary","nah", "all", "enby", "fluid", "genderqueer", "androgyne", "agender", "male leaning androgynous", "guy (-ish) ^_^", "trans woman", "neuter", "female (trans)", "queer", "ostensibly male, unsure what that really means" ) 
 female_str <- c("cis female", "f", "female", "woman", "femake", "female ","cis-female/femme", "female (cis)", "femail") 

 df <- data.frame(str=male_str,gender="Maschio")
 df <- rbind(df,data.frame(str=trans_str,gender="Trans"))
 df <- rbind(df,data.frame(str=female_str,gender="Femmina"))

 map <-hashmap(as.character(df$str),as.character(df$gender))

 n<-nrow(survey)
 v<- rep(NA,n)

 for (i in 1:n) {
  v[i]<-map[[tolower(survey[i,3])]]
 }

 survey <- cbind(survey,sex=v)

Parte 4 : Inferenza

modifica
 g<- survey %>%
  filter(!is.na(treatment),!is.na(family_history))

 inference(y = treatment, x = family_history, data = g, statistic = "proportion", type = "ht", alternative = "less", method = "theoretical" ,success = "Yes")
Response variable: categorical (2 levels, success: Yes)
Explanatory variable: categorical (2 levels) 
n_No = 767, p_hat_No = 0.3546
n_Yes = 492, p_hat_Yes = 0.7419
H0: p_No =  p_Yes
HA: p_No < p_Yes
z = -13.4094
p_value = < 0.0001

Essendo il p-value<0.0001 si rifiuta l'ipotesi nulla quindi c'è associazione o dipendenza tra l'avere una storia familiare di malattia mentale e avere una malattia mentale.

 g<- survey %>%
  filter(!is.na(treatment),!is.na(work_interfere))

 inference(y = treatment, x = work_interfere, data = g, statistic = "proportion", type = "ht", alternative = "greater", method = "theoretical" ,success = "Yes")
Response variable: categorical (2 levels) 
Explanatory variable: categorical (4 levels) 
Observed:
           y
x            No Yes
  Never     183  30
  Often      21 123
  Rarely     51 122
  Sometimes 107 358
Expected:
           y
x                  No       Yes
  Never      77.49347 135.50653
  Often      52.38995  91.61005
  Rarely     62.94070 110.05930
  Sometimes 169.17588 295.82412
H0: work_interfere and treatment are independent
HA: work_interfere and treatment are dependent
chi_sq = 294.8374, df = 3, p_value = 0

Come si vede dal test dei Chi quadro applicato alle variabili treatment e work_interfere, non vale l'ipotesi nulla essendo p_value=0<0.05 e quindi le 2 variabili sono associate o dipendenti. In pratica i disturbi mentali interferiscono con il lavoro

g<- survey %>%
  filter(!is.na(treatment),!is.na(sex))

inference(y = treatment, x = sex, data = g, statistic = "proportion", type = "ht", alternative = "greater", method = "theoretical" ,success = "Yes")


Response variable: categorical (2 levels) 
Explanatory variable: categorical (3 levels) 
Observed:
        y
x          No Yes
  Femmina  77 170
  Maschio 540 448
  Trans     4  15
Expected:
         y
x                 No        Yes
  Femmina 122.318182 124.681818
  Maschio 489.272727 498.727273
  Trans     9.409091   9.590909
H0: sex and treatment are independent
HA: sex and treatment are dependent
chi_sq = 49.8411, df = 2, p_value = 0

Come si vede dal test dei Chi quadro applicato alle variabili treatment e sex, non vale l'ipotesi nulla essendo p_value=0<0.05 e quindi le 2 variabili sono associate o dipendenti. In pratica i disturbi mentali interferiscono con la sfera sessuale