Esempi di statistica descrittiva e inferenziale/Analisi del proprio genoma: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} ==Caricamento librerie== <syntaxhighlight lang="rsplus"> library(dplyr) library(ggplot2) library(stringr) </syntaxhighlight>...
(Nessuna differenza)

Versione delle 19:52, 27 mar 2021

Indice del libro

Caricamento librerie

 library(dplyr)
 library(ggplot2)
 library(stringr)
 install.packages("BiocManager")
 BiocManager::install("gwascat")
 library(gwascat)

Parte 1: Dati

La società californiana w:23andMe fornisce a pagamento in tutto il mondo un dataset contenente i dati relativi al proprio w:Genotipo, ottenuti analizzando un campione di saliva inviato dal cliente per posta. Questi dati possono essere utilizzati per scopi di ricerca, educativi ed informativi ma non per uso medico. Ciascuna riga del dataset corrisponde ad un singolo w:SNP contenente 4 colonne :

  • l'identificatore univoco rsid
  • il w:Cromosoma contenente l'SNP
  • la posizione numerica all'interno del DNA nel cromosoma
  • il genotipo formato da 2 lettere tra le seguenti: adenina (A), citosina (C), guanina (G), e timina (T).

Un signore ha reso pubblico il proprio dataset di SNP fornito da 23andME ed è possibile scaricarlo da qui :


Caricamento del dataset:

genome_zeeshan_usmani <- read.csv("genome_zeeshan_usmani.csv")

I primi 6 SNP contenuti nel dataset:

head(genome_zeeshan_usmani)
         rsid chromosome position genotype
1  rs12564807          1   734462       AA
2   rs3131972          1   752721       AG
3 rs148828841          1   760998       AC
4  rs12124819          1   776546       AA
5 rs115093905          1   787173       GG
6  rs11240777          1   798959       GG