Esempi di statistica descrittiva e inferenziale/Analisi del proprio genoma: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} ==Caricamento librerie== <syntaxhighlight lang="rsplus"> library(dplyr) library(ggplot2) library(stringr) </syntaxhighlight>... |
(Nessuna differenza)
|
Versione delle 19:52, 27 mar 2021
Caricamento librerie
library(dplyr)
library(ggplot2)
library(stringr)
install.packages("BiocManager")
BiocManager::install("gwascat")
library(gwascat)
Parte 1: Dati
La società californiana w:23andMe fornisce a pagamento in tutto il mondo un dataset contenente i dati relativi al proprio w:Genotipo, ottenuti analizzando un campione di saliva inviato dal cliente per posta. Questi dati possono essere utilizzati per scopi di ricerca, educativi ed informativi ma non per uso medico. Ciascuna riga del dataset corrisponde ad un singolo w:SNP contenente 4 colonne :
- l'identificatore univoco rsid
- il w:Cromosoma contenente l'SNP
- la posizione numerica all'interno del DNA nel cromosoma
- il genotipo formato da 2 lettere tra le seguenti: adenina (A), citosina (C), guanina (G), e timina (T).
Un signore ha reso pubblico il proprio dataset di SNP fornito da 23andME ed è possibile scaricarlo da qui :
Caricamento del dataset:
genome_zeeshan_usmani <- read.csv("genome_zeeshan_usmani.csv")
I primi 6 SNP contenuti nel dataset:
head(genome_zeeshan_usmani)
rsid chromosome position genotype 1 rs12564807 1 734462 AA 2 rs3131972 1 752721 AG 3 rs148828841 1 760998 AC 4 rs12124819 1 776546 AA 5 rs115093905 1 787173 GG 6 rs11240777 1 798959 GG