Esempi di statistica descrittiva e inferenziale/Ricerca di esopianeti: differenze tra le versioni
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} == Caricamento librerie == <syntaxhighlight lang="rsplus"> library(dplyr) library(ggplot2) library(scales) </syntaxhighlight>... |
(Nessuna differenza)
|
Versione delle 16:00, 6 apr 2021
Caricamento librerie
library(dplyr)
library(ggplot2)
library(scales)
Parte 1: Dati
Il Kepler Space Observatory è un satellite costruito dalla NASA lanciato nel 2009. Il telescopio è dedicato alla ricerca di esopianeti con sistemi stellari simili al nostro, in modo da trovare possibilmente altri pianeti abitabili come il nostro. La missione originale si è conclusa nel 2013 a causa di guasti meccanici, ma il telescopio è comunque funzionante dal 2014 su una missione estesa "K2".
Il dataset scaricabile da qui : contiene variabili relative a 9564 "oggetti di interesse" osservati da Kepler che potrebbero essere esopianeti candidati .
Le variabili prese in considerazione sono:
- kepoi_name: Nome di un oggetto astrofisico identificato da Kepler che sembra coerente con un'ipotesi di transito planetario
- kepler_name: Nomi di oggetti astrofisici che si considerano confermati o convalidati come pianeti, un passo avanti rispetto alla designazione di pianeta candidato .
- koi_disposition: la valutazione in letteratura verso questo esopianeta candidato che può assumere i valori CANDIDATO, FALSO POSITIVO o CONFERMATO.
- koi_pdisposition: la valutazione che Kepler da nei confronti di questo esopianeta candidato che può assumere i valori FALSO POSITIVO o CANDIDATO.
- koi_score: un valore compreso tra 0 e 1 che indica il livello di fiducia nella valutazione data da Kepler. Per i CANDIDATI, un valore più alto indica più fiducia nella sua valutazione, mentre per i FALSI POSITIVI, un valore più alto indica meno fiducia in quella valutazione.
Caricamento dati:
cumulative <- read.csv("cumulative.csv" , stringsAsFactors = TRUE)
Traduzione in italiano delle variabili di interesse:
df <-cumulative[,c(4,5,6,7)]
dimnames(df)[2] <- list(c("nome_esopianeta","valutazione_letteratura","valutazione_Kepler","punteggio"))
Parte 2 : Esplorazione dati
Come si vede dalla funzione dim gli oggetti astrofisici contenuti nel dataset sono 9564
dim(df)
[1] 9564 4
Come si vede dalla funzione Summary dei 9564 oggetti soltanto 2289 hanno un nome che inizia con Kepler, poi si vedono i totali considerati Candidate, Confirmed o False Positive in letteratura e i totali di candidate e false positive considerati da Kepler e il punteggio che assume valori tra 0 e 1 con una mediana di 0,33 e una media di 0,48.
summary(df)
nome_esopianeta valutazione_letteratura :7270 CANDIDATE :2248 Kepler-1 b : 1 CONFIRMED :2293 Kepler-10 b : 1 FALSE POSITIVE:5023 Kepler-10 c : 1 Kepler-100 b: 1 Kepler-100 c: 1 (Other) :2289 valutazione_Kepler punteggio CANDIDATE :4496 Min. :0.0000 FALSE POSITIVE:5068 1st Qu.:0.0000 Median :0.3340 Mean :0.4808 3rd Qu.:0.9980 Max. :1.0000 NA's :1510