Esempi di statistica descrittiva e inferenziale/Ricerca di esopianeti: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nuova pagina: {{Esempi di statistica descrittiva e inferenziale}} == Caricamento librerie == <syntaxhighlight lang="rsplus"> library(dplyr) library(ggplot2) library(scales) </syntaxhighlight>...
(Nessuna differenza)

Versione delle 16:00, 6 apr 2021

Indice del libro

Caricamento librerie

 library(dplyr)
 library(ggplot2)
 library(scales)

Parte 1: Dati

Il Kepler Space Observatory è un satellite costruito dalla NASA lanciato nel 2009. Il telescopio è dedicato alla ricerca di esopianeti con sistemi stellari simili al nostro, in modo da trovare possibilmente altri pianeti abitabili come il nostro. La missione originale si è conclusa nel 2013 a causa di guasti meccanici, ma il telescopio è comunque funzionante dal 2014 su una missione estesa "K2".

Il dataset scaricabile da qui : contiene variabili relative a 9564 "oggetti di interesse" osservati da Kepler che potrebbero essere esopianeti candidati .

Le variabili prese in considerazione sono:

  • kepoi_name: Nome di un oggetto astrofisico identificato da Kepler che sembra coerente con un'ipotesi di transito planetario
  • kepler_name: Nomi di oggetti astrofisici che si considerano confermati o convalidati come pianeti, un passo avanti rispetto alla designazione di pianeta candidato .
  • koi_disposition: la valutazione in letteratura verso questo esopianeta candidato che può assumere i valori CANDIDATO, FALSO POSITIVO o CONFERMATO.
  • koi_pdisposition: la valutazione che Kepler da nei confronti di questo esopianeta candidato che può assumere i valori FALSO POSITIVO o CANDIDATO.
  • koi_score: un valore compreso tra 0 e 1 che indica il livello di fiducia nella valutazione data da Kepler. Per i CANDIDATI, un valore più alto indica più fiducia nella sua valutazione, mentre per i FALSI POSITIVI, un valore più alto indica meno fiducia in quella valutazione.

Caricamento dati:

cumulative <- read.csv("cumulative.csv" , stringsAsFactors = TRUE)

Traduzione in italiano delle variabili di interesse:

df <-cumulative[,c(4,5,6,7)]
dimnames(df)[2] <- list(c("nome_esopianeta","valutazione_letteratura","valutazione_Kepler","punteggio"))

Parte 2 : Esplorazione dati

Come si vede dalla funzione dim gli oggetti astrofisici contenuti nel dataset sono 9564

dim(df)
[1] 9564    4

Come si vede dalla funzione Summary dei 9564 oggetti soltanto 2289 hanno un nome che inizia con Kepler, poi si vedono i totali considerati Candidate, Confirmed o False Positive in letteratura e i totali di candidate e false positive considerati da Kepler e il punteggio che assume valori tra 0 e 1 con una mediana di 0,33 e una media di 0,48.

summary(df)
  nome_esopianeta   valutazione_letteratura
            :7270   CANDIDATE     :2248      
Kepler-1 b  :   1   CONFIRMED     :2293      
Kepler-10 b :   1   FALSE POSITIVE:5023      
Kepler-10 c :   1                            
Kepler-100 b:   1                            
Kepler-100 c:   1                            
(Other)     :2289                            

    valutazione_Kepler   punteggio     
CANDIDATE     :4496     Min.   :0.0000  
FALSE POSITIVE:5068     1st Qu.:0.0000  
                        Median :0.3340  
                        Mean   :0.4808  
                        3rd Qu.:0.9980  
                        Max.   :1.0000  
                        NA's   :1510