Utente:G273Y/Sandbox: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
G273Y (discussione | contributi)
G273Y (discussione | contributi)
Riga 53:
Il file transazioni.csv occupa circa 21 GB di spazio e quindi per poterlo analizzare, bisogna ridurlo attraverso una funzione in Java, considerando solo gli elementi relativi a selezionati
categorie, marchi, aziende questo riduce il file a 76.6MB.
 
'''Caricamento dei dati:'''
dfTrainHistory <- read.csv("trainHistory.csv")
dfTestHistory <- read.csv("testHistory.csv")
dfOffers <- read.csv("offers.csv")
dfTransactions <-read.csv("transactions_1.csv")
dfTestHistory <- merge(dfTransactions,dfTestHistory, by =c("id","chain"))
dfTransactions <- merge(dfTransactions,dfTrainHistory, by =c("id","chain"))
 
'''Panoramica dei dati:'''
# 1. Rows and colums in transaction merged with history
dim(dfTransactions)
## [1] 465146 16
 
# 2. Describe data, columns. Categorical , binary and numerical variables
str(dfTransactions)
 
# 3. Understand the relationship of columns and how they are effecting each other. Check correlation or Chi-Square.
# 1. Correlation - shows relataion of Numerical columns
# 2. Chi-Square - shows relation of Categorical columns
corrplot(cor(dfTransactions[,c(3,4,5,6,10,11,12,13)]) , method = "number")
 
[[File:Correlations.png|centro|Non ci sono variabili collineari essendo il coefficiente di correlazione tra le variabili numeriche sempre basso]]
 
'''Pulizia dei dati:'''
Si cercano eventuali dati mancanti identificati da NA, -1 oppure 999 :
colSums(is.na(dfTransactions))
colSums(dfTransactions==-1)
colSums(dfTransactions==-999)
Non ci sono dati mancanti nelle variabili...
 
===Parte 2: Domanda di ricerca===