Versione delle 02:35, 3 gen 2020 modifica G273Y (discussione \| contributi) 47 modifiche →‎Parte 1: Dati ← Differenza precedente		Versione delle 15:57, 3 gen 2020 modifica annulla G273Y (discussione \| contributi) 47 modifiche →‎Parte 1: Dati Differenza successiva →
Riga 53: Il file transazioni.csv occupa circa 21 GB di spazio e quindi per poterlo analizzare, bisogna ridurlo attraverso una funzione in Java, considerando solo gli elementi relativi a selezionati categorie, marchi, aziende questo riduce il file a 76.6MB. '''Caricamento dei dati:''' dfTrainHistory <- read.csv("trainHistory.csv") dfTestHistory <- read.csv("testHistory.csv") dfOffers <- read.csv("offers.csv") dfTransactions <-read.csv("transactions_1.csv") dfTestHistory <- merge(dfTransactions,dfTestHistory, by =c("id","chain")) dfTransactions <- merge(dfTransactions,dfTrainHistory, by =c("id","chain")) '''Panoramica dei dati:''' # 1. Rows and colums in transaction merged with history dim(dfTransactions) ## [1] 465146 16 # 2. Describe data, columns. Categorical , binary and numerical variables str(dfTransactions) # 3. Understand the relationship of columns and how they are effecting each other. Check correlation or Chi-Square. # 1. Correlation - shows relataion of Numerical columns # 2. Chi-Square - shows relation of Categorical columns corrplot(cor(dfTransactions[,c(3,4,5,6,10,11,12,13)]) , method = "number") [[File:Correlations.png\|centro\|Non ci sono variabili collineari essendo il coefficiente di correlazione tra le variabili numeriche sempre basso]] '''Pulizia dei dati:''' Si cercano eventuali dati mancanti identificati da NA, -1 oppure 999 : colSums(is.na(dfTransactions)) colSums(dfTransactions==-1) colSums(dfTransactions==-999) Non ci sono dati mancanti nelle variabili... ===Parte 2: Domanda di ricerca===

Utente:G273Y/Sandbox: differenze tra le versioni