Utente:G273Y/Sandbox: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
G273Y (discussione | contributi)
G273Y (discussione | contributi)
Riga 52:
sales_train <- merge(sales_train,items, by =c("item_id"), all.x = TRUE)
sales_train <- merge(sales_train,shops, by =c("shop_id"), all.x = TRUE)
 
'''Creazione di nuove variabili nel dataset :'''
 
'''#Creazione delle variabili: week_day, month , week_year'''
sales_train$date <- as.Date(sales_train$date,tryFormats=c("%d.%m.%Y"))
p <- as.POSIXlt(sales_train$date)
sales_train <- cbind(sales_train,week_day=p$wday +1)
sales_train <- cbind(sales_train,month=p$mon +1)
week_year<-as.numeric(strftime(p, format = "%V"))
sales_train <- cbind(sales_train,week_year)
 
'''#Creazione della variabile: Media delle vendite di ogni articolo per ogni mese
df1<-sales_train %>%'''
group_by(date_block_num,item_id) %>%
summarise(date_item_avg=mean(item_cnt_day))
sales_train <- merge(sales_train, as.data.frame(df1),
by=c("date_block_num","item_id"), all.x = TRUE)
 
'''#Creazione della variabile: Media delle vendite per categoria per ogni mese'''
df1<-sales_train %>%
group_by(date_block_num,shop_id, item_category_id) %>%
summarise(date_shop_cat_avg=mean(item_cnt_day))
sales_train <- merge(sales_train, as.data.frame(df1),
by=c("date_block_num","shop_id","item_category_id"), all.x =TRUE)
 
'''#Creazione variabile da predire item_cnt_month (vendite totali mensili)'''
df1<-sales_train %>%
group_by(date_block_num,week_year,week_day,shop_id,item_category_
id,item_id,item_price, date_item_avg, date_shop_cat_avg) %>%
summarise(item_cnt_month=sum(item_cnt_day))
sales_train <- merge(sales_train, as.data.frame(df1),
by=c("date_block_num","week_year","week_day","shop_id","item_category_id","item_id","item_price", "date_item_avg","date_shop_cat_avg"), all.x = TRUE)
 
E' possibile migliorare il modello aggiungendo nuove variabili e/o modificando il tuning degli iperparametri (DA FARE)