Utente:G273Y/Sandbox: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
G273Y (discussione | contributi)
G273Y (discussione | contributi)
Riga 12:
I seguenti datasets contengono informazioni relativi ai coupons offerti a un gran numero di clienti e consentono di prevedere quali di essi diventeranno fedeli al prodotto in offerta. Supponiamo che venga dato a 100 clienti uno sconto per l'acquisto di due bottiglie d'acqua. Dei 100 clienti, 60 sceglieranno di di utilizzare il coupon. Si vuole prevedere quale dei 60 clienti tornerà (durante o dopo il periodo promozionale) per acquistare lo stesso oggetto di nuovo. Per fare questa previsione, abbiamo lo storico di un anno di acquisti prima dell'incentivo dato al cliente ed inoltre abbiamo anche lo storico degli acquisti di molti altri clienti (alcuni dei quali hanno ricevuto la stessa offerta). La cronologia delle transazioni contiene tutti gli articoli acquistati e non solo quelli correlati all'offerta. Nel dataset ad ogni cliente viene data una sola offerta.
 
'''Files:'''<br>
Ci vengono forniti 3 file relazionali:
*'''operations.csv''': contiene la cronologia delle transazioni per tutti i clienti per un periodo di almeno 1 anno prima di aver dato loro il coupon
Riga 19:
*'''offers.csv''': contiene informazioni sulle offerte (coupons)
 
'''Campi:'''<br>
Tutti i campi sono resi anonimi per proteggere la privacy del cliente e le informazioni sulle vendite.
 
'''Trainhistory.csv'''
*''id'': un ID univoco che rappresenta un cliente
*''chain'' - Un numero intero che rappresenta un'offerta della catena di negozi - Un ID che rappresenta una determinata offerta
*''market'': un ID che rappresenta una determinataregione offertageografica
*''repeattrips'': il numero di volte in cui il cliente ha ripetuto l'acquisto
''market'': un ID che rappresenta una regione geografica
*''repeater'' - Un valore booleano, uguale a repeattrips> 0
''repeattrips'': il numero di volte in cui il cliente ha ripetuto l'acquisto
*''offerdate'' - La data in cui un cliente ha ricevuto l'offerta
''repeater'' - Un valore booleano, uguale a repeattrips> 0
''offerdate'' - La data in cui un cliente ha ricevuto l'offerta
 
'''transactions.csv'''
*''id'' - vedi sopra
*''chain'' - vedi sopra
*''dept'' - Un raggruppamento aggregato della categoria (ad es. Acqua)
*''category'' - La categoria del prodotto (ad es. Acqua gassata)
*''company'': un ID dell'azienda che vende l'articolo
*''brand'': un ID del marchio a cui appartiene l'articolo
*''date'' - La data di acquisto
*''productsize'' - La quantità di prodotto acquistata (ad es. 16 once di acqua)
*''productmeasure'' - L' unità di misura del prodotto (ad esempio once)
*''purchasequantity'': il numero di unità acquistate
*''purchaseamount'' - L'importo in dollari acquistato
 
'''offers.csv'''
*''offer'' - vedi sopra
*''category'' - vedi sopra
*''quantity'' - Il numero di unità che è necessario acquistare per ottenere lo sconto
*''company'' - vedi sopra
*''offervalue'': il valore in dollari dell'offerta
*''brand'': vedi sopra
 
Il file transazioni.csv occupa circa 21 GB di spazio e quindi per poterlo analizzare, bisogna ridurlo attraverso una funzione in Java, considerando solo gli elementi relativi a selezionati