Applicazioni pratiche di machine learning

Indice del libro

Il machine learning o apprendimento automatico è una branca dell'intelligenza artificiale, che costruisce un modello matematico a partire dai dati di un campione detto "training set", al fine di effettuare previsioni o prendere decisioni su ulteriori dati forniti. Il machine learning consente di apprendere e migliorare automaticamente nelle previsioni attraverso i dati che gli vengono proposti.

Questo libro contiene alcuni reports, dove si utilizzano algoritmi di machine learning nel linguaggio di programmazione R, utilizzando l'IDE RStudio, per fare previsioni esemplificative su argomenti di utilità generale.

Inoltre in alcune pagine del libro come Previsioni sugli incendi, Previsioni su scommesse sportive e Previsioni su azioni, criptovalute ecc. si sono creati modelli previsionali nel linguaggio di programmazione Python utilizzando le librerie Pandas per la gestione dei dataset e scikit-learn per la creazione dei modelli previsionali utilizzando algoritmi come RandomForest, Gradient Bosting ecc. e la libreria Prophet per le serie storiche. Come ambiente di sviluppo per Python si è utilizzato Jupyter.

Le principali librerie in R utilizzate nei reports del libro sono le seguenti:

  • base: contiene le funzioni di base di R: aritmetiche,input/output, programmazione di base ecc. Questa libreria viene caricata automaticamente all'avvio di R.
  • stats: contiene funzioni per calcoli statistici e generazione di numeri casuali. Anche questa libreria viene caricata automaticamente all'avvio di R .
  • dplyr: fornisce una grammatica flessibile per manipolare e interrogare i data frames e quindi i dataset. In sostanza è l'equivalente di SQL per realizzare delle query direttamente nei dataset.
  • ggplot2: da la possibilità di ottenere eleganti visualizzazioni dei dati, spesso ottenuti tramite dplyr, con grafici di qualunque tipo (istogrammi,boxplot, scatterplot, grafici a barre, serie storiche ecc.)
  • caret: contiene funzioni per creare modelli di machine learning relativi a problemi complessi di regressione o classificazione. Le principali funzioni sono train che crea proprio il modello, createDataPartition che suddivide i dati in un training ed in un testing set, confusionMatrix che crea la matrice di confusione e fornisce fondamentali informazioni nei problemi di classificazione quali Accuracy, Sensitivity, Specificity ecc.
  • h2o: l' H2OAutoML-class di questa libreria è in grado di trovare il migliore algoritmo di machine learning per minimizzare gli errori nei problemi di regressione e ottenere l'Accuracy,l'AUC ecc maggiori nei problemi di classificazione.

I principali algoritmi di machine learning utilizzati nei reports sono :

Altri Wikibooks modifica