Il Supervised Learning è un tipo di apprendimento automatico in cui l’algoritmo è addestrato su un set di dati etichettati.
L’obiettivo è quello di generare un modello che possa fare previsioni accurate su dati non visti in precedenza (es. spam o no)
Nel Unsupervised Learning l’algoritmo è addestrato su un set di dati non etichettati. L’obiettivo è quello di scoprire relazioni o cluster nascosti all’interno dei dati (es. clienti simili per la tipologia di acquisti).
Nel Semi-Supervised Learning l’algoritmo è addestrato su un set di dati parzialmente etichettati.
L’obiettivo è quello di utilizzare i dati etichettati per generare un modello che possa fare previsioni accurate su dati non etichettati.
E’ il problema di raggruppare punti per loro similarità.
La similarità è definita da alcune funzioni / metriche di distanza sottostanti.
Attenzione però che il clustering è un problema intrinsecamente mal definito poichè dipende dal contesto e da chi guarda.
Quanti cluster vedi?
Le persone possono essere raggruppate in due gruppi, i lumpers e gli splitter, a seconda della loro inclinazione a fare sottili distinzioni o no.
I pattern su un dot plot 2d sono generalmente facili da vedere.
Spesso abbiamo a che fare con dati di dimensioni superiori che diventano difficili da rappresentare graficamente e da interpretare.
Gli algoritmi di Clustering ci aiutano nel trovare questi modelli per noi.
Il clustering è forse la prima costa da fare con qualsiasi nuovo set di dati.