Clustering

Supervised / Unsupervised Learning

Il Supervised Learning è un tipo di apprendimento automatico in cui l’algoritmo è addestrato su un set di dati etichettati.

L’obiettivo è quello di generare un modello che possa fare previsioni accurate su dati non visti in precedenza (es. spam o no)

Nel Unsupervised Learning l’algoritmo è addestrato su un set di dati non etichettati. L’obiettivo è quello di scoprire relazioni o cluster nascosti all’interno dei dati (es. clienti simili per la tipologia di acquisti).

Nel Semi-Supervised Learning l’algoritmo è addestrato su un set di dati parzialmente etichettati.

L’obiettivo è quello di utilizzare i dati etichettati per generare un modello che possa fare previsioni accurate su dati non etichettati.

E’ il problema di raggruppare punti per loro similarità.

La similarità è definita da alcune funzioni / metriche di distanza sottostanti.

Attenzione però che il clustering è un problema intrinsecamente mal definito poichè dipende dal contesto e da chi guarda.

Quanti cluster vedi?

Untitled

Le persone possono essere raggruppate in due gruppi, i lumpers e gli splitter, a seconda della loro inclinazione a fare sottili distinzioni o no.

Untitled

I pattern su un dot plot 2d sono generalmente facili da vedere.

Spesso abbiamo a che fare con dati di dimensioni superiori che diventano difficili da rappresentare graficamente e da interpretare.

Gli algoritmi di Clustering ci aiutano nel trovare questi modelli per noi.

Il clustering è forse la prima costa da fare con qualsiasi nuovo set di dati.

Untitled

Supervised / Unsupervised Learning

Clustering

Clustering utile per