Clustering | Notion

Il clustering è un approccio non supervisionato. Come se stessimo lavorando “ad occhio” si potrebbero avere vari criteri per effettuare il raggruppamento delle istanze, in mancanza di label. Il criterio di scelta è praticamente arbitrario e il termine “classificare” diventa più un “raggruppare”. Il sistema è quindi flessibile nel decidere i criteri sfruttando concetti come la distribuzione dei dati. I risultati potrebbero “sorprendere” in quanto potrebbero essere imprevedibli a priori.

Possiamo pensare di rappresentare nello spazio (con dimensione pari al numero di attributi delle istanze) le varie istanze per poi cercare di capire come etichettare le varie istanze la cui etichetta non è nota. Si procede quindi raggruppando per distanza, usando la distanza di Hamming o la distanza Euclidea.

La “decisione forte” è raggruppare e quindi scegliere in base alla distanza, definendo prima la distanza stessa, misurando poi il risultato secondo un certo criterio di misura (sempre basato sulla distanza).

Facendo un veloce recap, nella classificazione supervisionata abbiamo classi etichettate, e una struttura classificatoria conosciuta, mentre nella classificazione non supervisionata abbiamo un’estrazione automatica delle classi, e una scarsa conoscenza dei dati da analizzare.

I vantaggi della classificazione non supervisionata sono:

non è richiesta alcuna conoscenza a priori
errore umano ridotto
tutte le classi che hanno caratteristiche uniche vengono identificate
efficaci con elementi di tipo numerico o di ordinamento intrinseco

gli svantaggi invece sono:

le classi ottenute non presentano necessariamente un significato
l’utente ha un controllo limitato sulla procedura e sui risultati
meno efficaci con elementi ordinati in modo arbitrario o poco netto

Cosa si intende per clustering

Il clustering è un procedimento che si pone come obiettivo la suddivisione di un insieme di elementi in sottoinsiemi. Gli elementi di ogni sottoinsieme sono accomunati da caratteristiche simili.

Untitled

E’ la forma più semplice di apprendimento non supervisionato, con applicazioni in moltissimi campi, come il data mining, pattern recognition, image analysis, bioinformatica, ricerche di mercato, pianificazione urbana, sismologia, astronomia, …

Ogni elemento da classificare viene specificato da un vettore caratteristico e si ha una misura di similarità tra elementi. Si hanno quindi due criteri da rispettare:

omogeneità quando elementi dello stesso cluster hanno alto livello di similarità, quindi dentro il cluster