Il clustering è un approccio non supervisionato. Come se stessimo lavorando “ad occhio” si potrebbero avere vari criteri per effettuare il raggruppamento delle istanze, in mancanza di label. Il criterio di scelta è praticamente arbitrario e il termine “classificare” diventa più un “raggruppare”. Il sistema è quindi flessibile nel decidere i criteri sfruttando concetti come la distribuzione dei dati. I risultati potrebbero “sorprendere” in quanto potrebbero essere imprevedibli a priori.
Possiamo pensare di rappresentare nello spazio (con dimensione pari al numero di attributi delle istanze) le varie istanze per poi cercare di capire come etichettare le varie istanze la cui etichetta non è nota. Si procede quindi raggruppando per distanza, usando la distanza di Hamming o la distanza Euclidea.
La “decisione forte” è raggruppare e quindi scegliere in base alla distanza, definendo prima la distanza stessa, misurando poi il risultato secondo un certo criterio di misura (sempre basato sulla distanza).
Facendo un veloce recap, nella classificazione supervisionata abbiamo classi etichettate, e una struttura classificatoria conosciuta, mentre nella classificazione non supervisionata abbiamo un’estrazione automatica delle classi, e una scarsa conoscenza dei dati da analizzare.
I vantaggi della classificazione non supervisionata sono:
gli svantaggi invece sono:
Il clustering è un procedimento che si pone come obiettivo la suddivisione di un insieme di elementi in sottoinsiemi. Gli elementi di ogni sottoinsieme sono accomunati da caratteristiche simili.
E’ la forma più semplice di apprendimento non supervisionato, con applicazioni in moltissimi campi, come il data mining, pattern recognition, image analysis, bioinformatica, ricerche di mercato, pianificazione urbana, sismologia, astronomia, …
Ogni elemento da classificare viene specificato da un vettore caratteristico e si ha una misura di similarità tra elementi. Si hanno quindi due criteri da rispettare: