Gegevensclusters
- Clusters zijn verzamelingen van vergelijkbare gegevens
- Clustering is een vorm van leren zonder toezicht
- De correlatiecoëfficiënt beschrijft de sterkte van een relatie.
Clusters
Clusters zijn verzamelingen van gegevens op basis van gelijkenis.
Gegevenspunten die samen in een grafiek zijn geclusterd, kunnen vaak in clusters worden ingedeeld.
In onderstaande grafiek kunnen we 3 verschillende clusters onderscheiden:
Clusters identificeren
Clusters kunnen veel waardevolle informatie bevatten, maar clusters zijn er in allerlei vormen, dus hoe kunnen we ze herkennen?
De twee belangrijkste methoden zijn:
- Visualisatie gebruiken
- Een clusteralgoritme gebruiken
clustering
Clustering is een vorm van Unsupervised Learning .
Clustering probeert:
- Verzamel vergelijkbare gegevens in groepen
- Verzamel ongelijke gegevens in andere groepen
Clustermethoden
- Dichtheidsmethode
- Hiërarchische methode
- Partitioneringsmethode
- Op rasters gebaseerde methode
De dichtheidsmethode gaat ervan uit dat punten in dichtbevolkte regio's meer overeenkomsten en verschillen hebben dan punten in een lager dicht gebied. De dichtheidsmethode heeft een goede nauwkeurigheid. Het heeft ook de mogelijkheid om clusters samen te voegen.
Twee veelgebruikte algoritmen zijn DBSCAN en OPTICS.
De hiërarchische methode vormt de clusters in een boomstructuur. Nieuwe clusters worden gevormd met behulp van eerder gevormde clusters.
Twee veel voorkomende algoritmen zijn CURE en BIRCH.
De op rasters gebaseerde methode formuleert de gegevens in een eindig aantal cellen die een rasterachtige structuur vormen.
Twee veelgebruikte algoritmen zijn CLIQUE en STING
De partitioneringsmethode verdeelt de objecten in k clusters en elke partitie vormt één cluster.
Een veelgebruikt algoritme is CLARANS.
Correlatiecoëfficiënt
De correlatiecoëfficiënt (r) beschrijft de sterkte en richting van een lineaire relatie en x/y-variabelen op een scatterplot.
De waarde van r ligt altijd tussen -1 en +1:
-1,00 | Perfecte afdaling | Negatief lineair verband. |
-0.70 | Sterke afdaling | Negatief lineair verband. |
-0.50 | Matige afdaling | Negatief lineair verband. |
-0.30 | Zwakke afdaling | Negatief lineair verband. |
0 | Geen lineair verband. | |
+0.30 | zwak bergop | Positieve lineaire relatie. |
+0.50 | Matig bergopwaarts | Positieve lineaire relatie. |
+0.70 | Sterk bergop | Positieve lineaire relatie. |
+1.00 | Perfect bergopwaarts | Positieve lineaire relatie. |
Perfect bergop +1,00 :
Perfecte afdaling -1.00 :
Sterk bergop +0.61 :
Geen relatie :