Gegevensclusters

  • Clusters zijn verzamelingen van vergelijkbare gegevens
  • Clustering is een vorm van leren zonder toezicht
  • De correlatiecoëfficiënt beschrijft de sterkte van een relatie.

Clusters

Clusters zijn verzamelingen van gegevens op basis van gelijkenis.

Gegevenspunten die samen in een grafiek zijn geclusterd, kunnen vaak in clusters worden ingedeeld.

In onderstaande grafiek kunnen we 3 verschillende clusters onderscheiden:


Clusters identificeren

Clusters kunnen veel waardevolle informatie bevatten, maar clusters zijn er in allerlei vormen, dus hoe kunnen we ze herkennen?

De twee belangrijkste methoden zijn:

  • Visualisatie gebruiken
  • Een clusteralgoritme gebruiken

clustering

Clustering is een vorm van Unsupervised Learning .

Clustering probeert:

  • Verzamel vergelijkbare gegevens in groepen
  • Verzamel ongelijke gegevens in andere groepen

Clustermethoden

  • Dichtheidsmethode
  • Hiërarchische methode
  • Partitioneringsmethode
  • Op rasters gebaseerde methode

De dichtheidsmethode gaat ervan uit dat punten in dichtbevolkte regio's meer overeenkomsten en verschillen hebben dan punten in een lager dicht gebied. De dichtheidsmethode heeft een goede nauwkeurigheid. Het heeft ook de mogelijkheid om clusters samen te voegen.
Twee veelgebruikte algoritmen zijn DBSCAN en OPTICS.

De hiërarchische methode vormt de clusters in een boomstructuur. Nieuwe clusters worden gevormd met behulp van eerder gevormde clusters.
Twee veel voorkomende algoritmen zijn CURE en BIRCH.

De op rasters gebaseerde methode formuleert de gegevens in een eindig aantal cellen die een rasterachtige structuur vormen.
Twee veelgebruikte algoritmen zijn CLIQUE en STING

De partitioneringsmethode verdeelt de objecten in k clusters en elke partitie vormt één cluster.
Een veelgebruikt algoritme is CLARANS.


Correlatiecoëfficiënt

De correlatiecoëfficiënt (r) beschrijft de sterkte en richting van een lineaire relatie en x/y-variabelen op een scatterplot.

De waarde van r ligt altijd tussen -1 en +1:

-1,00Perfecte afdalingNegatief lineair verband.
-0.70Sterke afdalingNegatief lineair verband.
-0.50Matige afdalingNegatief lineair verband.
-0.30Zwakke afdalingNegatief lineair verband.
0Geen lineair verband.
+0.30zwak bergopPositieve lineaire relatie.
+0.50Matig bergopwaartsPositieve lineaire relatie.
+0.70Sterk bergopPositieve lineaire relatie.
+1.00Perfect bergopwaartsPositieve lineaire relatie.

Perfect bergop +1,00 :

Perfecte afdaling -1.00 :

'

Sterk bergop +0.61 :

Geen relatie :