Machinaal leren
Machine Learning is de computer laten leren door data en statistieken te bestuderen.
Machine Learning is een stap in de richting van kunstmatige intelligentie (AI).
Machine Learning is een programma dat data analyseert en leert de uitkomst te voorspellen.
Waar te beginnen?
In deze tutorial gaan we terug naar wiskunde en studiestatistieken, en hoe je belangrijke getallen kunt berekenen op basis van datasets.
We zullen ook leren hoe we verschillende Python-modules kunnen gebruiken om de antwoorden te krijgen die we nodig hebben.
En we zullen leren hoe we functies kunnen maken die de uitkomst kunnen voorspellen op basis van wat we hebben geleerd.
Gegevensset
In de geest van een computer is een dataset elke verzameling gegevens. Het kan van alles zijn, van een array tot een complete database.
Voorbeeld van een array:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Voorbeeld van een databank:
Carname | Kleur | Leeftijd | Snelheid | AutoPass |
BMW | rood | 5 | 99 | ja |
Volvo | zwart | 7 | 86 | ja |
VW | grijs | 8 | 87 | N |
VW | wit | 7 | 88 | ja |
Ford | wit | 2 | 111 | ja |
VW | wit | 17 | 86 | ja |
Tesla | rood | 2 | 103 | ja |
BMW | zwart | 9 | 87 | ja |
Volvo | grijs | 4 | 94 | N |
Ford | wit | 11 | 78 | N |
Toyota | grijs | 12 | 77 | N |
VW | wit | 9 | 85 | N |
Toyota | blauw | 6 | 86 | ja |
Door naar de array te kijken, kunnen we raden dat de gemiddelde waarde waarschijnlijk rond de 80 of 90 ligt, en we kunnen ook de hoogste waarde en de laagste waarde bepalen, maar wat kunnen we nog meer doen?
En door naar de database te kijken, kunnen we zien dat de meest populaire kleur wit is en dat de oudste auto 17 jaar is, maar wat als we konden voorspellen of een auto een AutoPass had, alleen door naar de andere waarden te kijken?
Daar is Machine Learning voor! Gegevens analyseren en de uitkomst voorspellen!
Bij Machine Learning is het gebruikelijk om met zeer grote datasets te werken. In deze tutorial zullen we proberen het zo gemakkelijk mogelijk te maken om de verschillende concepten van machine learning te begrijpen, en we zullen werken met kleine, gemakkelijk te begrijpen datasets.
Gegevenstypen
Om data te analyseren is het belangrijk om te weten met wat voor soort data we te maken hebben.
We kunnen de datatypes opsplitsen in drie hoofdcategorieën:
- Numeriek
- categorisch
- ordinaal
Numerieke gegevens zijn getallen en kunnen worden opgesplitst in twee numerieke categorieën:
- Discrete gegevens
- getallen die beperkt zijn tot gehele getallen. Voorbeeld: Het aantal passerende auto's. - Continue gegevens
- getallen die van oneindige waarde zijn. Voorbeeld: de prijs van een artikel of de grootte van een artikel
Categorische gegevens zijn waarden die niet tegen elkaar kunnen worden afgewogen. Voorbeeld: een kleurwaarde, of eventuele ja/nee-waarden.
Ordinale gegevens zijn als categorische gegevens, maar kunnen tegen elkaar worden afgemeten. Voorbeeld: schoolcijfers waar A beter is dan B enzovoort.
Door het gegevenstype van uw gegevensbron te kennen, weet u welke techniek u moet gebruiken bij het analyseren ervan.
In de volgende hoofdstukken leert u meer over statistiek en het analyseren van gegevens.