Introductie datawetenschap


Data Science is een combinatie van meerdere disciplines die statistiek, data-analyse en machine learning gebruikt om data te analyseren en er kennis en inzichten uit te halen.


Wat is datawetenschap?

Data Science gaat over dataverzameling, analyse en besluitvorming.

Data Science gaat over het vinden van patronen in data, door middel van analyse, en het doen van toekomstvoorspellingen.

Door gebruik te maken van Data Science zijn bedrijven in staat om:

  • Betere beslissingen (moeten we A of B kiezen)
  • Voorspellende analyse (wat gebeurt er daarna?)
  • Patroonontdekkingen (vind patroon, of misschien verborgen informatie in de gegevens)

Waar is datawetenschap nodig?

Data Science wordt tegenwoordig in veel industrieën in de wereld gebruikt, bijvoorbeeld in het bankwezen, consultancy, gezondheidszorg en productie.

Voorbeelden waar Data Science nodig is:

  • Voor routeplanning: om de beste routes voor verzending te ontdekken
  • Vertragingen voor vlucht/schip/trein etc. voorzien (via voorspellende analyse)
  • Promotieaanbiedingen maken
  • Om de meest geschikte tijd te vinden om goederen te leveren
  • Om de inkomsten voor de komende jaren voor een bedrijf te voorspellen
  • Gezondheidsvoordeel van training analyseren
  • Om te voorspellen wie de verkiezingen zal winnen

Data Science kan worden toegepast in bijna elk onderdeel van een bedrijf waar data beschikbaar is. Voorbeelden zijn:

  • Consumentengoederen
  • Aandelen markt
  • Industrie
  • Politiek
  • Logistieke bedrijven
  • E-commerce

Hoe werkt een datawetenschapper?

Een Data Scientist heeft expertise nodig met verschillende achtergronden:

  • Machinaal leren
  • Statistieken
  • Programmeren (Python of R)
  • Wiskunde
  • Databases

Een datawetenschapper moet patronen in de data vinden. Voordat hij/zij de patronen kan vinden, moet hij/zij de gegevens ordenen in een standaardformaat.

Zo werkt een Data Scientist:

  1. Stel de juiste vragen - Om het zakelijke probleem te begrijpen.
  2. Verken en verzamel gegevens - Van database, weblogs, feedback van klanten, enz.
  3. Extraheer de gegevens - Transformeer de gegevens naar een gestandaardiseerd formaat.
  4. De gegevens opschonen - Verwijder foutieve waarden uit de gegevens.
  5. Zoek en vervang ontbrekende waarden - Controleer op ontbrekende waarden en vervang ze door een geschikte waarde (bijvoorbeeld een gemiddelde waarde).
  6. Gegevens normaliseren - Schaal de waarden in een praktisch bereik (bijv. 140 cm is kleiner dan 1,8 m. Het getal 140 is echter groter dan 1,8. - dus schalen is belangrijk).
  7. Analyseer gegevens, vind patronen en doe toekomstvoorspellingen .
  8. Vertegenwoordig het resultaat - Presenteer het resultaat met bruikbare inzichten op een manier die het "bedrijf" kan begrijpen.

Waar te beginnen?

In deze zelfstudie beginnen we met te presenteren wat gegevens zijn en hoe gegevens kunnen worden geanalyseerd.

Je leert hoe je statistieken en wiskundige functies kunt gebruiken om voorspellingen te doen.