AI-gegevens

Tot 80% van een Artificial Intelligence-project gaat over het verzamelen van gegevens :

  • Welke gegevens zijn vereist ?
  • Welke gegevens zijn beschikbaar ?
  • Hoe de gegevens te selecteren ?
  • Hoe de gegevens verzamelen ?
  • Hoe de gegevens op te schonen ?
  • Hoe de gegevens voorbereiden ?
  • Hoe de gegevens te gebruiken ?

Wat is gegevens?

Gegevens kunnen van alles zijn. Bij Kunstmatige Intelligentie moet het een verzameling feiten zijn:

TypeVoorbeelden
CijfersPrijzen. Datums.
AfmetingenMaat. Hoogte. Gewicht.
WoordenNamen en plaatsen.
waarnemingenAuto's tellen.
BeschrijvingenHet is koud.

Intelligentie heeft gegevens nodig

Menselijke intelligentie heeft gegevens nodig:

Een makelaar heeft gegevens over verkochte huizen nodig om prijzen te kunnen inschatten.

Kunstmatige intelligentie heeft gegevens nodig:

Een computerprogramma heeft ook gegevens nodig om prijzen te schatten.


Gegevens bewaren

De meest voorkomende gegevens om te verzamelen zijn getallen en metingen.

Vaak worden gegevens opgeslagen in arrays die de relatie tussen waarden vertegenwoordigen.

Deze tabel bevat huizenprijzen versus grootte:

Prijs7889991011141415
Maat5060708090100 110120130140150

Kwantitatief versus kwalitatief

Kwantitatieve gegevens zijn numeriek:

  • 55 auto's
  • 15 meter
  • 35 kinderen

Kwalitatieve gegevens zijn beschrijvend:

  • Het is koud
  • Het is lang
  • Het was leuk

Telling of bemonstering

Een volkstelling is wanneer we gegevens verzamelen voor elk lid van een groep.

Een voorbeeld is wanneer we gegevens verzamelen voor sommige leden van een groep.

Als we wilden weten hoeveel Amerikanen sigaretten roken, zouden we het aan elke persoon in de VS kunnen vragen (een volkstelling), of we zouden het aan 10.000 mensen kunnen vragen (een steekproef).

Een telling is nauwkeurig , maar moeilijk uit te voeren. Een steekproef is Onnauwkeurig , maar is gemakkelijker te doen.


Bemonsteringsvoorwaarden

Een populatie is een groep individuen (objecten) waarvan we informatie willen verzamelen.

Een volkstelling is informatie over elk individu in een populatie.

Een steekproef is informatie over een deel van de populatie (om alles weer te geven).


Willekeurige voorbeelden

Om een ​​steekproef een populatie te laten vertegenwoordigen, moet deze willekeurig worden verzameld.

Een willekeurige steekproef is een steekproef waarbij elk lid van de populatie een gelijke kans heeft om in de steekproef te verschijnen.


Bemonsteringsbias

Een Sampling Bias (Error) treedt op wanneer monsters op zo'n manier worden verzameld dat het voor sommige individuen minder (of meer) waarschijnlijk is dat ze in de steekproef worden opgenomen.