AI-gegevens
Tot 80% van een Artificial Intelligence-project gaat over het verzamelen van gegevens :
- Welke gegevens zijn vereist ?
- Welke gegevens zijn beschikbaar ?
- Hoe de gegevens te selecteren ?
- Hoe de gegevens verzamelen ?
- Hoe de gegevens op te schonen ?
- Hoe de gegevens voorbereiden ?
- Hoe de gegevens te gebruiken ?
Wat is gegevens?
Gegevens kunnen van alles zijn. Bij Kunstmatige Intelligentie moet het een verzameling feiten zijn:
Type | Voorbeelden |
---|---|
Cijfers | Prijzen. Datums. |
Afmetingen | Maat. Hoogte. Gewicht. |
Woorden | Namen en plaatsen. |
waarnemingen | Auto's tellen. |
Beschrijvingen | Het is koud. |
Intelligentie heeft gegevens nodig
Menselijke intelligentie heeft gegevens nodig:
Een makelaar heeft gegevens over verkochte huizen nodig om prijzen te kunnen inschatten.
Kunstmatige intelligentie heeft gegevens nodig:
Een computerprogramma heeft ook gegevens nodig om prijzen te schatten.
Gegevens bewaren
De meest voorkomende gegevens om te verzamelen zijn getallen en metingen.
Vaak worden gegevens opgeslagen in arrays die de relatie tussen waarden vertegenwoordigen.
Deze tabel bevat huizenprijzen versus grootte:
Prijs | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
Maat | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Kwantitatief versus kwalitatief
Kwantitatieve gegevens zijn numeriek:
- 55 auto's
- 15 meter
- 35 kinderen
Kwalitatieve gegevens zijn beschrijvend:
- Het is koud
- Het is lang
- Het was leuk
Telling of bemonstering
Een volkstelling is wanneer we gegevens verzamelen voor elk lid van een groep.
Een voorbeeld is wanneer we gegevens verzamelen voor sommige leden van een groep.
Als we wilden weten hoeveel Amerikanen sigaretten roken, zouden we het aan elke persoon in de VS kunnen vragen (een volkstelling), of we zouden het aan 10.000 mensen kunnen vragen (een steekproef).
Een telling is nauwkeurig , maar moeilijk uit te voeren. Een steekproef is Onnauwkeurig , maar is gemakkelijker te doen.
Bemonsteringsvoorwaarden
Een populatie is een groep individuen (objecten) waarvan we informatie willen verzamelen.
Een volkstelling is informatie over elk individu in een populatie.
Een steekproef is informatie over een deel van de populatie (om alles weer te geven).
Willekeurige voorbeelden
Om een steekproef een populatie te laten vertegenwoordigen, moet deze willekeurig worden verzameld.
Een willekeurige steekproef is een steekproef waarbij elk lid van de populatie een gelijke kans heeft om in de steekproef te verschijnen.
Bemonsteringsbias
Een Sampling Bias (Error) treedt op wanneer monsters op zo'n manier worden verzameld dat het voor sommige individuen minder (of meer) waarschijnlijk is dat ze in de steekproef worden opgenomen.