DTD - XML-bouwstenen
De belangrijkste bouwstenen van zowel XML- als HTML-documenten zijn elementen.
De bouwstenen van XML-documenten
Vanuit DTD-oogpunt zijn alle XML-documenten opgebouwd uit de volgende bouwstenen:
- elementen
- attributen
- Entiteiten
- PCDATA
- CDATA
elementen
Elementen zijn de belangrijkste bouwstenen van zowel XML- als HTML-documenten.
Voorbeelden van HTML-elementen zijn "body" en "table". Voorbeelden van XML-elementen kunnen "note" en "message" zijn. Elementen kunnen tekst of andere elementen bevatten of leeg zijn. Voorbeelden van lege HTML-elementen zijn "hr", "br" en "img".
Voorbeelden:
<body>some text</body>
<message>some text</message>
attributen
Attributen geven extra informatie over elementen .
Attributen worden altijd binnen de openingstag van een element geplaatst. Attributen komen altijd voor in naam/waarde-paren. Het volgende "img"-element bevat aanvullende informatie over een bronbestand:
<img src="computer.gif" />
De naam van het element is "img". De naam van het attribuut is "src". De waarde van het attribuut is "computer.gif". Aangezien het element zelf leeg is, wordt het afgesloten met een " /".
Entiteiten
Sommige tekens hebben een speciale betekenis in XML, zoals het kleiner dan-teken (<) dat het begin van een XML-tag definieert.
De meesten van jullie kennen de HTML-entiteit: " ". Deze "no-breaking-space" entiteit wordt in HTML gebruikt om een extra spatie in een document in te voegen. Entiteiten worden uitgevouwen wanneer een document wordt geparseerd door een XML-parser.
De volgende entiteiten zijn vooraf gedefinieerd in XML:
Entity References | Character |
---|---|
< | < |
> | > |
& | & |
" | " |
' | ' |
PCDATA
PCDATA betekent geparseerde tekengegevens.
Zie karaktergegevens als de tekst die wordt gevonden tussen de starttag en de eindtag van een XML-element.
PCDATA is tekst die door een parser zal worden geparseerd . De tekst wordt door de parser onderzocht op entiteiten en opmaak .
Tags in de tekst worden behandeld als opmaak en entiteiten worden uitgevouwen.
Geparseerde tekengegevens mogen echter geen &, < of > tekens bevatten; deze moeten worden vertegenwoordigd door de & < en > entiteiten, respectievelijk.
CDATA
CDATA betekent karaktergegevens.
CDATA is tekst die NIET door een parser wordt geparseerd . Tags in de tekst worden NIET behandeld als opmaak en entiteiten worden niet uitgevouwen.