HTML-tekensets


Om een ​​HTML-pagina correct weer te geven, moet de browser weten welke tekenset (codering) moet worden gebruikt:

Voorbeeld

<meta charset="UTF-8">

HTML-tekensets

De HTML5-specificatie moedigt webontwikkelaars aan om de UTF-8-tekenset te gebruiken!

Dit is niet altijd het geval geweest. De karaktercodering voor het vroege web was ASCII.

Later, van HTML 2.0 tot HTML 4.01, werd ISO-8859-1 beschouwd als de standaard tekenset.

Met XML en HTML5 kwam UTF-8 eindelijk aan en loste veel problemen met tekencodering op.


In het begin: ASCII

Computergegevens worden als binaire codes (01000101) in de elektronica opgeslagen.

Om het opslaan van tekst te standaardiseren, is de American Standard Code for Information Interchange (ASCII) in het leven geroepen. Het definieerde een uniek binair getal voor elk teken dat kan worden opgeslagen om de cijfers van 0-9, het alfabet in hoofdletters en kleine letters (az, AZ) en speciale tekens zoals ! $ + - ( ) @ < > , .

Aangezien ASCII 7 bits voor het karakter gebruikte, kon het slechts 128 verschillende karakters vertegenwoordigen.

De grootste zwakte van ASCII was dat niet-Engelse letters werden uitgesloten.

ASCII wordt nog steeds gebruikt, vooral in grote mainframecomputersystemen.

Bekijk onze Complete ASCII-referentie voor meer informatie .


In Windows: Windows-1252

Windows-1252 was de standaard tekenset in Windows, tot Windows 95.

Het is een uitbreiding op ASCII, met toegevoegde internationale karakters.

Het gebruikt een volledige byte (8-bits) om 256 verschillende karakters weer te geven.

Aangezien Windows-1252 de standaard is in Windows, wordt het door alle browsers ondersteund.

Lees voor meer informatie: The Complete Windows-1252 Reference .



In HTML 4: ISO-8859-1

De tekenset die het meest wordt gebruikt in HTML 4 was ISO-8859-1.

ISO-8859-1 is een uitbreiding op ASCII, met toegevoegde internationale karakters.

Voorbeeld

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

In HTML 4 kan een andere tekenset dan ISO-8859-1 worden opgegeven in de <meta>-tag:

Voorbeeld

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Alle HTML 4-processors ondersteunen ook UTF-8:

Voorbeeld

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Wanneer een browser ISO-8859-1 detecteert, wordt deze standaard ingesteld op Windows-1252, omdat Windows-1252 32 meer internationale tekens heeft.

Voor een nadere blik, gelieve te bestuderen: The Complete ISO-8859-1 Reference


In HTML5: Unicode UTF-8

De HTML5-specificatie moedigt webontwikkelaars aan om de UTF-8-tekenset te gebruiken.

Voorbeeld

<meta charset="UTF-8">

Een andere tekenset dan UTF-8 kan worden opgegeven in de <meta>-tag:

Voorbeeld

<meta charset="ISO-8859-1">

Het Unicode Consortium heeft de UTF-8- en UTF-16-normen ontwikkeld, omdat de ISO-8859-tekensets beperkt zijn en niet compatibel zijn met een meertalige omgeving.

De Unicode-standaard omvat (bijna) alle tekens, leestekens en symbolen ter wereld.

Alle HTML5- en XML-processors ondersteunen UTF-8, UTF-16, Windows-1252 en ISO-8859.

Lees voor meer informatie: The Complete Unicode Reference .