Comprendre les appels de caractÃ¨res

samedi 22 octobre 2005 par SÃ©bastien (lien permanent)

Cet article est la traduction de lâ€™article de Lachlan Hunt, Character References Explained.

Merci aux traducteurs du W3C Ã qui j'ai empruntÃ© bon nombre de traductions de termes techniques et qui ont fait que certaines rÃ©fÃ©rences de cet article sont aussi disponibles en franÃ§ais.

Il semblerait que de nombreuses personnes ne sont pas aussi bien informÃ©es quâ€™elles devraient lâ€™Ãªtre Ã propos des appels de caractÃ¨res. Je vais donc vous expliquer clairement tout ce que vous devez savoir sur le sujet (et certaines choses dont vous nâ€™avez pas besoin), principalement pour le HTML et le XML. Il y a deux types dâ€™appels de caractÃ¨res : les appels numÃ©riques de caractÃ¨res et les appels dâ€™entitÃ©s de caractÃ¨res.

Les appels numÃ©riques de caractÃ¨res

Il y a deux formes dâ€™appels numÃ©riques de caractÃ¨res : la forme dÃ©cimale et la forme hexadÃ©cimale.

La syntaxe

Les appels dÃ©cimaux prennent la forme &#nnnn;, oÃ¹ nnnn est la rÃ©fÃ©rence au point de code Unicode du caractÃ¨re en dÃ©cimal [0-9]. Les appels hexadÃ©cimaux prennent la forme &#xhhhh; oÃ¹ hhhh est le point de code en notation hexadÃ©cimale [0-9a-fA-F].

Pour les appels de caractÃ¨res en HTML, le x est insensible Ã la casse, mais en XML il doit Ãªtre en minuscule. Donc &#XA0; par exemple est valide en HTML mais invalide en XML.

En HTML, une fin de rÃ©fÃ©rence est soit :

Un dÃ©limiteur (par dÃ©faut un point-virgule) de fermeture de rÃ©fÃ©rence (reference close, REFC)
Un code de fonction de fin dâ€™enregistrement (record end, RE)
Un caractÃ¨re, comme un espace, ne se retrouvant dans aucun nom dâ€™entitÃ©.

Cela signifie simplement que le point-virgule final peut Ãªtre omis dans certaines circonstances. Cependant il peut Ãªtre difficile de se souvenir prÃ©cisÃ©ment de quand il peut ou ne peut pas Ãªtre omis, et pour limiter au maximum les risques dâ€™erreur, il est prÃ©fÃ©rable de toujours lâ€™inclure. En XML, le point-virgule est obligatoire. Ces rÃ¨gles sâ€™appliquent Ã©galement aux appels dâ€™entitÃ©s de caractÃ¨res.

Le rÃ©pertoire de caractÃ¨res

Il est particuliÃ¨rement important de noter que quelque soit le codage de caractÃ¨res du document, les appels numÃ©riques de caractÃ¨res font toujours rÃ©fÃ©rence Ã la position de code dans le rÃ©pertoire Unicode. En termes SGML, cela sâ€™appelle le jeu de caractÃ¨res du document (Document Character Set ou DCS) et est dÃ©fini pour HTML dans la dÃ©claration SGML. En HTML et XML, le DCS est dÃ©fini comme Ã©tant ISO-10646 (ou Unicode). Notez bien quâ€™il y a une diffÃ©rence entre le DCS et le codage de caractÃ¨res du fichier, qui peut Ãªtre nâ€™importe quoi, y compris ISO-8859-1, UTF-8, UTF-16, Shift_JIS, ou tout autre codage ; mais le codage nâ€™affecte en rien les appels numÃ©riques de caractÃ¨res, ils font toujours rÃ©fÃ©rence Ã un caractÃ¨re faisant partie du DCS, qui est dÃ©fini comme Ã©tant Unicode.

Par exemple, si vous voulez inclure lâ€™apostrophe typographiquement correcte (â€™) avec un appel numÃ©rique, vous devez connaÃ®tre son point de code Unicode. En lâ€™occurrence il sâ€™agit de U+2019 ou, en dÃ©cimal, 8217. Les appels de caractÃ¨res en hexadÃ©cimal et en dÃ©cimal seront donc respectivement ’ et ’.

Quelques erreurs courantes

Une erreur trÃ¨s rÃ©pandue est lâ€™utilisation de points de code issus du rÃ©pertoire Windows-1252. Sachez que câ€™est incorrect, mÃªme si les navigateurs ont Ã©tÃ© obligÃ©s de les supporter simplement parce quâ€™Internet Explorer les supporte. Les points de code problÃ©matiques sâ€™Ã©tendent de 128 Ã 159. Dans Windows-1252, lâ€™apostrophe typographique se retrouve dans cette Ã©tendue Ã la position 0x92, ou, plus communÃ©ment, en dÃ©cimal, 146. Toutefois vous ne pouvez pas inclure ce caractÃ¨re avec ce point de code, soit  soit , parce que cela reviendrait Ã se rÃ©fÃ©rer au point de code Unicode et non Ã Windows-1252 et que les points de code de cette Ã©tendue sont dÃ©finis comme Ã©tant des codes de commande.

Ces codes de commande sont dÃ©finis comme UNUSED (inutilisÃ©) dans La dÃ©claration SGML de HTML 4 (traduction franÃ§aise). Dans le vocable impÃ©nÃ©trable des termes SGML, cela en fait des caractÃ¨res non-SGML. Dâ€™aprÃ¨s la section 13.1.1 du guide de SGML, cela signifie simplement quâ€™aucun sens nâ€™est attribuÃ© Ã ce caractÃ¨re, mais ce mÃªme guide dit clairement dans la section 9.2 quâ€™un caractÃ¨re non-SGML peut Ãªtre saisi en tant que caractÃ¨re de donnÃ©e dans une entitÃ© SGML en utilisant une rÃ©fÃ©rence de caractÃ¨re.

ProblÃ¨mes de validation

Pour Ãªtre trÃ¨s prÃ©cis, bien que ces caractÃ¨res ne peuvent Ãªtre inclus en tant que caractÃ¨res de donnÃ©es dans un document HTML, il nâ€™est pas invalide dâ€™y faire rÃ©fÃ©rence avec des appels de caractÃ¨res. Le problÃ¨me vient dâ€™une combinaison du fait que le sens dâ€™un caractÃ¨re non-SGML est particuliÃ¨rement obscur et que, dans Unicode, ces caractÃ¨res sont des codes de commande non imprimables.

Pour cette raison, le validateur affiche seulement un avertissement ; mais bien que cette utilisation reste techniquement valide, elle devrait Ãªtre traitÃ©e comme une erreur car il est pratiquement certain que ces caractÃ¨res nâ€™ont pas le sens dÃ©sirÃ© par lâ€™auteur â€” en fait, leur sens est indÃ©fini. Pour clarifier un peu plus les problÃ¨mes de validation, comparez les rÃ©sultats de lâ€™utilisation dâ€™un caractÃ¨re non-SGML Ã©crit directement dans le balisage avec les rÃ©sultats de lâ€™utilisation dâ€™une rÃ©fÃ©rence Ã un caractÃ¨re non-SGML. Le premier exemple Ã©chouera Ã cause dâ€™une erreur de validation, alors que le second passera la validation mais avec un avertissement, alors quâ€™ils utilisent en fait le mÃªme caractÃ¨re.

Sachez quâ€™il nâ€™en va pas de mÃªme pour le XML (ainsi que le XHTML). Techniquement, cette Ã©tendue de caractÃ¨res (de 128 Ã 159) est parfaitement valide conformÃ©ment Ã production de caractÃ¨res dans XML (traduction franÃ§aise), mais ils se rÃ©fÃ¨rent bien Ã des codes de commande Unicode, leur signification est indÃ©finie dans le contexte du document et ils ne devraient donc pas Ãªtre utilisÃ©s. Bien que le validateur du W3C renvoie les mÃªmes erreur et avertissement pour les documents XHTML Ã©quivalents, ce nâ€™est quâ€™un symptÃ´me de ses origines de validateur SGML adaptÃ© pour fonctionner dans un Â« mode Â» XML. Toutefois la validation Ã lâ€™aide dâ€™un vÃ©ritable validateur XML (comme celui de Page Valet) ne renverra aucune erreur ou avertissement.

Il est important de prendre conscience que, pour XML, utiliser ou faire rÃ©fÃ©rence Ã un caractÃ¨re qui ne correspond pas Ã la production de caractÃ¨res enfreint la contrainte de forme. Par exemple, lâ€™utilisation dâ€™un code de commande compris entre 0 et 31 (Ã lâ€™exception de la tabulation, du retour de chariot et du retour Ã la ligne) que ce soit directement ou avec une rÃ©fÃ©rence numÃ©rique de caractÃ¨re constitue une erreur de forme.

Les appels dâ€™entitÃ©s de caractÃ¨res

Les appels dâ€™entitÃ©s de caractÃ¨res utilisent des noms symboliques Ã la place des numÃ©ros et prennent la forme &name;. Tous les appels dâ€™entitÃ©s sont sensibles Ã la casse. Donc par exemple å et Å font rÃ©fÃ©rence Ã deux caractÃ¨res distincts en HTML soit, respectivement, Ã¥ et Ã…. Les rÃ¨gles pour la fin de rÃ©fÃ©rence sont les mÃªmes que pour les appels numÃ©riques de caractÃ¨res (dÃ©crits plus haut).

Parmi les entitÃ©s les plus connues de HTML on trouve &, <, > et ". Curieusement, " a effectivement Ã©tÃ© retirÃ© de HTML 3.2, mais cette erreur a Ã©tÃ© reconnue et " a Ã©tÃ© rÃ©intÃ©grÃ© dans HTML 4.

Les appels dâ€™entitÃ©s prÃ©dÃ©finis pour XML

En XML, ce sont quatre des cinq appels dâ€™entitÃ©s prÃ©dÃ©finis qui peuvent Ãªtre utilisÃ©s dans tout document XML, sans avoir recours une dÃ©finition dans la DTD. La cinquiÃ¨me entitÃ© prÃ©dÃ©finie dans XML est ', mais la raison pour laquelle je la mentionne sÃ©parÃ©ment est quâ€™elle nâ€™est pas dÃ©finie dans HTML et en consÃ©quence elle nâ€™est pas supportÃ©e non plus par Internet Explorer pour le HTML. Cependant on a rarement besoin dâ€™y faire appel, puisque elle est nÃ©cessaire seulement Ã lâ€™intÃ©rieur dâ€™un attribut dÃ©limitÃ© par des guillemets droits simples (') au lieu des guillemets droits doubles conventionnels ("). Dans ces cas, il est toujours possible dâ€™utiliser un appel numÃ©rique de caractÃ¨re Ã la place.

HTML 4, XHTML 1.x et MathML dÃ©finissent de nombreux autres appels dâ€™entitÃ©s de caractÃ¨res dans leurs DTD respectives. Ce sont les appels dâ€™entitÃ©s externes. En HTML ils sont divisÃ©s en trois groupes : les caractÃ¨res ISO-8859-1, les symboles, symboles mathÃ©matiques et les lettres grecques et les caractÃ¨res significatifs pour le balisage et les caractÃ¨res pour lâ€™internationalisation. Digital Media Minute a publiÃ© un tableau des appels dâ€™entitÃ©s de caractÃ¨res pratique qui reprend tous ces caractÃ¨res. Si vous vous intÃ©ressez aux entitÃ©s MathML, consultez le chapitre 6 de MathML 2.0 (traduction franÃ§aise).

Parce quâ€™elles sont dÃ©finies dans une DTD, techniquement aucune ne peut Ãªtre utilisÃ©e dans un document HTML en lâ€™absence dâ€™une dÃ©claration de DOCTYPE appropriÃ©e rÃ©fÃ©renÃ§ant une DTD HTML appropriÃ©e ; bien que comme les navigateurs ne lisent pas les DTD de toute faÃ§on, ceux-ci les supporteront quand mÃªme. Cependant en XHTML et MathML (servi avec un type MIME XML), le DOCTYPE est requis pour des raisons pratiques afin dâ€™utiliser toute entitÃ© autre que les 5 entitÃ©s prÃ©dÃ©finies.

Par exemple   et ’ sont dÃ©finis dans la DTD de XHTML, ils ne sont pas prÃ©dÃ©finis en XML et nÃ©cessitent donc lâ€™utilisation de la DTD. Sans elle, leur utilisation viole la contrainte de forme, mais remarquez quâ€™utiliser des entitÃ©s externes nâ€™est pas sÃ»r en XML parce que cela nÃ©cessite un processeur XML validant afin de lire la DTD. La FAQ des auteurs Web de Mozilla prÃ©cise :

Dans les anciennes versions de Mozilla comme dans les anciens produits basÃ©s sur Mozilla, il nâ€™y a pas de catalogue de pseudo-DTD et lâ€™utilisation dâ€™entitÃ©s externes (outre les cinq prÃ©dÃ©finies) gÃ©nÃ¨re une erreur dâ€™analyse XML. Il existe aussi dâ€™autres agents utilisateur qui ne supportent pas les entitÃ©s externes (outre les cinq prÃ©dÃ©finies). Puisque les processeurs XML validants ne sont pas obligÃ©s de supporter les entitÃ©s externes (outre les cinq prÃ©dÃ©finies), lâ€™utilisation dâ€™entitÃ©s externes (outre les cinq prÃ©dÃ©finies) est intrinsÃ¨quement peu fiable dans les documents XML destinÃ©s au web. La meilleure pratique consiste Ã utiliser directement de lâ€™UTF-8 au lieu des entitÃ©s. (Les appels numÃ©riques de caractÃ¨res sont Ã©galement fiables).

Lâ€™alternative est dâ€™utiliser uniquement des appels numÃ©riques de caractÃ¨res au lieu des entitÃ©s externes, mais la meilleure solution reste dâ€™utiliser un codage Unicode, comme UTF-8 ou UTF-16, et de saisir le caractÃ¨re rÃ©el (consultez mon Guide de lâ€™Unicode pour plus dâ€™informations). Si vous utilisez un codage Unicode il est probable que les seules occasions oÃ¹ il est utile de recourir aux appels de caractÃ¨res au lieu des caractÃ¨res rÃ©els est pour les caractÃ¨res non imprimables, comme lâ€™espace insÃ©cable (  ou, de prÃ©fÃ©rence,  ), Em-space, En-space, les caractÃ¨res Ã chasse nulle, etc. La raison principale est de pouvoir les identifier clairement lors de la lecture ou de lâ€™Ã©criture du code source.

RÃ©sumÃ©

Les appels numÃ©riques de caractÃ¨res, Ã la fois dÃ©cimaux et hexadÃ©cimaux, peuvent Ãªtre utilisÃ©s sans risque en (X)HTML et XML, mais prenez garde Ã bien rÃ©fÃ©rencer le point de code du caractÃ¨re dans le rÃ©pertoire Unicode, et non dans celui de Windows-1252 (particuliÃ¨rement pour lâ€™Ã©tendue de 128 Ã 159).

Les appels dâ€™entitÃ©s de caractÃ¨res peuvent Ãªtre utilisÃ©s en HTML et en XML ; mais pour XML, outre les cinq entitÃ©s prÃ©dÃ©finies, ils doivent Ãªtre dÃ©finis dans une DTD (comme pour XHTML et MathML). Les cinq entitÃ©s prÃ©dÃ©finies en XML sont : &, <, >, " and '. Parmi celles-ci, souvenez-vous que ' nâ€™est pas dÃ©finie dans HTML. Lâ€™utilisation dâ€™autres entitÃ©s en XML nÃ©cessite un processeur validant, ce qui rend leur utilisation sur le web particuliÃ¨rement peu fiable. Il est recommandÃ© de sâ€™en tenir aux cinq entitÃ©s prÃ©dÃ©finies et aux appels numÃ©riques de caractÃ¨res, ou dâ€™utiliser un codage Unicode.

← article précédent – article suivant →

Les commentaires pour cet article sont fermés.

Comprendre les appels de caractÃ¨res

Les appels numÃ©riques de caractÃ¨res

La syntaxe

Le rÃ©pertoire de caractÃ¨res

Quelques erreurs courantes

ProblÃ¨mes de validation

Les appels dâ€™entitÃ©s de caractÃ¨res

Les appels dâ€™entitÃ©s prÃ©dÃ©finis pour XML

Les appels dâ€™entitÃ©s externes

RÃ©sumÃ©

Recherche

Articles récents

Archives

Traductions

Mini Zen Garden

Langues

Fils de nouvelles