Il Dizionario Informatico, © www.dizionarioinformatico.com

Riferimenti a caratteri in HTML

di Nicola Veleda

Solitamente un documento HTML viene scritto utilizzando il set di caratteri ASCII. Talvolta è necessario inserire caratteri che non sono definiti in ASCII, come ad esempio le lettere accentate à, è, ì, etc., e per questo viene utilizzato il set di caratteri ISO Latin-1.

Spesso invece si rende necessario inserire alcuni caratteri esterni al set di caratteri, come ad esempio la lettera greca beta (β) per le formule matematiche, caratteri grafici (•, ♥) e simboli commerciali (™, ©).

Un metodo poco semplice ed elegante è quello di utilizzare il set di caratteri Unicode, che comprende tutti i simboli di qualsiasi lingua mondiale; il problema sta nel fatto che si dovrà codificare ogni carattere in più byte, raddoppiando la dimensione del file e rendendo il codice sorgente poco comprensibile.

Un metodo migliore è quello fornito dai riferimenti a carattere, definiti nello standard SGML e quindi presenti anche in HTML: i caratteri esterni al set disponibile vengono codificati in due modi: riferimenti numerici e riferimenti ad entità.

Riferimenti numerici — specificano la posizione di codifica di un carattere, nell'insieme dei caratteri Unicode.
Al posto del carattere, si inserirà la sequenza "&#D;", dove D è la posizione di codifica espressa in numero decimale. Ad esempio, il carattere N verrà codificato con la sequenza N. Altri esempi:

ñ — n con tilde: ñ
€ — simbolo dell'euro: €
水 — simbolo cinese dell'acqua: 水

Riferimenti ad entità — specificano il nome simbolico di un carattere, in un insieme limitato definito nello standard SGML.
Al posto del carattere, si inserirà la sequenza "&nome;", dove nome è una stringa che referenzia il carattere. Ad esempio, il carattere € verrà codificato con la sequenza €. Altri esempi:

® — marchio registrato (registered sign): ®
λ — lettera greca lambda: λ
• — pallino (bullet): •

I riferimenti ad entità distinguono caratteri maiuscoli da quelli minuscoli, così È codifica il carattere 'È' mentre è codifica il carattere 'è'.

Esistono riferimenti ad entità carattere particolari, che dovrebbero essere utilizzati per codificare caratteri speciali in HTML, vale a dire i caratteri < e > che delimitano i tag, il carattere " che delimita le stringhe e il carattere & che introduce i riferimenti ad entità. Questi simboli, usati fuori dal loro contesto di caratteri speciali (ad esempio > come carattere matematico "maggiore di"), possono generare errori di codifica nei browser; per questo motivo i caratteri devono essere sostituiti con un riferimento:

< — minore di (lesser than): < o <
> — maggiore di (greater than): > o >
" — doppie virgolette (quotation mark): " o "
& — e commerciale (ampersand): & o &

È disponibile una tabella completa dei riferimenti ad entità caratteri definiti per HTML, in formato PDF.
Nota: alcuni riferimenti nella tabella si riferiscono a caratteri di spaziatura non visualizzabili, e per questo motivo vengono identificati con un quadrato tratteggiato. Questi caratteri sono:

  — (no-break space) spazio di non interruzione — evita l'accapo automatico tra due caratteri spaziati
&ensp; — (en space) mezzo em space
&emsp; — (em space) spaziatura equivalente alla dimensione in punti del font
  — (thin space) 1/5 di em space
&zwnj; — (zero width non-joiner) non-congiuntore di larghezza zero
&zwj; — (zero width joiner) congiuntore di larghezza zero
&lrm; — (left-to-right mark) segno da-sinistra-a-destra
&rlm; — (right-to-left mark) segno da-destra-a-sinistra

Bibliografia: W3C — Character entity references in HTML 4