Il Dizionario Informatico, © www.dizionarioinformatico.com

Riferimenti a caratteri in HTML

di Nicola Veleda

Solitamente un documento HTML viene scritto utilizzando il set di caratteri ASCII. Talvolta è necessario inserire caratteri che non sono definiti in ASCII, come ad esempio le lettere accentate à, è, ì, etc., e per questo viene utilizzato il set di caratteri ISO Latin-1.

Spesso invece si rende necessario inserire alcuni caratteri esterni al set di caratteri, come ad esempio la lettera greca beta (β) per le formule matematiche, caratteri grafici (•, ♥) e simboli commerciali (™, ©).

Un metodo poco semplice ed elegante è quello di utilizzare il set di caratteri Unicode, che comprende tutti i simboli di qualsiasi lingua mondiale; il problema sta nel fatto che si dovrà codificare ogni carattere in più byte, raddoppiando la dimensione del file e rendendo il codice sorgente poco comprensibile.

Un metodo migliore è quello fornito dai riferimenti a carattere, definiti nello standard SGML e quindi presenti anche in HTML: i caratteri esterni al set disponibile vengono codificati in due modi: riferimenti numerici e riferimenti ad entità.

Riferimenti numerici — specificano la posizione di codifica di un carattere, nell'insieme dei caratteri Unicode.
Al posto del carattere, si inserirà la sequenza "&#D;", dove D è la posizione di codifica espressa in numero decimale. Ad esempio, il carattere N verrà codificato con la sequenza N. Altri esempi:

  • ñ — n con tilde: ñ
  • € — simbolo dell'euro: €
  • 水 — simbolo cinese dell'acqua: 水

Riferimenti ad entità — specificano il nome simbolico di un carattere, in un insieme limitato definito nello standard SGML.
Al posto del carattere, si inserirà la sequenza "&nome;", dove nome è una stringa che referenzia il carattere. Ad esempio, il carattere verrà codificato con la sequenza €. Altri esempi:

  • ® — marchio registrato (registered sign): ®
  • λ — lettera greca lambda: λ
  • • — pallino (bullet): •

I riferimenti ad entità distinguono caratteri maiuscoli da quelli minuscoli, così È codifica il carattere 'È' mentre è codifica il carattere 'è'.

Esistono riferimenti ad entità carattere particolari, che dovrebbero essere utilizzati per codificare caratteri speciali in HTML, vale a dire i caratteri < e > che delimitano i tag, il carattere " che delimita le stringhe e il carattere & che introduce i riferimenti ad entità. Questi simboli, usati fuori dal loro contesto di caratteri speciali (ad esempio > come carattere matematico "maggiore di"), possono generare errori di codifica nei browser; per questo motivo i caratteri devono essere sostituiti con un riferimento:

  • < — minore di (lesser than): &#60; o &lt;
  • > — maggiore di (greater than): &#62; o &gt;
  • " — doppie virgolette (quotation mark): &#34; o &quot;
  • & — e commerciale (ampersand): &#38; o &amp;

È disponibile una tabella completa dei riferimenti ad entità caratteri definiti per HTML, in formato PDF.
Nota: alcuni riferimenti nella tabella si riferiscono a caratteri di spaziatura non visualizzabili, e per questo motivo vengono identificati con un quadrato tratteggiato. Questi caratteri sono:

  • &nbsp; — (no-break space) spazio di non interruzione — evita l'accapo automatico tra due caratteri spaziati
  • &ensp; — (en space) mezzo em space
  • &emsp; — (em space) spaziatura equivalente alla dimensione in punti del font
  • &thinsp; — (thin space) 1/5 di em space
  • &zwnj; — (zero width non-joiner) non-congiuntore di larghezza zero
  • &zwj; — (zero width joiner) congiuntore di larghezza zero
  • &lrm; — (left-to-right mark) segno da-sinistra-a-destra
  • &rlm; — (right-to-left mark) segno da-destra-a-sinistra

Bibliografia: W3C — Character entity references in HTML 4




© Copyright 1994 - 2024
www.dizionarioinformatico.com