Archive Liste Typographie
Message : Re: [typo] Quels points de suspension ?

(Serge Paccalin) - Vendredi 26 Septembre 2008
Navigation par date [ Précédent    Index    Suivant ]
Navigation par sujet [ Précédent    Index    Suivant ]

Subject:    Re: [typo] Quels points de suspension ?
Date:    Fri, 26 Sep 2008 07:37:37 +0200
From:    Serge Paccalin <sp@xxxxxxxxxxxx>

Le jeudi 25 septembre 2008 22:08:39, Jacques André a écrit à
typographie@xxxxxxxxxxxxxxx (dans "[typo] Quels points de suspension ?
"):

> codage normalisé latin-1 dont on peut dire d'ailleurs que c'est un  
> sous-ensemble de utf-8 

Non, on ne peut pas dire ça, parce qu'UTF-8 recode les points de code
Unicode sur un à quatre octets selon leur position ; ceux de latin-1
sont recodés sur deux octets et diffèrent donc de leur valeur codée en
latin-1 (un octet). Latin-1 est un sous-ensemble d'Unicode, mais pas
d'UTF-8.

Par exemple, « é » (e accent aigu, U+00E9) est l'octet 0xe9 si on
transmet en latin-1, mais la paire 0xc3, 0xa9 si on transmet en UTF-8.
Si on interprète de l'UTF-8 comme du latin-1, on verra « Ã© » (A tilde,
copyright) au lieu de « é » (e accent aigu).

D'autre part, je reviens sur Quoted-Printable, évoqué par ailleurs. QP
se superpose à tout ça pour « asciifier » la transmission : pour éviter
de transmettre un octet supérieur à 128, on transmet une chaîne de trois
caractères ASCII (donc trois octets inférieurs à 127), composée d'un
signe égal et des deux chiffres hexa de la valeur de l'octet.

Par exemple, « é » (e accent aigu, U+00E9) devient la chaîne "=E9"
(0x3d, 0x45, 0x39) si on transmet en latin-1 + QP, et la chaîne "=C3=A9"
(0x3d, 0x43, 0x33, 0x3d, 0x41, 0x39) si on transmet en UTF-8 + QP.

-- 
  ___________   
_/ _ \_`_`_`_)  Serge PACCALIN
 \  \_L_)   serge tiret nospam arrobe paccalin point info
   -'(__)   Il faut donc que les hommes commencent par n'être pas 
_/___(_)    fanatiques pour mériter la tolérance. -- Voltaire, 1763