Re: [typo] Unicode, Latin-1 et UTF-8

Archive Liste Typographie
Message : Re: [typo] Unicode, Latin-1 et UTF-8
(Marc Autret) - Vendredi 26 Septembre 2008

Navigation par date [ Précédent Index Suivant ]
Navigation par sujet [ Précédent Index Suivant ]

Subject:	Re: [typo] Unicode, Latin-1 et UTF-8
Date:	Fri, 26 Sep 2008 11:27:25 +0200 (CEST)
From:	Marc Autret <marcautret@xxxxxxx>

Pour simplifier, à l'attention de Pierre Walusinski:

- Unicode est un vaste ensemble de caractères, chacun adressé par un numéro unique;

- Latin-1 est un minuscule ensemble de caractères, chacun adressé par un numéro unique;

- Latin-1 est vu comme un sous-ensemble d'Unicode en ce sens que:
 a) tous les caractères du premier appartiennent au second,
 b) le numéro utilisé pour adresser un caractère commun est identique;

- UTF-8 n'est pas un ensemble de caractères mais un codage qui "comprime" intelligemment les numéros utilisés dans Unicode. Il permet ainsi d'adresser chacun des éléments de ce vaste ensemble en minimisant la consommation d'octets. Cela repose sur le fait que, dans nos contrées, nous utilisons plus volontiers les caractères de l'alphabet latin que, par exemple, les idéogrammes chinois ou les caractères syllabiques tibétains. Grosso modo, l'UTF-8 est un "format compressé" (sans perte d'information) pour les textes Unicode, un peu comme ZIP pour les fichiers ou TIF pour les images. Naturellement, il convient de le "décompresser" en sortie pour retrouver les étiquettes Unicode et donc les caractères en clair.

Une propriété amusante (et délibérée) du système UTF-8 est qu'il code les caractères portant les plus petits numéros (ceux de la zone dite Ascii) en utilisant un seul octet et que cet octet représente justement le code Ascii du caractère! Tant et si bien qu'un flux de codes UTF-8 qu'on afficherait tel quel (sans décodage) dans un vieil éditeur Ascii, conserverait intacts tous les caractères Ascii du message d'origine. En cela, UTF-8 est transparent pour l'Ascii. Ce qui fait que quand on récupère un flux non décodé dans un logiciel de messagerie, les lettres de notre alphabet minimal passent sans problème mais de drôles de zigouigouis apparaissent en lieu et place des caractères accentués, diacritiques, etc.

Pour info, l'algorithme UTF-8 est expliqué ici: http://fr.wikipedia.org/wiki/UTF-8

Post scriptum: ce qu'on appelle ici un "caractère" est tout à fait abstrait pour Unicode, qui ne s'occupe absolument pas de la fonte avec laquelle on va le dessiner. L'exposé se poserait sans doute dans des termes identiques si Unicode avait vocation à décrire un ensemble d'insectes, de pommes de terre ou d'êtres humains. Mais la particularité des caractères est qu'ils se manifestent généralement sous la forme de séquences (les textes) avec des éléments plus récurrents que d'autres, ce qui rend le codage UTF-8 très appréciable. 


Marc Autret 

----- Mail Original -----
De: "Pierre Walusinski" <pierre@xxxxxxxxxxxxxx>
À: typographie@xxxxxxxxxxxxxxx
Envoyé: Vendredi 26 Septembre 2008 09:44:44 GMT +01:00 Amsterdam / Berlin / Berne / Rome / Stockholm / Vienne
Objet: Re: [typo] Quels points de suspension ? 

j'aime bien lire cette conversation…
quand on se dit savoir deux trois trucs sur la typo, et que tout d'un  
coup des gens que vous croyiez comprendre se mettent à parler chinois !
à moins que ce soit informatique: je comprend les mots mais aucun  
sens concret ne s'en dégage.
C'est amusant.

Re: [typo] Unicode, Latin-1 et UTF-8, Marc Autret <=

Re: [typo] Unicode, Latin-1 et UTF-8, Andrew Brown (26/09/2008)

Re: [typo] Unicode, Latin-1 et UTF-8, Pierre Marchand (26/09/2008)

<Possible follow-ups>

Re: [typo] Unicode, Latin-1 et UTF-8, Marc Autret (26/09/2008)