Archive Liste Typographie
Message : Qu'est-ce que l'ASCII (bis) et courriel de l'avenir

(Alain LaBonté ) - Vendredi 27 Novembre 1998
Navigation par date [ Précédent    Index    Suivant ]
Navigation par sujet [ Précédent    Index    Suivant ]

Subject:    Qu'est-ce que l'ASCII (bis) et courriel de l'avenir
Date:    Fri, 27 Nov 1998 08:35:23 -0600
From:    Alain LaBonté  <alb@xxxxxxxxxxxxxx>

   Quelques précisions au texte autrement juste de Jacques André :

A 08:53 98-11-27 +0100, Jacques Andre a écrit :
>Sous le mot ASCII se cachent au moins quatre choses : 
>1) le véritable Ascii devenu norme ISO-646 (et il faudrait ne parler que
>de ça), codage à 7 moments comme on disait alors.

   [Alain]
   Il serait plus juste de dire que l'ASCII constitue depuis 1990/1991 la
*version de référence internationale* (IRV) *de* la norme ISO/CEI 646.
Cette norme permet d'autres versions nationales (dont, par exemple, le code
à 7 bits utilisé sur Minitel, qui comporte 10 caractères nationaux [il ne
peut y avoir plus de 10 caractères d'écart] : éàèùâêîôûç), caractères qui
ne sont pas identiques au code ASCII et qui obligent à sacrifier d'autres
caractères. 

   Avant 1991, l'IRV était légèrement différent de l'ASCII. C'est la
glastnost et la pérestroïka en URSS qui ont sonné le glas de cet ancien
IRV, qui était différent pour des raisons purement politiques.

[Jacques]
>[...]
>J'aurais envie de dire que c'est inutile ici (FAQ guillemets) de citer à
>la fois le code Ascii et
>le code Unicode/10646 puisque Unicode commence par le code Ascii.

   [Alain]
   Bien que je partage parfaitement l'avis de Jacques et que j'aille plus
loin sur la nécessité de se débarrasser à tout jamais de toute référence
aux infernaux codes à 7 bits (donc à l'ASCII), les premiers 128 caractères
d'Unicode *ne sont pas* exactement de l'ASCII malgré les apparences. Ils
produisent en principe les mêmes résultats que l'ASCII sur papier, mais le
code en est un de 16 bits, avec un octet à 0 devant un bit à 0 suivi des 7
autres bits calqués du code ASCII.

   Par contre sous la méthode de codage UTF-8 (série variable d'octets à 8
bits pour exprimer [de manière structurellement compatible avec les
environnements à 8 bits existants] tout Unicode et plus généralement le jeu
universel de caractères [JUC] à 16 ou à 32 bits), l'ASCII est transparent.
C'est le seul code qui ne nécessite aucune conversion (; Donc le monde
anglo-saxon ne souffrira pas du tout avec UTF-8 mais le reste du monde,
oui. C'est, malgré cette constatation, l'approche la plus pragmatique pour
implanter Unicode et le JUC sur les réseaux, et surtout sur Internet.

   L'UTF-8 (un « format transformé » sur des multiplets de 8 bits du jeu
« universel » de caractères) est la tendance suivie par les standards
Internet à l'heure actuelle. Implicitement, à partir de janvier 1999, si
les dogmes sont suivis, tous ceux qui produisent de nouveaux logiciels de
courrier électronique devraient faire en sorte que les en-têtes de courrier
(champs « Subject », « To », « From », etc.), puissent être codés en UTF-8
et décodés correctement, sous peine d'excommunication (je crois que cela
prendra un peu plus de temps dans la réalité, car tous ne s'achèteront pas
une nouvelle version dès janvier, mais ça commence à poindre ; dans trois
ans ce sera chose faite, à mon humble avis, ce qui ne rendra pas désuets
les autres codages normalisés [beaucoup plus efficaces et moins sujets aux
bogues qu'UTF-8] pour autant -- d'où la nécesssité des balises MIME et
d'une certaine flexibilité des logiciels).

   En français, pour ceux qui se posent la question, 3 % des caractères
*souffriront* du passage de tout code à 8 bits à l'UTF-8... ces caractères
devront être codés sur une série de deux octets par caractère... ce sont
tous les caractères qui vont au-delà de l'ASCII, tous nos caractères
accentués, les guillemets français, nos digrammes soudés æ et ? (<oe>),
notre ç, et tous les autres signes typographiques auxquels nous sommes
habitués... Ce chiffre de 3 % me vient de quelques petites études que j'ai
faites pour mon édification personnelle, dans le but de déterminer d'abord
et avant tout le coût du passage à UTF-8 en termes de stockage ou
d'utilisation de la bande passante. 3 %, c'est un des coûts matériels à
payer, une taxe de passage, payable en nature (;

   L'UTF-8 demeure une béquille, car c'est un code de longueur variable (en
nombre de bits par caractère), infiniment plus sujet aux bogues que les
codes de longueur fixe. Mais pour marcher, parfois on peut avoir besoin de
béquilles. (:

Alain LaBonté
Québec