Archive Liste Typographie
Message : Qu'est-ce que l'ASCII (bis) et courriel de l'avenir (Alain LaBonté ) - Vendredi 27 Novembre 1998 |
Navigation par date [ Précédent Index Suivant ] Navigation par sujet [ Précédent Index Suivant ] |
Subject: | Qu'est-ce que l'ASCII (bis) et courriel de l'avenir |
Date: | Fri, 27 Nov 1998 08:35:23 -0600 |
From: | Alain LaBonté <alb@xxxxxxxxxxxxxx> |
Quelques précisions au texte autrement juste de Jacques André : A 08:53 98-11-27 +0100, Jacques Andre a écrit : >Sous le mot ASCII se cachent au moins quatre choses : >1) le véritable Ascii devenu norme ISO-646 (et il faudrait ne parler que >de ça), codage à 7 moments comme on disait alors. [Alain] Il serait plus juste de dire que l'ASCII constitue depuis 1990/1991 la *version de référence internationale* (IRV) *de* la norme ISO/CEI 646. Cette norme permet d'autres versions nationales (dont, par exemple, le code à 7 bits utilisé sur Minitel, qui comporte 10 caractères nationaux [il ne peut y avoir plus de 10 caractères d'écart] : éàèùâêîôûç), caractères qui ne sont pas identiques au code ASCII et qui obligent à sacrifier d'autres caractères. Avant 1991, l'IRV était légèrement différent de l'ASCII. C'est la glastnost et la pérestroïka en URSS qui ont sonné le glas de cet ancien IRV, qui était différent pour des raisons purement politiques. [Jacques] >[...] >J'aurais envie de dire que c'est inutile ici (FAQ guillemets) de citer à >la fois le code Ascii et >le code Unicode/10646 puisque Unicode commence par le code Ascii. [Alain] Bien que je partage parfaitement l'avis de Jacques et que j'aille plus loin sur la nécessité de se débarrasser à tout jamais de toute référence aux infernaux codes à 7 bits (donc à l'ASCII), les premiers 128 caractères d'Unicode *ne sont pas* exactement de l'ASCII malgré les apparences. Ils produisent en principe les mêmes résultats que l'ASCII sur papier, mais le code en est un de 16 bits, avec un octet à 0 devant un bit à 0 suivi des 7 autres bits calqués du code ASCII. Par contre sous la méthode de codage UTF-8 (série variable d'octets à 8 bits pour exprimer [de manière structurellement compatible avec les environnements à 8 bits existants] tout Unicode et plus généralement le jeu universel de caractères [JUC] à 16 ou à 32 bits), l'ASCII est transparent. C'est le seul code qui ne nécessite aucune conversion (; Donc le monde anglo-saxon ne souffrira pas du tout avec UTF-8 mais le reste du monde, oui. C'est, malgré cette constatation, l'approche la plus pragmatique pour implanter Unicode et le JUC sur les réseaux, et surtout sur Internet. L'UTF-8 (un « format transformé » sur des multiplets de 8 bits du jeu « universel » de caractères) est la tendance suivie par les standards Internet à l'heure actuelle. Implicitement, à partir de janvier 1999, si les dogmes sont suivis, tous ceux qui produisent de nouveaux logiciels de courrier électronique devraient faire en sorte que les en-têtes de courrier (champs « Subject », « To », « From », etc.), puissent être codés en UTF-8 et décodés correctement, sous peine d'excommunication (je crois que cela prendra un peu plus de temps dans la réalité, car tous ne s'achèteront pas une nouvelle version dès janvier, mais ça commence à poindre ; dans trois ans ce sera chose faite, à mon humble avis, ce qui ne rendra pas désuets les autres codages normalisés [beaucoup plus efficaces et moins sujets aux bogues qu'UTF-8] pour autant -- d'où la nécesssité des balises MIME et d'une certaine flexibilité des logiciels). En français, pour ceux qui se posent la question, 3 % des caractères *souffriront* du passage de tout code à 8 bits à l'UTF-8... ces caractères devront être codés sur une série de deux octets par caractère... ce sont tous les caractères qui vont au-delà de l'ASCII, tous nos caractères accentués, les guillemets français, nos digrammes soudés æ et ? (<oe>), notre ç, et tous les autres signes typographiques auxquels nous sommes habitués... Ce chiffre de 3 % me vient de quelques petites études que j'ai faites pour mon édification personnelle, dans le but de déterminer d'abord et avant tout le coût du passage à UTF-8 en termes de stockage ou d'utilisation de la bande passante. 3 %, c'est un des coûts matériels à payer, une taxe de passage, payable en nature (; L'UTF-8 demeure une béquille, car c'est un code de longueur variable (en nombre de bits par caractère), infiniment plus sujet aux bogues que les codes de longueur fixe. Mais pour marcher, parfois on peut avoir besoin de béquilles. (: Alain LaBonté Québec
- Re: FAQ Guillemets-Apostrophes, (continued)
- Re: FAQ Guillemets-Apostrophes, Philippe JALLON (27/11/1998)
- Re: FAQ Guillemets-Apostrophes, Jacques Andre (27/11/1998)
- Re: FAQ Guillemets-Apostrophes, Philippe JALLON (27/11/1998)
- Qu'est-ce que l'ASCII (bis) et courriel de l'avenir, Alain LaBonté <=
- Re: Qu'est-ce que l'ASCII (bis) et courriel de l'avenir, Thierry Bouche (27/11/1998)
- Re: Qu'est-ce que l'ASCII (bis) et courriel de l'avenir, Alain LaBonté (27/11/1998)
- Re: Qu'est-ce que l'ASCII (bis) et courriel de l'avenir, Olivier RANDIER (28/11/1998)
Re: FAQ Guillemets-Apostrophes, Thierry Bouche (27/11/1998) Re: FAQ Guillemets-Apostrophes, Patrick Cazaux (26/11/1998) Re: FAQ Guillemets-Apostrophes, Leraillez Benoit (26/11/1998) Re: FAQ Guillemets-Apostrophes, Patrick Cazaux (26/11/1998)