Archive Liste Typographie
Message : Les différences essentielles entre Unicode et l'ISO/CEI 10646

(Alain LaBonté ) - Dimanche 05 Mars 2000
Navigation par date [ Précédent    Index    Suivant ]
Navigation par sujet [ Précédent    Index    Suivant ]

Subject:    Les différences essentielles entre Unicode et l'ISO/CEI 10646
Date:    Sun, 05 Mar 2000 14:49:36 -0500
From:    Alain LaBonté  <alb@xxxxxxxxxxxxxx>

À 19:15 2000-03-05 +0100, Yves Maniette a écrit:
Alain LaBonté:
>     La norme internationale ISO/CEI 10646-1 est intitulée : « Jeu universel
> de caractères codés sur plusieurs octets ». Ce jeu offre simultanément un
> soutien de toutes les langues vivantes du monde et sera sans doute la norme
> du siècle à venir pour la communication sur Internet... La norme est prête [...]

Quelques questions:

- cette norme est-elle la même chose que Unicode?

[Alain]  À peu de choses près, oui. Le standard Unicode est plus contraignant.

[Yves]
- si non, en quoi diffèrent la norme ISO/CEI 10646-1 et Unicode?

La norme ISO/CEI 10646 est :
-une Norme internationale (avec un grand N,
  seule l'ISO a le droit d'y prétendre dans le monde)
-qui prévoit :
  -un codage sur 16 bits ou sur 32 bits
  -des « formats transformés » pour compatibilité avec les
    dispositifs de transmission existants
  -trois niveaux de conformité pour la représentation
    interne des caractères :
      1- pas de composition de caractères (tous les caractères
         pleinement formés au lieu de comprendre des caractères de
         base suivis de diacritiques) -- cela exclut plusieurs langues
         mais simplifie la vie des langages de programmation pour
         toutes les langues occidentales sans exception
         (et pour les langues qui n'ont pas besoin de composition
          [comme toutes les langues d'EXtrême-Orient])
      2- la composition de certrains caractères, mais pas tous (niveau
          obscur, pas assez réfléchi ; sera peu utilisé à mon avis)
      3- le mélange de la technique de composition avec
         la possibilité de coder des caractères pleinement formés
  -une ouverture totale sur l'utilisation des caractères (pas de
     forme canonique, pas d'équivalence entre caractères composés
     et caractères pleinement formés)
  - le soutien éventuel des langues mortes en plus de toutes les langues
     vivantes
  -des possibilités de dévelopmment à toutes fins utiles illimitées
   (éventuellent jusqu'à 2 milliards de caractères distincts)

Unicode prévoit :
  - un codage exclusivement sur 16 bits ;
  - un format transformé pour permettre l'accès à
     au plus un million de caractères du codage à 32 bits de
     la 10646 (c'est considéré comme amplement suffisant sur
     le plan commercial prévisible même à long terme)
  - une forme canonique, prévoyant l'équivalence « normative »
     de caractères précomposés ou formés dans un ordre prescrit
     à l'avance à partir d'un caractère de base et de diacritiques
  - des méthodes de présentation rigides (on ne peut y déroger)
  - en parallèle, divers autres modes de traitement et de présentation
    fermés (l'avantage, c'est que l'implantation est rigoureusement
    prévisible) ; notamment ce standard est directement lié à une
    méthode de classement qui constitue un « delta » encadré de la Norme
    internationale ISO/CEI 10651 (dont je suis le rédacteur).

   Voilà, ce sont les différences essentielles, mais le codage est essentiellement le même. Ce qui est conforme à Unicode est conforme à la Norme internationale (l'inverse n'étant pas nécessairement vrai).

[Yves]
- Unicode est-il une norme?

[Alain]  Stricto sensu, c'est un standard, donc une norme « privée ». Lors d'un débat récent, on a conclu que la normalisation était un processus qui comprenait aussi l'élaboration de standards. Un standard est donc d'une certaine façon un objet de normalisation, mais une « norme » est plus qu'un standard, elle est de portée plus générale. Enfin, la différence est relativement floue, semble-t-il... Mais l'usage tend à distinguer les « standards » des « normes » en bonne et due forme (l'anglais a la même hésitation et se sent obligé de parler de « de jure standards » [normes] et de « de facto standards » [standards]... Quant aux « Normes internationales », la seule autorité à avoir le droit d'utiliser ce terme est l'ISO, l'Organisation internationale de normalisation, et ce, par entente des grandes organisations internationales entre elles (OMC, ONU, UIT, etc.) Cela a son importance, puisque quand on parle de N.I. à l'OMC dans le cadre du commerce mondial, on ne se réfère pas à n'importe quel standard. En ce sens l'ISO/CEI 10646 légitime le standard Unicode. C'est le cas pour beaucoup d'autres standards importants.

[Yves]
- j'entends parler parfois, en français, du «standard Unicode». Qu'est
ce qu'un «standard»? pour moi «standard» est le mot qui en anglais
correspond au francais «norme», mais j'ai des doutes. On parle bien
souvent de «standard» au sujet des fichiers .doc, or il n'y a rien de
moins logique ni moins compréhensible que ces trucs-là! parfois j'ai
l'impression que «standard» en français signifierait quelque chose
comme: «cette année votre machine peut le lire, mais l'an prochain elle
ne le pourra plus, il faudra acheter la nouvelle version "standard" du
logiciel!» NB: les fichiers .tex ou .dvi d'il y a quinze ans sont encore
lisibles par les ordinateurs d'aujourd'hui et ils les reproduisent à
l'identique!

[Alain]  Je n'aurais pu exprimer cela mieux... Un standard c'est comme des spaghettis qu'on lance sur un mur... Pendant un certain temps, ils colleront, et on s'y fiera. S'ils ne collent pas, on les oubliera. Un standard dépend donc de l'air du temps, du marketing, et non d'une volonté planifiée de consensus... La norme fera du dessin formé sur le mur à un moment donné un « Riopelle », en consolidant le tout au consensus, en plastifiant le dessin...

   Une Norme internationale, c'est en principe un « Riopelle » planifié, c'est-à-dire que tous les spaghettis ne seront pas lancés subitement sur le mur, ils y seront soigneusement déposés un à un, et on décidera qu'il s'agit d'une Norme internationale quand 75 % des pays participants à un projet seront d'accord... On s'empressera même de satisfaire ceux qui ont des caprices particuliers et qui ne sont pas encore d'accord, avant publication, dans toute la mesure du possible. La facture d'une Norme internationale est plus impartiale, mais c'est aussi un sentier beaucoup plus difficile.

[Yves]
- UTF7 et UFT8 ont-ils à voir avec tout cela? en quoi diffèrent-ils? Ou
sont-ce deux «standards» au sens du paragraphe précédent, c'est à dire
des trucs dont il faut se méfier comme de la peste?

[Alain]  UTF-8 est un « format transformé » normalisé dans la norme ISO/CEI 10646-1 qui décortique chaque morceau du code complet à 32 bits en morceaux de huit bits, dont chacun peut passer la rampe des dispositifs de transmission à huit bits les plus capricieux (certaines combinaisons de 8 bits peuvent ne pas franchir cette frontière notramment les combinaisons correspondant aux caractères de commande). L'UTF-8 élimine cette restriction en réduisant les combinaisons d'octets utilisées.

   UTF-16 est un « format transformé »(*), lui aussi normalisé dans la norme ISO/CEI 10646, qui permet l'accès à 16 plans seulement du codage à 32 bits (1 million de caractères au lieu de 2 milliards). Essentiellement créé pour sortir le standard Unicode de l'impasse (initialement le standard Unicode était limité à 64 000 caractères, or il est vite apparu que c'était insuffisant pour tous les caractères han, par exemple, ce qui vous intéressera particulièrement), ce qu'il réussit à faire, mais ne passe pas la barrière décrite ci-avant pour les dispositifs frileux de transmission.

   UTF-7 est un « format transformé » non normalisé (mais permis sur Internet) pour franchir la barrière archaïque des dispositifs en voie de disparition qui ne permettent pas autre chose que le passage sûr de 7 bits par octet (gaspil de 16 % de l'information possible sur un octet de 8 bits). J'y vois peu d'avenir.

   UTF-32 est un *faux* « format transformé », non normalisé, défini par le consortium Unicode qui limite le codage à 32 bits au répertoire permis par UTF-16, et donc par le standard Unicode. C'est une garantie que le codage à 32 bits utilisé est compatible à Unicode.

   UTF-8 est la tendance actuelle, le meilleur compromis, pour tous les protocoles de communication présents et à venir pour un Internet « internationalisé » et « localisable ». Ce format permet sans restriction le codage de tout le répertoire présent et à venir du jeu universel de caractères (ISO/CEI 10646), et donc d'Unicode. Son traitement est toutefois moins simple que le code natif à 32 bits. C'est un format intermédiaire qui sera utile surtout en transmission.

[Yves]
 Merci bien à l'avance!

 --
 Yves Maniette
 Les kanji dans la tete: http://maniette.com
 Le portail des copains: http://rezo.net

[Alain]  Il n'y a pas de quoi !

Alain LaBonté
Charlesbourg

(*) : En anglais : UCS Transformation Format. Terme qui est apparu intraduisible mot à mot, et dont les anglophones (dont le rédacteur actuel de la norme, un Britannique qui a hérité du terme) ont dû admettre qu'il ne voulait rien de précis, après qu'on leur ait soumis le problème... En fait on aurait dû appeler cela « UCS Transformed Format ». En français, on a rectifié. UCS signifie :  Universal [Multi-octet coded] Character Set, en français JUC, pour « Jeu universel de caractères »[codés sur plusieurs octets -- noter la désambiguïsation du titre en français, ce sont les caractères qui sont chacun codés sur plusieurs octets, pas le jeu de caractères].

Extraits du petit Larousse

standard nom masculin
1.
Règle fixée à l'intérieur d'une entreprise pour caractériser un produit, une méthode de travail, une quantité à produire, etc.
[...]
4.
[INFORM., AUDIOVIS. ] Norme de production, de fabrication.

norme nom féminin
(lat. norma , équerre, règle)
[...]
3.
[TECHN. ]
Règle fixant les conditions de réalisation d'une opération, de l'exécution d'un objet ou de l'élaboration d'un produit dont on veut unifier l'emploi ou assurer l'interchangeabilité. Une norme ISO.
[...]

Jean-Paul Riopelle
Montréal 1923
Peintre canadien.
¾Il pratique un art non figuratif lyrique ou paysagiste.