Archive Liste Typographie
Message : ISO/CEI 10646 et UNICODE : un peu de vulgarisation

(Alain LaBonté ) - Jeudi 15 Janvier 1998
Navigation par date [ Précédent    Index    Suivant ]
Navigation par sujet [ Précédent    Index    Suivant ]

Subject:    ISO/CEI 10646 et UNICODE : un peu de vulgarisation
Date:    Thu, 15 Jan 1998 09:33:53 -0500
From:    Alain LaBonté  <alb@xxxxxxxxx>

A 04:19 15/01/98 +0100, Olivier RANDIER a écrit :
>>>&>    From: Alain LaBonté  <alb@xxxxxxxxxxxxxx>
>>>&>    To: Eric Angelini <keynews.tv@xxxxxxxxx>, jfontain@xxxxxxxxxxx
>>>&>    Subject: Re: Ordre alphabétique
>>>
>>Qu'il me soit permis de dire, sur le premier sujet que j'aie vu, que même
>>le braille a fait l'objet d'un long débat, très controversé, dans l'ISO/CEI
>>10646 (JUC ou jeu universel de caractères, dont UNICODE est un
>>sous-ensemble).

[Olivier] :
>Unicode, un sous-ensemble ? Mazette, ça doit être monstrueux, c't'affaire ;-)

[Alain] :
UNICODE étant au départ un code fixé à 16 bits, et il ne prévoyait grosso
modo qu'un maximum de 65 536 caractères (dont environ 40 000 étaient codés
dès le premier jet), la grande majorité pour le chinois [dont le
dictionnaire le plus complet comporte environ 70 000 caractères distincts]).

L'ISO/CEI 10646 existe en deux versions : 16 bits (en pratique identique à
UNICODE en ce qui concerne les tables, légèrement différent dans les
modalités d'implantation), et 32 bits (potentiel 32 768 « plans » de 65 536
caractères chacun, le premier plan [plan 0] coïncidant avec UNICODE).

Le consortium UNICODE était bien embêté parce que l'on s'est rendu compte
que 16 bits ne seraient pas suffisants... on a donc inventé le concept des
« substituts » (en anglais : « surrogates ») ou des « paires-substituts »
(en anglais : « surrogate pairs ») : UNICODE réserve un certain nombre de
faux-codes de caractères dans sa table, codes qui, s'ils sont présents dans
un flot de données, indiquent que l'élément de 16 bits qui suit (le 2e
élément de la paire) donne accès à 65 536 caractères de plus tirés de
l'ISO/CEI 10646... malheureusement, avec ce système, on ne pourra coder un
espace de plus d'environ 1 million de caractères distincts (mais en
pratique, on s'entend à ce jour pour dire que l'on n'aura pas besoin
d'aller plus loin ; on ne croit pas rencontrer de si tôt une civilisation
extraterrestre, me dis-je, c'est une vision étroite de l'univers, puisque
le JUC [ISO/CEI 10646] est *le* jeu universel de caractères, donc très
ambitieux!) Cette méthode utilise un format de codage appelé UTF-16, dont
la désignation anglaise est d'une ambiguïté à vous casser les bras
(Universal Transformation Format, mais on ne sait pas le rapport qu'il y a
entre les mots « transformation » et « format », alors le français a dû
choisir « format transformé universel » [les spécialistes croyaient tous
comprendre, comme c'est l'habitude en anglais dans ce genre d'expression,
mais ils comprennent différentes choses si on leur pose la question], un
autre exemple qui démonte bien que pour la technique, l'anglais ne devrait
pas être la langue de choix [fin de la parenthèse (; ]).

[Olivier] :
>Cela dit, j'aimerais beaucoup avoir des détails là-dessus, pour savoir si
>je dois rajouter une rubrique dans ma base (j'ai déjà noté qu'il me faudra
>en rajouter une pour les critères de tri selon les langues). Y a-t-il un
>endroit où on peut récupérer une liste des signes et des codes ISO/CEI
>10646 ?

[Alain] :
La norme comporte un © qui en rend *pour l'instant* légalement difficile la
reproduction gratuite. La liste des noms de caractères (avec certains
glyphes si l'on dispose d'un fureteur approprié, dont Tango) et du codage
de la version actuelle (excluant le chinois et le hangoul coréen) est
toutefois documentée en français sur le site d'Alis Technologies à
l'adresse http://babel.alis.com:8080/codage/iso10646/index.html

Cette liste n'inclut toutefois pas les nombreux amendements (ajouts de
caractères, et un seul changement embêtant, celui du hangoul coréen) qui
ont été adoptés ou soumis depuis 1993 (dont le braille). L'on prévoit
cristalliser une nouvelle version en mars de cette année pour
republication. La version française, inédite, va jusqu'à l'amendement 4
(elle est donc en avance sur la version anglaise publiée il y a quelques
années) pour l'instant mais l'on tente de synchroniser sa publication avec
la republication de la version anglaise.

Il est question que l'on rende publique la version anglaise... la société
Internet a demandé (quasi exigé, en fait) cette faveur à l'ISO (et il y a
des précédents pour certaines normes stratégiques, donc il y a de
l'espoir). Si cela se fait, l'on pourra très probablement faire pareil en
français.

On peut aussi se procurer la version anglaise du jeu de caractères UNICODE
(au même niveau que la version française inédite, plus le codage nouveau du
hangoul coréen) par l'intermédiaire du consortium UNICODE lui-même
(publication chez Addison-Wesley), à une fraction du prix actuel de la
norme ISO. Le livre est offert avec un cédérom documentant plusieurs tables
utiles aux développeurs.

Alain LaBonté
Québec