Archive Liste Typographie
Message : ISO/CEI 10646 et UNICODE : un peu de vulgarisation (Alain LaBonté ) - Jeudi 15 Janvier 1998 |
Navigation par date [ Précédent Index Suivant ] Navigation par sujet [ Précédent Index Suivant ] |
Subject: | ISO/CEI 10646 et UNICODE : un peu de vulgarisation |
Date: | Thu, 15 Jan 1998 09:33:53 -0500 |
From: | Alain LaBonté <alb@xxxxxxxxx> |
A 04:19 15/01/98 +0100, Olivier RANDIER a écrit : >>>&> From: Alain LaBonté <alb@xxxxxxxxxxxxxx> >>>&> To: Eric Angelini <keynews.tv@xxxxxxxxx>, jfontain@xxxxxxxxxxx >>>&> Subject: Re: Ordre alphabétique >>> >>Qu'il me soit permis de dire, sur le premier sujet que j'aie vu, que même >>le braille a fait l'objet d'un long débat, très controversé, dans l'ISO/CEI >>10646 (JUC ou jeu universel de caractères, dont UNICODE est un >>sous-ensemble). [Olivier] : >Unicode, un sous-ensemble ? Mazette, ça doit être monstrueux, c't'affaire ;-) [Alain] : UNICODE étant au départ un code fixé à 16 bits, et il ne prévoyait grosso modo qu'un maximum de 65 536 caractères (dont environ 40 000 étaient codés dès le premier jet), la grande majorité pour le chinois [dont le dictionnaire le plus complet comporte environ 70 000 caractères distincts]). L'ISO/CEI 10646 existe en deux versions : 16 bits (en pratique identique à UNICODE en ce qui concerne les tables, légèrement différent dans les modalités d'implantation), et 32 bits (potentiel 32 768 « plans » de 65 536 caractères chacun, le premier plan [plan 0] coïncidant avec UNICODE). Le consortium UNICODE était bien embêté parce que l'on s'est rendu compte que 16 bits ne seraient pas suffisants... on a donc inventé le concept des « substituts » (en anglais : « surrogates ») ou des « paires-substituts » (en anglais : « surrogate pairs ») : UNICODE réserve un certain nombre de faux-codes de caractères dans sa table, codes qui, s'ils sont présents dans un flot de données, indiquent que l'élément de 16 bits qui suit (le 2e élément de la paire) donne accès à 65 536 caractères de plus tirés de l'ISO/CEI 10646... malheureusement, avec ce système, on ne pourra coder un espace de plus d'environ 1 million de caractères distincts (mais en pratique, on s'entend à ce jour pour dire que l'on n'aura pas besoin d'aller plus loin ; on ne croit pas rencontrer de si tôt une civilisation extraterrestre, me dis-je, c'est une vision étroite de l'univers, puisque le JUC [ISO/CEI 10646] est *le* jeu universel de caractères, donc très ambitieux!) Cette méthode utilise un format de codage appelé UTF-16, dont la désignation anglaise est d'une ambiguïté à vous casser les bras (Universal Transformation Format, mais on ne sait pas le rapport qu'il y a entre les mots « transformation » et « format », alors le français a dû choisir « format transformé universel » [les spécialistes croyaient tous comprendre, comme c'est l'habitude en anglais dans ce genre d'expression, mais ils comprennent différentes choses si on leur pose la question], un autre exemple qui démonte bien que pour la technique, l'anglais ne devrait pas être la langue de choix [fin de la parenthèse (; ]). [Olivier] : >Cela dit, j'aimerais beaucoup avoir des détails là-dessus, pour savoir si >je dois rajouter une rubrique dans ma base (j'ai déjà noté qu'il me faudra >en rajouter une pour les critères de tri selon les langues). Y a-t-il un >endroit où on peut récupérer une liste des signes et des codes ISO/CEI >10646 ? [Alain] : La norme comporte un © qui en rend *pour l'instant* légalement difficile la reproduction gratuite. La liste des noms de caractères (avec certains glyphes si l'on dispose d'un fureteur approprié, dont Tango) et du codage de la version actuelle (excluant le chinois et le hangoul coréen) est toutefois documentée en français sur le site d'Alis Technologies à l'adresse http://babel.alis.com:8080/codage/iso10646/index.html Cette liste n'inclut toutefois pas les nombreux amendements (ajouts de caractères, et un seul changement embêtant, celui du hangoul coréen) qui ont été adoptés ou soumis depuis 1993 (dont le braille). L'on prévoit cristalliser une nouvelle version en mars de cette année pour republication. La version française, inédite, va jusqu'à l'amendement 4 (elle est donc en avance sur la version anglaise publiée il y a quelques années) pour l'instant mais l'on tente de synchroniser sa publication avec la republication de la version anglaise. Il est question que l'on rende publique la version anglaise... la société Internet a demandé (quasi exigé, en fait) cette faveur à l'ISO (et il y a des précédents pour certaines normes stratégiques, donc il y a de l'espoir). Si cela se fait, l'on pourra très probablement faire pareil en français. On peut aussi se procurer la version anglaise du jeu de caractères UNICODE (au même niveau que la version française inédite, plus le codage nouveau du hangoul coréen) par l'intermédiaire du consortium UNICODE lui-même (publication chez Addison-Wesley), à une fraction du prix actuel de la norme ISO. Le livre est offert avec un cédérom documentant plusieurs tables utiles aux développeurs. Alain LaBonté Québec
- Re: Ordre alphabetique, (continued)
- Re: Ordre alphabetique, Olivier RANDIER (15/01/1998)
- Re: Ordre alphabetique, andré bourlakoff (14/01/1998)
- Re: ISO/CEI 10646 (était : ordre alphabetique), Olivier RANDIER (15/01/1998)
- ISO/CEI 10646 et UNICODE : un peu de vulgarisation, Alain LaBonté <=
- Re: Ordre alphabetique, Jean Fontaine (15/01/1998)
- Re: Ordre alphabetique, Thierry Bouche (15/01/1998)
- Re: Ordre alphabetique, Alain LaBonté (15/01/1998)
- Digramme soudé verticalement 'ou' (8), Alain LaBonté (15/01/1998)
- Re: Ordre alphabetique, Jean Fontaine (16/01/1998)