Re: Unicode (suite)

----- Message d'origine -----

Pour compléter les critiques générales sur Unicode de mon précédent message, voici un florilège d'incohérences relevées dans le seul premier tableau, à la première lecture.

[PA] J'apprécie ces commentaires et vais faire ce que je peux pour corriger les erreurs grossières.

2762 gros point d'exclamation de fantaisie
A-t-on vraiment besoin de ça dans Unicode ? Ce n'est qu'un (laid) pictogramme destiné à pallier l'absence d'imagination de certain graphistes.

[PA] Habituellement, ce genre de caractères a été inclus à des fins de compatibilité avec des normes préexistantes. Unicode se veut universel. Dans ce rôle de jeu de caractères pivot, il doit pouvoir coder un texte dans un jeu de caractères en Unicode et le retranscrire sans perte d'information vers le jeu de caractères d'origine. C'est ce que font beaucoup de produits aujourd'hui : systèmes d'exploitation, fureteurs Internet, bases de données. Il cache leur changement d'architecture au client. C'est la seule façon d'introduire graduellement Unicode auprès d'une nombre suffisant de systèmes tout en conservant les données actuelles.

[PA] Exclure ce genre de caractères aurait donc signifier que la « convertibilité » bidirectionelle n'aurait plus été garantie avec des jeux de caractères qui utilisent ce caractère. C'était exclure autant de systèmes, d'utilisateurs et perpétuer le foisonnement de jeux de caractères. Les jeux de caractères choisis par Unicode sont, apparemment, ceux qui étaient les mieux établis à partir de mai 1993.

0022 GUILLEMET ANGLAIS
= guillemet APL, petit guillemet
Non ! Ceci n'est pas un guillemet anglais, c'est un guillemet dactylographique, utilisé comme caractère de substitution à la saisie pour les guilles (qu'ils soient anglais ou autres). Le mieux, à mon avis serait quelque chose d'explicite, comme « GUILLEMET DE SAISIE ».
Je rappelle aussi que l'_expression_ « guillemets anglais » est largement abusive.

[PA] Y a-t-il consensus ?

02BA lettre modificative seconde
2033 double prime
Quelqu'un pourrait-il m'expliquer la différence entre la seconde et la double prime ? J'avoue que ça m'échappe...

[PA] À mon avis, deux caractères distincts dans un des jeux de caractères fondateurs.

3003 guillemets de répétition
Là, je m'interroge. Le glyphe représenté ressemble à une seconde ou à un guille anglais façon Futura. Passons sur le fait que les guillemets de répétitions sont incorrects en français (voir la FAQ guillemets) et qu'en tout état de cause nous utiliserions des guilles français fermants. Si l'on doit imiter la pratique manuscrite, alors le seul signe approprié pour ça est sans doute le 0022, et ce serait son seul usage typographique raisonnable. Sinon, le mieux est un vrai guillemet double apostrophe.

[PA] Ce caractère est affecté au bloc CJC, il s'agit donc de typographique japonaise ou chinoise.

0026 PERLUÈTE
= esperluète, esperluette
Il me semble que le terme le plus utilisé est « esperluette ».

[PA] Très difficile et laborieux de changer les noms ISO 10646, il faut vraiment une raison impérieuse (faute grossière de sens ou d'orthographe).

0027 APOSTROPHE
Non et non ! Ce signe, comme le 0022, est un caractère dactylographique de substitution à la saisie. La seule apostrophe est le caractère 2019.

[PA] L'annotation indique déjà que le caractère préféré est 2019. Le nom est celui de l'ISO 10646 et ici on a un vrai problème : les normes ISO utilisent les noms des caractères comme moyen de correspondance.

002C VIRGULE
= séparateur décimal
Risqué, ça. Ce n'est valable qu'en français, et encore (pas en Suisse, par exemple).

[PA] C'est un nom optionnel, pour la Suisse êtes-vous sûr ?

002D TIRET
= trait d'union, signe moins
Non ! Ce signe n'est en aucun cas un tiret. C'est un trait d'union, et ça peut, à la rigueur, être considéré comme un signe moins de substitution (comme pour les guillemets).

[PA] Oui, c'est une erreur. Je vais la corriger. Les autres normes ISO utilisent quelque chose comme « trait d'union-signe moins ». Je vais vérifier.

2010 trait d'union
Pourquoi ce signe est-il codé deux fois ?

[PA] Pour le distinguer dans sa fonction, je suppose. 002D peut également être un signe moins.

2011 trait d'union liant
Insécable, ça suffisait pas ? Ça éviterait le pléonasme...

[PA] Ici, je suis un peu perdu, pardonnez-moi. Trait d'union liant est l'ancien nom de ce caractère, il s'appelle depuis quelques mois « trait d'union insécable », voir les PDF « mis en toile ».

2012 tiret numérique
Késaco ?
[PA] Je ne suis que l'esclave de la norme : il s'agit d'un tiret d'une chasse égale aux chiffres [de la police, oui je sais].

2212 signe moins
2013 tiret demi-cadratin

2014 TIRET CADRATIN
= tiret sur cadratin
s'utilise en paires à la façon des parenthèses
2015 BARRE HORIZONTALE
introduit les citations
Voilà une distinction subtile autant qu'inutile !
[PA] L'annotation est-elle fausse ? Je suis prêt à la corriger.

002F BARRE OBLIQUE
2044 barre fractionnaire
Pourquoi pas « BARRE DE FRACTION », tout bêtement ?

[PA] J'ajouterai ce nom qui me semble assez fréquent, en effet, comme nom optionnel.

2215 barre oblique de division
???

[PA] ???

003B POINT-VIRGULE
037E point d'interrogation grec
Pourquoi coder deux fois le même glyphe ? Encore une absurdité de l'approche caractère.

[PA] Peut-être mais je n'y puis rien. Notez que l'on peut imaginer des cas où cela est intéressant : les logiciels de segmentation de phrase (fonction fréquente en fait). Il est plus simple pour eux de savoir qu'un caractère x marque la fin d'une subordonnée (point-virgule) sans chaque fois se demander dans quelle langue on travaille. Dans le modèle Unicode, c'est à la police de faire correspondre ces deux caractères au même glyphe. On ne perd pas de place dans la police (une simple entrée supplémentaire dans la cmap pour les TTF).

003F POINT D'INTERROGATION
203D point exclarrogatif
2048 point d'interrogation-exclamation
2049 point d'exclamation-interrogation
Autant l'exclarrogatif peut se justifier, autant je ne comprends pas l'intérêt de perdre deux codes pour des combinaisons inutiles de deux caractères !

[PA] Parce que les deux composants sont juxtaposés horizontalement alors que les autres caractères suivent verticalement (ceci ne s'utilisent que dans les textes verticaux). Je suppose qu'on aurait pu se fier à un protocole de plus haut niveau pour inverser momentanément la directionalité du texte, mais est-ce que cela aurait été plus simple ?

0042 LETTRE MAJUSCULE LATINE B
212C majuscule b de ronde
C'est un détail, mais je trouve ce « de ronde » inutilement précis. Ce signe est une lettre de scripte, pas nécessairement de ronde. D'ailleurs, le modèle proposé est de l'anglaise...

[PA] Bon est-ce que ceci est valable pour toutes les lettres dites « de ronde » dans ce bloc (ou ailleurs) ? Que proposeriez-vous donc comme nom « majuscule b anglaise », « majuscule b de scripte » ?

2102 c majuscule ajouré
On a plus l'habitude de dire « éclairé ».

[PA] S'il y a consensus, je peux ajouter ce nom en option.

005B CROCHET GAUCHE
= crochet ouvrant
On remercie les traducteurs de nous avoir évité les « crochets carrés » de la version originale !
On signale une discussion sur les signes allant par paires. Je reste persuadé qu'ouvrant et fermant sont plus clairs et moins ambigus, sauf pour les guillemets (où cela peut changer selon les langues) et les accolades (qui ne vont par paires qu'en maths).

[PA] Les crochets aussi pourraient être inversés en arabe. C'est pourquoi on a préféré le terme crochet gauche, tout en laissant crochet ouvrant comme nom facultatif.

0060 ACCENT GRAVE
02CB lettre modificative accent grave
0300 diacritique accent grave
Il y a là des distinctions qui m'échappent, j'avoue. Deux caractères, je veux bien, mais trois ?

[PA] Oui, c'est vrai les deux premiers caractères se comportent de manière identique. Je ne sais pas pourquoi il en est ainsi, dans le doute : convertibilité avec des jeux de caractères fondateurs ?

0067 LETTRE MINUSCULE LATINE G
0261 lettre minuscule latine g cursif
Pourquoi avoir codé ce qui n'est qu'une variante glyphique du même caractère ? En plus, cursif est inexact. Cette forme est italique d'origine, même si elle a été ensuite utilisée aussi pour le romain. La distinction est compréhensible avec la fonte utilisée pour les tableaux, elle le sera beaucoup moins avec l'Arial Unicode, par exemple.

[PA] L'API elle-même distinguait ces deux g (g à queue « bouclée » [n° AFII E2E3] et g à queue « ouverte » [n° AFII E2DF]), mais cela ne semble plus être le cas. Dans son Handbook of the International Phonetic Association (1999), elle déclare maintenant ces deux caractères équivalents. Sans doute l'origine de ce double codage.

Merci beaucoup des commentaires,

P. Andries

Dorval (Québec)

Subject:	Re: Unicode (suite)
Date:	Sat, 8 Jul 2000 12:24:29 -0400
From:	"Patrick Andries" <pandries@xxxxxxxxx>