----- Message d'origine -----
Pour compléter les critiques générales sur Unicode de mon précédent
message, voici un florilège d'incohérences relevées dans le seul premier
tableau, à la première lecture.
[PA] J'apprécie ces commentaires et vais faire ce
que je peux pour corriger les erreurs grossières.
2762 gros point d'exclamation de
fantaisie
A-t-on vraiment besoin de ça dans Unicode ? Ce n'est qu'un (laid)
pictogramme destiné à pallier l'absence d'imagination de certain
graphistes.
[PA] Habituellement, ce genre de caractères a été
inclus à des fins de compatibilité avec des normes préexistantes. Unicode se
veut universel. Dans ce rôle de jeu de caractères pivot, il doit pouvoir
coder un texte dans un jeu de caractères en Unicode et le retranscrire sans
perte d'information vers le jeu de caractères d'origine. C'est ce que
font beaucoup de produits aujourd'hui : systèmes d'exploitation, fureteurs
Internet, bases de données. Il cache leur changement d'architecture au client.
C'est la seule façon d'introduire graduellement Unicode auprès d'une nombre
suffisant de systèmes tout en conservant les données actuelles.
[PA] Exclure ce genre de caractères aurait donc
signifier que la « convertibilité » bidirectionelle n'aurait plus été
garantie avec des jeux de caractères qui utilisent ce caractère. C'était
exclure autant de systèmes, d'utilisateurs et perpétuer le foisonnement de
jeux de caractères. Les jeux de caractères choisis par Unicode sont,
apparemment, ceux qui étaient les mieux établis à partir de mai
1993.
0022 GUILLEMET ANGLAIS
= guillemet APL, petit guillemet
Non !
Ceci n'est pas un guillemet anglais, c'est un guillemet dactylographique,
utilisé comme caractère de substitution à la saisie pour les guilles (qu'ils
soient anglais ou autres). Le mieux, à mon avis serait quelque chose
d'explicite, comme « GUILLEMET DE SAISIE ».
Je rappelle aussi que
l'_expression_ « guillemets anglais » est largement abusive.
[PA] Y a-t-il consensus ?
02BA lettre modificative seconde
2033 double prime
Quelqu'un
pourrait-il m'expliquer la différence entre la seconde et la double prime ?
J'avoue que ça m'échappe...
[PA] À mon avis, deux caractères distincts dans
un des jeux de caractères fondateurs.
3003 guillemets de répétition
Là, je m'interroge. Le glyphe
représenté ressemble à une seconde ou à un guille anglais façon Futura.
Passons sur le fait que les guillemets de répétitions sont incorrects en
français (voir la FAQ guillemets) et qu'en tout état de cause nous
utiliserions des guilles français fermants. Si l'on doit imiter la pratique
manuscrite, alors le seul signe approprié pour ça est sans doute le 0022, et
ce serait son seul usage typographique raisonnable. Sinon, le mieux est un
vrai guillemet double apostrophe.
[PA] Ce caractère est affecté au bloc CJC, il s'agit donc de
typographique japonaise ou chinoise.
0026 PERLUÈTE
= esperluète, esperluette
Il me semble que le
terme le plus utilisé est « esperluette ».
[PA] Très difficile et laborieux de changer les
noms ISO 10646, il faut vraiment une raison impérieuse (faute grossière de
sens ou d'orthographe).
0027 APOSTROPHE
Non et non ! Ce signe, comme le 0022, est un
caractère dactylographique de substitution à la saisie. La seule apostrophe
est le caractère 2019.
[PA] L'annotation indique déjà que le caractère
préféré est 2019. Le nom est celui de l'ISO 10646 et ici on a un vrai problème
: les normes ISO utilisent les noms des caractères comme moyen de
correspondance.
002C VIRGULE
= séparateur décimal
Risqué, ça. Ce n'est valable
qu'en français, et encore (pas en Suisse, par exemple).
[PA] C'est un nom optionnel, pour la Suisse êtes-vous sûr ?
002D TIRET
= trait d'union, signe moins
Non ! Ce signe
n'est en aucun cas un tiret. C'est un trait d'union, et ça peut, à la rigueur,
être considéré comme un signe moins de substitution (comme pour les
guillemets).
[PA] Oui, c'est une erreur. Je vais la corriger. Les autres normes ISO
utilisent quelque chose comme « trait d'union-signe moins ». Je vais
vérifier.
2010 trait d'union
Pourquoi ce signe est-il codé deux fois ?
[PA] Pour le distinguer dans sa fonction, je suppose. 002D peut
également être un signe moins.
2011 trait d'union liant
Insécable, ça suffisait pas ? Ça éviterait le
pléonasme...
[PA] Ici, je suis un peu perdu, pardonnez-moi. Trait d'union liant
est l'ancien nom de ce caractère, il s'appelle depuis quelques mois «
trait d'union insécable », voir les PDF « mis en toile ».
2012 tiret numérique
Késaco ?
[PA]
Je ne suis que l'esclave de la norme : il s'agit d'un tiret d'une chasse égale
aux chiffres [de la police, oui je sais].
2212 signe moins
2013 tiret demi-cadratin
2014 /fontfamily> /fontfamily>TIRET CADRATIN
= tiret sur
cadratin
s'utilise en paires à la façon des parenthèses
2015 BARRE
HORIZONTALE
introduit les citations
Voilà une distinction subtile autant
qu'inutile !
[PA] L'annotation est-elle fausse ? Je
suis prêt à la corriger.
002F BARRE OBLIQUE
2044 barre fractionnaire
Pourquoi pas «
BARRE DE FRACTION », tout bêtement ?
[PA] J'ajouterai ce nom qui me semble assez
fréquent, en effet, comme nom optionnel.
2215 barre oblique de division
???
[PA] ???
003B POINT-VIRGULE
037E
point d'interrogation grec
Pourquoi coder deux fois le même glyphe ? Encore
une absurdité de l'approche caractère.
[PA] Peut-être mais je n'y puis rien. Notez que l'on peut imaginer des
cas où cela est intéressant : les logiciels de segmentation de phrase
(fonction fréquente en fait). Il est plus simple pour eux de savoir qu'un
caractère x marque la fin d'une subordonnée (point-virgule) sans chaque
fois se demander dans quelle langue on travaille. Dans le modèle Unicode,
c'est à la police de faire correspondre ces deux caractères au même glyphe. On
ne perd pas de place dans la police (une simple entrée supplémentaire dans la
cmap pour les TTF).
003F POINT D'INTERROGATION
203D point exclarrogatif
2048 point
d'interrogation-exclamation
2049 point
d'exclamation-interrogation
Autant l'exclarrogatif peut se justifier,
autant je ne comprends pas l'intérêt de perdre deux codes pour des
combinaisons inutiles de deux caractères !
[PA] Parce que les deux composants sont
juxtaposés horizontalement alors que les autres caractères suivent
verticalement (ceci ne s'utilisent que dans les textes verticaux). Je suppose
qu'on aurait pu se fier à un protocole de plus haut niveau pour inverser
momentanément la directionalité du texte, mais est-ce que cela aurait été plus
simple ?
0042 LETTRE MAJUSCULE LATINE B
212C majuscule b de ronde
C'est
un détail, mais je trouve ce « de ronde » inutilement précis. Ce signe est une
lettre de scripte, pas nécessairement de ronde. D'ailleurs, le modèle proposé
est de l'anglaise...
[PA] Bon est-ce que ceci est valable pour toutes
les lettres dites « de ronde » dans ce bloc (ou ailleurs) ? Que
proposeriez-vous donc comme nom « majuscule b anglaise », « majuscule b de
scripte » ?
2102 c majuscule ajouré
On a plus l'habitude de dire « éclairé
».
[PA] S'il y a consensus, je peux ajouter ce nom en option.
005B CROCHET GAUCHE
= crochet ouvrant
On remercie les
traducteurs de nous avoir évité les « crochets carrés » de la version
originale !
On signale une discussion sur les signes allant par paires. Je
reste persuadé qu'ouvrant et fermant sont plus clairs et moins ambigus, sauf
pour les guillemets (où cela peut changer selon les langues) et les accolades
(qui ne vont par paires qu'en maths).
[PA] Les crochets aussi pourraient être inversés
en arabe. C'est pourquoi on a préféré le terme crochet gauche, tout en
laissant crochet ouvrant comme nom facultatif.
0060 ACCENT GRAVE
02CB lettre modificative accent grave
0300
diacritique accent grave
Il y a là des distinctions qui m'échappent,
j'avoue. Deux caractères, je veux bien, mais trois ?
[PA] Oui, c'est vrai les deux premiers caractères
se comportent de manière identique. Je ne sais pas pourquoi il en est ainsi,
dans le doute : convertibilité avec des jeux de caractères fondateurs
?
0067 LETTRE MINUSCULE LATINE G
0261 lettre minuscule latine g
cursif
Pourquoi avoir codé ce qui n'est qu'une variante glyphique du même
caractère ? En plus, cursif est inexact. Cette forme est italique d'origine,
même si elle a été ensuite utilisée aussi pour le romain. La distinction est
compréhensible avec la fonte utilisée pour les tableaux, elle le sera beaucoup
moins avec l'Arial Unicode, par exemple.
[PA] L'API elle-même distinguait ces deux g (g à queue
« bouclée » [n° AFII E2E3] et g à queue « ouverte » [n° AFII E2DF]),
mais cela ne semble plus être le cas. Dans son Handbook of the International
Phonetic Association (1999), elle déclare maintenant ces deux caractères
équivalents. Sans doute l'origine de ce double codage.
Merci beaucoup des commentaires,
P. Andries
Dorval (Québec)