Archive Liste Typographie
Message : Re: [typo] Unicode et autres

(Thierry Bouche) - Jeudi 13 Février 2003
Navigation par date [ Précédent    Index    Suivant ]
Navigation par sujet [ Précédent    Index    Suivant ]

Subject:    Re: [typo] Unicode et autres
Date:    Thu, 13 Feb 2003 17:55:07 +0100
From:    Thierry Bouche <thierry.bouche@xxxxxxxxxxxxxxx>


Le mercredi 12 février 2003, à 17:18:04, Foucauld Perotin écrivit :

FP> Bonjour, 

FP> J'ai continué à essayer de comprendre les conséquences pratiques 
FP> du balisage conseillé des exposants, qui est donc la seule modalité 
FP> suggérée pour coder les onze supérieures utilisées en typographie 
FP> française. 

FP> Ma question initiale concernait d'une part la typographie 
FP> « soignée », pour laquelle la technologie OpenType semble apporter 
FP> une réponse qui pourra être considérée comme satisfaisante, mais 
FP> aussi le traitement des textes en clair au sein des bases de 
FP> données.

L'idée que défendent les avocats d'OpenType+Unicode, c'est justement
que ça permet[trait] de faire cohabiter typo soignée et préservation
du texte en clair.

Du point de vue de la typo soignée, unicode ou pas, opentype ou pas,
on peut toujours aller chercher le bon glyphe au bon endroit, et c'est
ce qu'on a toujours fait. Opentype, ou tout autre système de métriques
intelligent permet d'imprimer des choses non unicode (petites caps,
supérieures, ligatures, swash...) en conservant un texte clair au
niveau source (la source contenant donc un mélange caractères unicode
plus balises qui activent telle ou telle fonctionnalité de la police
opentype), mais surtout aussi au niveau formaté (PDF+toUnicode) : il
est possible de copier-coller un truc hautement typographié à partir
d'un PDF et de récupérer le texte nu plutôt que des codes de
caractères bizarres dans une police non standard.

Pour répondre à Patrick Andries, il est évident que le format de
police ne va pas remplacer les tâches complexes d'un programme de mise
en pages, on peut seulement espérer que la collaboration des deux
permette de mieux préserver le « sens » (en admettant que le sens, ce
soit le flot de caractères unicode) sans perdre en contrôle et
raffinement typo. M'enfin, tout ça c'est bien joli, mais la seule
application qui utilise un peu opentype, c'est InDesign, et le moteur
opentype de windows (uniscribe) ne s'intéresse qu'au multilinguisme,
pas aux ligatures intelligentes pour la compo avec l'alphabet latin.


FP> Bien sûr, si l'on peut rechercher n'importe quel mot de n'importe 
FP> quelle langue, latine ou non, pas question de placer un bout de 
FP> texte en exposant dans une recherche Google, ni d'ailleurs de le 
FP> baliser... On peut pourtant souhaiter chercher ce qui se dit 
FP> sur le Web au sujet de Mgr Dupanloup. On constate alors que, pour 
FP> Google, le passage en exposant est considéré comme un changement 
FP> de mot, analogue à n'importe quel séparateur ou signe de ponctuation. 

FP> Ainsi, si vous recherchez les pages contenant le texte
FP> « M<sup>gr</sup> Dupanloup », il vous faudra faire la recherche 
FP> "M gr Dupanloup". Idem pour "G al Boulanger", "XIX e siècle", etc. 

C'est juste. Je m'aperçois que les quelques pages sur lesquelles
j'avais trouvé des 2<sup>e</sup> sont en fait des cas aberrants, du
genre : 2&lt;SUP>e&lt;/SUP>... il est strictement impossible de
chercher par exemple « 1.ª encuentra de psicoanálisis : neurosis
obsesivo-compulsivap » (1.ª matchant en fait tous les 1 !)

FP> On peut éventuellement considérer cette particularité de Google
FP> comme un bug susceptible d'être corrigé.

que serait la correction, c'est ça la vraie question ! Bon, on admet
dans un environnement « machine à écrire » (ou courriel) de noter les
abréviations avec sup. en perdant cette précision : Mme, Mlle, etc.
(dans le etc. se trouvent donc les Nos, nos, Bon & Con qui ont déjà prouvé
leur grande efficacité sur cette liste !). Donc google ne devrait pas
insérer des espaces quand il retire les balises, mais est-ce que ceci
suffirait ?

FP> Mais n'est-ce pas aussi
FP> un exemple du risque de confusion auquel conduit l'absence de ces
FP> quelques supérieures dans Unicode ?

Vieille rengaine, mais la bagarre est perdue. Sauf à inventer un autre
unicode, meilleur, qui recueillerait l'assentiment général et
supplanterait celui-ci... On peut d'ailleurs se demander pourquoi
l'iso a entériné unicode plutôt que de réfléchir à un concurrent.


La critique que fait Yannis n'est pas inintéressante. Le point qui m'a
le plus retenu, c'est peut-être l'idée que, si nous savons bien ce que
c'est que l'écrit, le texte imprimé, nous n'avons aucune idée de ce
que pourrait être un texte immatériel. Unicode a choisi, dans
l'urgence (à une époque déjà bien lointaine où l'e-biz et l'e-book
semblaient devoir tout supplanter en quelques semaines), de donner un
sens concret et pratiquement utilisable à cette idée. En fait, je
crois que personne ne sait ce qu'est une « small latin letter », un
« hair thin space » du point de vue du sens linguistique que ces
« caractères » supposément transportent. Unicode fait constamment
référence à la pratique de l'imprimerie, en en retirant malhabilement
les détails jugés trop visiblement « glyphiques », détails qui
contiennent bien souvent tout le « sens » desdits « caractères ». Je
pense aussi qu'il y a eu une tentative de ridiculisation de la notion
de glyphe (en disant qu'on ne va pas coder un a italique, un A
gothique ajouré, etc.) pour mettre en avant celle de caractère.

Bon, j'arrête parce que je suis en fait complètement grippé et j'ai
l'impression que je commence à délirer sous l'emprise de la fièvre !

En tout cas, une chose étrange : les deux supérieures ª et º sont bien
présentes en iso-latin-1, qui est aussi un codage de caractère.
Pourquoi diable l'abréviation fº serait-elle unicode-correcte, ou 1.º
et pas 1er ?

-- 
Cordialement,
 Thierry