Archive Liste Typographie
Message : Re: [typo] Unicode et autres

(Foucauld Perotin) - Mercredi 12 Février 2003
Navigation par date [ Précédent    Index    Suivant ]
Navigation par sujet [ Précédent    Index    Suivant ]

Subject:    Re: [typo] Unicode et autres
Date:    Wed, 12 Feb 2003 17:18:04 +0100
From:    "Foucauld Perotin" <fp.listes@xxxxxxxxxxx>

Bonjour,

J'ai continué à essayer de comprendre les conséquences pratiques
du balisage conseillé des exposants, qui est donc la seule modalité
suggérée pour coder les onze supérieures utilisées en typographie
française.

Ma question initiale concernait d'une part la typographie
« soignée », pour laquelle la technologie OpenType semble apporter
une réponse qui pourra être considérée comme satisfaisante, mais
aussi le traitement des textes en clair au sein des bases de
données.

La base de données que tout le monde a sous la main, c'est Google,
et justement Google se comporte extrêmement bien avec des contenus
multilingues, en utilisant Unicode, pour peu que le système
d'exploitation et le butineur soient à la hauteur (Mac OS X et
Safari forment un couple étonnant de ce coté là...)

Bien sûr, si l'on peut rechercher n'importe quel mot de n'importe
quelle langue, latine ou non, pas question de placer un bout de
texte en exposant dans une recherche Google, ni d'ailleurs de le
baliser... On peut pourtant souhaiter chercher ce qui se dit
sur le Web au sujet de Mgr Dupanloup. On constate alors que, pour
Google, le passage en exposant est considéré comme un changement
de mot, analogue à n'importe quel séparateur ou signe de ponctuation.

Ainsi, si vous recherchez les pages contenant le texte
« M<sup>gr</sup> Dupanloup », il vous faudra faire la recherche
"M gr Dupanloup". Idem pour "G al Boulanger", "XIX e siècle", etc.

Il est à craindre que ça n'aide pas beaucoup Thierry à trouver
quelque canton par une recherche sur (à la ?) "C on", qui conduira
plus probablement à repérer des phrases du genre : « Il est
important de noter qu'en langage C, on peut TOUT faire. » :o)

On peut éventuellement considérer cette particularité de Google
comme un bug susceptible d'être corrigé. Mais n'est-ce pas aussi
un exemple du risque de confusion auquel conduit l'absence de ces
quelques supérieures dans Unicode ?

FP